正文
Grok 3还顺手优化了一下原文,改成了:“价值投资需要的性格特质——在群体癫狂时保持理性、在长期寂寞中坚守认知——不仅靠智商,更跟前额叶对杏仁核的调控能力有关。研究表明,这部分受先天神经结构影响,但通过长期训练,比如养成认知习惯,后天仍有一定改善空间。”你看,这改得多自然,既科学又不那么咄咄逼人。
这个过程让我特别兴奋。一个模型生成内容,另一个模型挑刺,最后得出更靠谱的结论,这不就是一种“批评与自我批评”的实践吗?我觉得这事儿值得深挖,咱们接着聊。
二、大模型的“眼高手低”是怎么回事?
看到DeepSeek R1和Grok 3的互动,我突然想到一个现象——大模型好像都有点“眼高手低”。啥意思呢?就是它们输出的东西有时候不尽如人意,但它们自己能看出问题在哪儿。比如DeepSeek R1写了个分析,乍一看挺唬人,但细看有点偏颇;而Grok 3一上手,就能指出问题,还能优化得更好。这让我好奇,这种“眼高手低”到底是怎么来的?
后来我跟Grok 3聊了聊,它从理论角度给我掰开了揉碎了分析。大模型的生成过程是基于概率预测的,比如预测下一个词是什么,倾向于挑高概率的“安全”选项,像“天气很好”这种中庸表达。但它们评估的时候,能调用更广的上下文和训练数据里的模式,发现“哎呀,这太简单了,应该更生动点”。这就导致“手”——生成能力——跟不上“眼”——评估能力。
还有个原因跟架构有关。大模型用的是自回归方式,一步步生成内容,每步都追求局部合理,但整体可能平平无奇。事后一看,它们能从全局视角发现问题,比如逻辑不连贯或者缺乏创意。这种不对称让我想到,模型其实有点像新手写作者:写的时候稀里糊涂,回头一看却能挑出一堆毛病。
我觉得这挺有意思的。“眼高手低”虽然是个短板,但也说明模型有自我提升的潜力。如果能让它们把“眼”的洞察力用在“手”上,是不是就能输出更好的东西?这就引出了我接下来的想法——“自优化”。
三、“批评与自我批评”:大模型的进化之路
既然大模型能看出自己的问题,那能不能让它们自我审核、优化呢?我管这叫“自优化”。比如我让Grok 3写段关于“人工智能未来”的文字,它先说:“人工智能未来会很厉害,可能改变我们的生活方式。”然后它自己一反思,觉得太泛了,就改成:“人工智能的未来充满潜力,可能会通过精准医疗延长寿命、在教育中实现个性化教学,甚至推动无人驾驶普及,深刻改变我们的生活。”你看,这不就从平淡变生动了吗?
但光靠自己批评可能不够,因为模型难免有盲点。这时候我就想到DeepSeek R1和Grok 3的案例——何不引入“他者批评”呢?我管这叫“批评与自我批评”。一个模型生成初稿,另一个模型挑刺,最后再综合优化。这种跨模型协作就像人类团队,一个写草稿,一个审稿,效果肯定比单打独斗强。