专栏名称: 管理智慧AI+
专注商业管理,每日发布管理、职场、互联网转型、社区实践方面的优秀文章,超过116万商业人士订阅。倾力打造的“千禾会”社区——汇聚国内数十位顶尖社区实践先行者,做你的社区实践伙伴,目前已正式上线!
目录
相关文章推荐
人力资源管理  ·  我领导跳槽把我捎走了,他说缺个马屁精,我不在 ... ·  12 小时前  
环球人力资源智库  ·  限时免费!广州HR盛会来袭:数字化转型+AI ... ·  2 天前  
人力葵花  ·  试用期必备文件.doc ·  2 天前  
人力资源法律  ·  60岁后签了劳务协议,上班猝死还能视同工伤吗 ... ·  2 天前  
51好读  ›  专栏  ›  管理智慧AI+

LeCun新作反杀AGI派!AI连「鸟」都搞不懂,拿什么超越人类?

管理智慧AI+  · 公众号  · 职场  · 2025-06-04 06:55

主要观点总结

本文探讨了LLM模型在概念理解方面的表现,通过实验揭示了LLM模型在精细任务中存在的缺陷。文章引用了心理学实验数据来对比LLM与人类在概念形成过程中的差异,并统一在信息论框架下进行研究。文章还详细阐述了信息论分析框架的三大核心问题、统一框架以及实证研究方面的内容。

关键观点总结

关键观点1: LLM模型在处理概念任务时存在的问题

文章指出LLM模型在处理概念任务时,虽然能够在粗分类任务中表现优秀,但在精细任务中却存在明显的缺陷。模型无法像人类一样理解概念的深层含义,无法理解人类对于某些概念的特定判断和推理。

关键观点2: 信息论在分析LLM与人类概念形成差异中的应用

文章借助信息论的分析框架,通过统一的信息论视角来探讨LLM和人类在概念形成过程中的差异。利用信息论的率失真理论和信息瓶颈原理,构建了目标函数来评估LLM和人类在表达效率与语义保真度之间的权衡。

关键观点3: LLM与人类在概念策略上的实证研究

文章通过实证研究,对比了LLM与人类在概念策略上的差异。采用了经典的心理实验数据集,通过k-means聚类等方法来模拟LLM的概念形成过程,并通过一系列指标来评估LLM与人类在概念分类、典型性判断和整体效率上的表现。


正文

请到「今天看啥」查看全文



三大关键发现

团队通过分析多个不同LLM的token嵌入,并将其与经典的人类分类基准进行对比,得出了3大关键发现。

发现1:LLM有点像人

大语言模型确实能建立与人类一致的概念分类,而且表现显著高于随机水平。

图1:LLM生成的聚类结果与人类概念分类呈显著一致性

图1中展示的是人类分类与LLM嵌入聚类之间的调整互信息(AMI)得分,横轴为模型大小。

结果取自三个心理学数据集的平均值。所有模型的表现都明显优于随机聚类。

LLM生成的聚类结果与人类定义的概念类别显著吻合,这表明 ,模型捕捉到了人类概念组织的关键特征。

意外惊喜: 小模型BERT竟然比超大模型表现更好! 这说明一个问题:模型不一定越大越聪明。

这一现象揭示除规模因素外,还有其他变量会影响类人化的范畴抽象能力。

这些发现证实,LLM能够从其嵌入表示中还原出与人类认知相似的宽泛范畴,从而为更深层次的比较分析提供了依据。

然而,这种表面上的类人能力仅限于概念范畴的粗略划分。

进一步深入分析,发现真相并不简单。

发现2:精细语义的「滑铁卢」

在处理细粒度语义时,LLM明显吃力。

虽然LLM能有效构建宏观概念范畴,但其内部表征与人类感知的细粒度语义区分,如item典型性、与类别原型的心理距离等,仅保持有限的一致性。

这表明LLM与人类在概念内部的信息组织方式上,存在本质差异。

原文图5:LLM嵌入距离与人类典型性判断之间的相关性

比如——它们知道麻雀和企鹅都是鸟,但没法理解:相比企鹅,麻雀是更「典型」的鸟。

模型内部的概念结构,和人类的直觉不在一个频道上。

在LLM中,item嵌入与其类别标签嵌入的相似性驱动因素,可能与人类典型性依赖的丰富多维标准,如感知属性、功能角色不同。

因此,LLM可能倾向于捕捉与类别标签更统计均匀的关联,从而低估了人类概念中以原型为中心的渐进性质。

更重要的是,这一偏差不仅体现在具体的典型性判断中,更在于LLM与人类在信息组织方式上的根本差异。

发现3:存在本质差异

LLM和人类大脑,优化的目标根本不是同一个!

· LLM追求极致压缩,尽量减少冗余。

· 人类追求丰富灵活,坚持保留上下文与适应性。

本质不同,注定思维方式不会一样。

这些发现揭示了当前人工智能与人类认知体系之间的重要差异,为构建更加贴近人类概念表征的LLM提供了方向。

这解释了为什么LLM既能展现出令人惊叹的能力,同时又错过了一些显而易见的拟人类式推理。

它们并没有出问题——

只是它们优化的是模式匹配,而不是人类使用的丰富、利用上下文的理解。

这意味着:

· 目前Scaling可能无法实现类似人类的理解能力;

· 大家需要找到更好的方法, 在压缩信息和保留语义丰富性之间取得平衡;

· 实现通用人工智能(AGI)可能需要 重新思考当前的优化目标。

简单来说,大模型就像是一台超级压缩机,拼命地把信息压缩,以消除冗余,追求最高效的模式匹配。

这让它们在处理大量数据时表现惊艳,但也丢掉了人类认知的精髓——

那些模糊的、语境化的、充满细微差别的意义。

还以之前的分类举例,人类会因为「知更鸟在树上唱歌」的画面强化「鸟」这一概念,而大模型只会冷冰冰地计算单词的统计概率。

这并不是LLM的「故障」,而是它们被设计成了「模式匹配的机器」。

接下来,具体看下实验的实施细节。







请到「今天看啥」查看全文