主要观点总结
文章主要探讨了LLM(大语言模型)在概念形成过程中与人类认知的差异,通过信息论框架进行了深入研究,并提出了三大关键发现。文章还介绍了研究的核心问题、研究框架和实证方法等。
关键观点总结
关键观点1: LLM在处理概念任务时的表现
LLM在处理粗糙分类任务时表现优秀,但在精细任务中表现不佳。它们无法像人类一样理解深层含义,存在概念结构与人类直觉的根本性错位。
关键观点2: LLM的缺陷原因
LLM追求极致的统计压缩,而人类追求适应性语义丰富。人类语言通过结构定义的范畴可能因语言而异,但这些范畴最终映射至一个共通的认知空间。
关键观点3: LLM与人类在概念表达上的差异
LLM在概念表达上与人类存在本质差异。它们只是进行模式匹配,并没有达到人类使用的丰富、利用上下文的理解。目前无法实现类似人类的理解能力,需要找到在压缩信息和保留语义丰富性之间的平衡。
正文
结果取自三个心理学数据集的平均值。所有模型的表现都明显优于随机聚类。
LLM生成的聚类结果与人类定义的概念类别显著吻合,这表明,
模型捕捉到了人类概念组织的关键特征
。
意外惊喜:
小模型
BERT
竟然比超大模型表现更好
!
这说明一个问题:
模型不一定越大越聪明
。
这一现象揭示除规模因素外,还有其他变量会影响类人化的范畴抽象能力。
这些发现证实,LLM能够从其嵌入表示中还原出与人类认知相似的宽泛范畴,从而为更深层次的比较分析提供了依据。
然而,这种表面上的类人能力仅限于概念范畴的粗略划分。
进一步深入分析,发现真相并不简单。
在处理
细粒度语义
时,LLM明显吃力。
虽然LLM能有效构建宏观概念范畴,但其内部表征与人类感知的细粒度语义区分,如item典型性、与类别原型的心理距离等,仅保持有限的一致性。
这表明LLM与人类在概念内部的信息组织方式上,存在本质差异。
原文图5:LLM嵌入距离与人类典型性判断之间的相关性
比如——它们知道
麻雀
和
企鹅
都是鸟,但没法理解:相比企鹅,麻雀是
更「典型」的鸟
。
模型内部的概念结构,和人类的直觉
不在一个频道上
。
在LLM中,item嵌入与其类别标签嵌入的相似性驱动因素,可能与人类典型性依赖的丰富多维标准,如感知属性、功能角色不同。
因此,LLM可能倾向于捕捉与类别标签更统计均匀的关联,从而低估了人类概念中以原型为中心的渐进性质。
更重要的是,这一偏差不仅体现在具体的典型性判断中,更在于LLM与人类在信息组织方式上的根本差异。
LLM和人类大脑,
优化的目标根本不是同一个
!
·
LLM追求
极致压缩
,尽量减少冗余
。
·
人类追求
丰富灵活
,坚持保留上下文与适应性
。
本质不同,注定思维方式不会一样。
这些发现揭示了当前人工智能与人类认知体系之间的重要差异,为构建更加贴近人类概念表征的LLM提供了方向。
这解释了为什么LLM既能展现出令人惊叹的能力,同时又错过了一些显而易见的拟人类式推理。
它们并没有出问题——
只是它们优化的是模式匹配,而不是人类使用的丰富、利用上下文的理解。
这意味着:
·
目前Scaling可能无法实现类似人类的理解能力
;
·
大家需要找到更好的方法,
在压缩信息和保留语义丰富性之间取得平衡
;
·
实现通用人工智能(AGI)可能需要重
新思考当前的优化目标
。
简单来说,大模型就像是一台超级压缩机,拼命地把信息压缩,以消除冗余,追求最高效的模式匹配。
这让它们在处理大量数据时表现惊艳,但也丢掉了人类认知的精髓——
那些模糊的、语境化的、充满细微差别的意义。
还以之前的分类举例,人类会因为「知更鸟在树上唱歌」的画面强化「鸟」这一概念,而大模型只会冷冰冰地计算单词的统计概率。
这并不是LLM的「故障」,而是它们被设计成了「模式匹配的机器」。