正文
contextual flexibility
)和广泛的功能实用性(尽管按照本次提出的框架来衡量的话,这会在统计紧凑性方面付出一定代价)。
研究团队认为,他们针对人类概念所观察到的高熵和损失函数值,很可能反映了人类认知系统针对更广泛复杂认知需求的一种优化。这些需求包括:为实现稳健泛化而形成的细微表征;支持强大的推理能力比如因果推理、功能推理和目标导向推理;通过可学习和可共享的结构实现有效沟通,并将概念锚定于丰富的多模态体验中。
其指出,大脑的神经结构本身可能天生倾向于分布式、上下文敏感且适应性强的表征,而非倾向于静态的最优压缩。因此,人类认知似乎会天然地
“
投资
”
于本次研究团队统计指标中所认为的
“
低效性
”
,以便换取更强的适应性和灵活性。
在特定的对齐任务之中,谷歌公司的
BERT
这样的小型编码器模型有着出色表现,这表明模型架构设计和预训练目标会显著影响大模型抽象出类人概念信息的能力。
本质上,大模型擅长统计可压缩性,它走的是一条与人类认知截然不同的表征道路。而人类认知更加注重适应性的丰富度和功能实用性,并且人类往往将这些置于纯粹的统计效率之上。这一核心差异至关重要,因为它突显了
AI
在追求类人理解方面的当前局限性,从而能为后续研究指明关键方向。
图
|
相关论文(来源:
arXiv
)
大模型中的意义之谜
据了解,人类通过语义压缩将多样实例映射为抽象表征,在保持意义完整的同时将知识组织为紧凑的类别体系,例如知更鸟和蓝松鸦都属于鸟类,大多数鸟类都会飞等等,这些概念反映了表达保真度与表征简洁性之间的权衡。
尽管大模型展现出了卓越的语言能力,但是人们依然不清楚它们的内部表示是否在压缩效率与语义保真之间达成了类似于人类的权衡。
率失真理论(
RDT
,
Rate-Distortion Theory
)是信息论的核心分支之一,用于研究在允许一定失真的条件下信息压缩的极限效率。信息瓶颈原理(
IB
,
Information Bottleneck Principle
)是信息论与机器学习交叉领域的核心理论,用于揭示智能系统在信息处理中的本质权衡。
在本次研究之中,研究团队基于率失真理论与信息瓶颈原理,构建了一个全新的信息论框架,以用于量化和比较上述两种认知策略。
研究中,研究团队将多种大模型的
token
嵌入与经典的人类分类基准进行比较分析,借此发现了若干关键差异。
具体来说,虽然大模型形成了与人类判断相一致的广泛概念类别,但它们很难捕捉到对人类理解至关重要的细粒度语义区别。
从更根本的层面看,大模型展现出对激进的统计压缩的强烈偏好,而人类的概念系统似乎更重视适应性的细腻差别与语境的丰富性,即便这在研究团队的衡量标准下意味着较低的压缩效率。