专栏名称: 黄建同学
数码博主 超话主持人(ChatGPT超话) 头条文章作者 我的学习笔记,关注AI+新能源
目录
相关文章推荐
爱可可-爱生活  ·  [LG]《Replay Can ... ·  16 小时前  
爱可可-爱生活  ·  本文开创性地提出了“嫁接”(grafting ... ·  16 小时前  
51好读  ›  专栏  ›  黄建同学

论文《From Tokens to Thoughts: How -20250603215115

黄建同学  · 微博  · AI  · 2025-06-03 21:51

正文

请到「今天看啥」查看全文




论文核心问题:LLM 理解概念的方式,像人类吗?

这篇论文关注一个极具哲学和工程价值的问题:

> 大语言模型(LLMs)是否像人类一样,在理解世界时,会在「压缩信息」和「保持语义意义」之间做权衡?

人类在面对复杂世界时会自动将事物“分类”(如知更鸟和蓝松鸦都归为“鸟”),这种分类是我们理解世界、快速学习和交流的核心。作者提出:人类在进行分类时,不是简单地压缩信息,而是在压缩的同时努力保留有意义的语义细节。

而 LLM 是否也是这样?还是只是“压缩机器”?

---

研究方法:信息论视角下的人类 vs LLM 对比

作者设计了一个信息论框架,从三个角度展开研究:

1. RQ1:LLM 的类别划分与人类的分类相似吗?(宏观对齐)

2. RQ2:LLM 能否区分“典型”与“不典型”的类别成员?(语义细节)

3. RQ3:LLM 和人类在压缩与保真之间的取舍有何不同?(整体策略)

这个框架以两个经典信息论工具为基础:

率失真理论(Rate-Distortion Theory):压缩与失真之间的权衡。

信息瓶颈理论(Information Bottleneck):最小化输入信息,同时最大化输出有用信息。

他们提出一个综合指标:
L = 压缩成本 + β × 语义失真
这个公式用于衡量一个系统在“压缩”与“语义保留”之间的整体表现。

---

数据与模型:人类心理学实验 vs 多个 LLM

人类基准

作者重新整理并数字化了三项经典认知心理学实验(Rosch 1973/1975, McCloskey & Glucksberg 1978),这些数据涵盖了 1000 多个物品和 34 个类别,包括:





请到「今天看啥」查看全文