专栏名称: 量子位
վ'ᴗ' ի 追踪AI行业和技术动态,这里更快一步!关注我们,回复“今天”,更多大新闻等你来发现
目录
相关文章推荐
爱可可-爱生活  ·  AI 工程师修炼图谱:从入门到精通 ... ·  19 小时前  
爱可可-爱生活  ·  本文通过提出强化学习教师(RLTs)框架,创 ... ·  昨天  
人工智能学习指南  ·  PyTorch 张量详解:从内存使用到 ... ·  昨天  
AI前线  ·  三大云厂同时瘫了?Cursor、ChatGP ... ·  2 天前  
51好读  ›  专栏  ›  量子位

不是视频模型“学习”慢,而是LLM走捷径|18万引大牛Sergey Levine

量子位  · 公众号  · AI  · 2025-06-10 15:35

主要观点总结

文章主要探讨了语言模型与视频模型在人工智能领域的学习机制,并对比了两者的优劣。文章还通过“柏拉图洞穴”的比喻,描述了AI系统的现状,并探讨了AI如何更好地模拟人类智能的问题。

关键观点总结

关键观点1: 语言模型与视频模型的差异

文章讨论了语言模型和视频模型在人工智能领域的学习机制。尽管视频数据包含更丰富的信息,但语言模型在预测下一个词的过程中却能学到很多,而视频模型在预测下一帧时学到的却很少。

关键观点2: 柏拉图的洞穴理论在AI领域的应用

文章借用“柏拉图洞穴”理论来比喻AI系统的现状。AI通过语言模型学习人类的知识和思维方式,但这些知识是间接的反映,并没有真正理解世界。

关键观点3: AI如何走出洞穴的讨论

文章讨论了AI如何更好地模拟人类智能的问题。虽然目前AI已经实现了对人类认知的部分模拟(如推理、生成),但还需要突破对文本的依赖,通过传感器直接与物理世界交互,自主探索。


正文

请到「今天看啥」查看全文


一些研究者推测,人类心智的复杂性和灵活性源自于大脑中应用的一个 单一算法 ,通过这个算法可以实现所有多样化的能力。

也就是说,AI如果能复现这个终极算法,人工智能就能通过经验自主获取多元能力,达到人类智能的高度。

在这个探索过程中,语言模型取得了非常成功的突破。

甚至,LLMs实现能力跃升背后的算法( 下一词预测+强化学习微调 ),也非常简单。

单一终极算法 假设似乎就是AI模型的答案……

然而,这个假设对视频模型并不适用。

语言模型与视频模型的对比

早在基于Transformer的语言模型出现之前,AI研究人员就已经忙着研究一个看似非常相似的问题:

就像LLM通过预测来自网络文本数据的下一个词来学习一样,视频模型也可能通过预测视频数据的下一个帧来学习。

甚至从数据上来说,视频数据比文本数据包含的信息更丰富,那么预测下一帧得到的认知会远比预测下一词得到的认知更全面。







请到「今天看啥」查看全文