专栏名称: 腾讯科技

只供应最有营养的科技大餐！

Kimi创始人杨植麟最新分享：关于OpenAI o1新范式的深度思考

腾讯科技 · 公众号 · 科技媒体 · 2024-09-14 21:53

主要观点总结

本文分享了关于人工智能发展的思考和观点。文章讨论了大数据和算力对人工智能模型发展的重要性，以及强化学习在推动大模型进化中的关键作用。作者强调了文本模型能力在决定这一代AI技术上限中的核心地位，并提到了多模态模型的发展潜力。文章还展望了下一代模型的三个核心能力：推理能力、不同模态间的切换能力，以及支持更长的上下文的能力。此外，文章还讨论了模型即产品的趋势和AI应用前景，并指出数据作为变量的重要性。最后，作者分享了自己的探索过程和观察方法，并强调了创新的价值。

关键观点总结

关键观点1: 大数据和算力对人工智能模型发展的重要性

文章讨论了互联网、计算机技术的发展为人工智能提供了大量的训练数据，以及算法的提升，如Transformer结构，都为现在的通用模型提供了可能。

关键观点2: 强化学习在推动大模型进化中的关键作用

作者指出OpenAI发布的o1模型通过强化学习尝试突破数据墙，标志着新范式的产生。

关键观点3: 文本模型能力在决定这一代AI技术上限中的核心地位

作者认为文本模型能力的提升将决定这一代AI技术的上限，并强调多模态能力的发展也需要建立在强大的文本模型基础上。

关键观点4: 下一代模型的三个核心能力

文章预测了下一代模型将具备更强的推理能力、不同模态间的切换能力，以及处理更长的上下文的能力。

关键观点5: 模型即产品的趋势和AI应用前景

作者认为AI产品很大程度上由模型能力决定，并展望了AI助理成为超级应用的未来。

关键观点6: 数据作为变量的重要性

作者指出在使用强化学习时，数据应该被视为一个变量，与模型和用户反馈相结合，以不断提升模型的效果。

关键观点7: 探索过程和观察方法的价值

作者分享了自己的探索过程，并强调了观察哪些方法有效、哪些无效是探索真理的简单过程，也是创新的价值所在。

正文

请到「今天看啥」查看全文

如果用一个更传统的结构，比如说用循环神经网络或卷积神经网络，可能会发现到了10亿参数或更多的时候，再加参数或再加计算就不会变好。但是对Transformer来讲，只要一直加就会一直好，而且几乎看不到上限。这样的结构，使得通用学习成为可能。只要不断地把数据放到模型里面去，然后定义你要学习的目标函数。

这三个东西加起来，就产生了现在我们看到的通用模型，而且是缺一不可。

我们会发现很神奇，人类技术的发展都是站在前人的肩膀上的。

有一本书是《技术的本质》，非常强烈推荐！技术的发展基本上是组合演进的过程，每一代的技术可以认为都是前面好几代技术的组合。但是有一些组合能产生的威力会比剩下的组合要大得多，比如刚刚说的这三个组合就是非常强大的，它能产生通用模型。但是在OpenAI之前，可能没人能想到这三个东西组合起来居然能产生这么大的威力。

AGI的三层挑战

在刚才这三个要素的前提下，我觉得对于通用智能AGI来讲，可能会有三个层面：

最底层是规模化定律，这是第一个层次的创新机会，它被OpenAI发现，并且做到极致。

第二个层次的创新机会，就是Scaling law框架下有一些问题没有解决，比如怎么把所有的模态用统一的表示放到同一个模型里面去？这是第二个层次的挑战。

同时，虽然互联网发展了二十多年，但毕竟数据是有限的，整体积累的数据还不够多。现在大家遇到了一个问题，就是数据墙的问题，没有更多的数据可以去训练了。

我举个例子，假设现在要做一个数学能力很好的AI，我们应该想的问题是我应该有哪些数据会帮助我学习数学能力？现有被数字化的数学题是很少的，可能在互联网上有大部分数据又跟数学没什么关系。

现在好的数据被大家用的差不多了，很难有任何一个人或任何一个公司说，我今天可以找到比互联网大十倍的数据拿来训练，所以会遇到数据墙的问题。如果解决第二层次的问题，就会获得第二个层次的机会，或者收益。

第三层次的问题，比如能够去做更长的上下文，能够有更强的reasoning（推理）或者instruction-following（指令遵循），这些就是第三个层次的问题。

最底下的层次是第一性原理，有了第一性原理之后，是0和1的本质区别。第一性原理之上，可能还有很多第二个层次，就是核心技术需要去解决，现在有很多人在解决第二个层面的核心技术，只要把第二个层面做好也能让技术从本来只是可行到变得非常可用，而且是大规模使用。

如果看蒸汽机的发展都是一样的一开始发明了定理，发现第一性原理OK了。但是蒸汽机落地过程中，一开始的动力不够好，或者是成本太高，基本上所有新技术出来都会有这两个问题，

刚刚我们讲到有一个很重要的问题，就是数据墙的问题。在这种情况下，根据第一性原理，又要不断地训练更大的模型，要不断地加更多的数据，所以这里面就会有冲突。

天然的数据已经被穷尽了，这个时候怎么能够加更多的数据？能够让它持续做规模化？这里面就会涉及到范式的转移。

原来做的事情很简单，只是去预测下一个Token，本身包含了非常多的推理、知识。

比如假设现在有一句话“距离北京最近的直辖市是天津”，语言模型会把前面的东西作为输入去预测最后的词是天津还是重庆等等，它会做预测。预测多了，就知道是天津。通过这种预测，就会把知识吸收到模型里面，就能学会知识。

另外一种任务，比如现在读了一本侦探小说，看了前面的九章，到最后一章要预测凶手是谁。如果能正确预测凶手，还是像刚才说的做下一个词的预测。假设现在有一句话，最后推理半天发现凶手是某一个人，其实这个模型就学会了推理。

如果有很多这样的数据，它就学会了推理。既能学到推理，也能学到知识，也能学到很多其它别的任务。如果把能搜到的数据全部拿下来，让它持续预测下一个词，它的智商就会越来越高，推理能力会越来越强，知识会越来越多。

这里面会分成三种不同类型的能学到的东西：

第一，如果考虑熵很低的情况下，可能一些事实性的东西、知识本身没有任何熵，entropy level非常低，就直接把知识记下来了。

第二，推理过程，像侦探小说推理的过程有一个中等的熵，就可能有多条推理路径，最终得到的是一样的结果。

第三，比如说一些创作类的，现在想写一个小说，它就不是一个确定性的事情，它的熵是非常高的。

这几种不同的东西都可以在一样的框架里面被预测下一个词这样的单一目标，只做这一件事情就能学会，这是通用智能的基础。把这些东西全部放在同一个东西里面去学，而且不用挑到底是在学小红书，还是在学维基百科等等，所以它非常通用，这个是通用智能的基础。

OpenAI发布o1

标志着新范式的产生

下一个范式是通过强化学习来做。为什么要强化学习？就是因为刚才说的天然数据不够用了，最近OpenAI会发布o1，标志着从左边的范式迁移到右边范式，因为左边范式数据不够了。就像刚才说的这个世界上数学题就这么多，如果要提升数学怎么办呢？

可以一直生成更多的题，然后自己做题，有的做对了，有的做错了，然后去学习哪些做对了，哪些做错了，你就可以持续提升，这个本质上就是强化学习的过程。