专栏名称: 真格基金

真格基金是由新东方教育科技联合创始人徐小平、王强和红杉资本中国在2011年联合成立的天使基金。世纪佳缘、兰亭集势、聚美优品、一起作业、美菜、小红书、蜜芽、找钢网、英雄互娱、大姨吗、51Talk等多家公司已经成为真格基金投资的明星企业。

真格基金戴雨森：长聊 AI Agent，各行业都会遭遇「李世石时刻」（上）

真格基金 · 公众号 · 科技投资 · 2025-03-31 10:00

正文

请到「今天看啥」查看全文

在中国互联网领域，一直存在着不少争议。大家都知道企业服务的土壤不足，而且似乎用户更愿意为杀时间付费不为省时间付费，所以大家都习惯性的寻找下一个字节跳动。我在 2024 年 10 月给我们的 LP 做汇报时就提到，未来可能不会再沿用字节跳动的公式，因为字节跳动是通过占用用户时间去赚钱的，然而用户的时间是有限的，抖音、王者荣耀等已经占据了用户大量的时间。所以，接下来具有创新性的「杀手应用」，可能会是那些能够帮用户节省时间，或者在这 8 小时、 16 个小时以外去给用户创造价值，而不是一定要把刷抖音的时间抢过来，那是很难抢的，抖音很厉害。在这种情况下，DeepSeek 就成为了一个很好的范例。

Agent 带来资本转化为生产力的 Scaling Law

Q：以 o 系列和 R 系列为代表的推理模型，接下来会带来哪些行业和应用变化？有一点你之前已经提到过——推理能力的提升，会指向 Agent 应用，这也是从去年下半年到现在大家频繁讨论的话题。

戴雨森： 按照我们刚刚讲的框架——技术进步解锁新的产品形态。我们可以看到，从 GPT 逐步升级到 GPT 3.0，然后对齐成对话模式的 InstructGPT，最后出来 GPT-3.5 模型，解锁了 Chatbot 这种产品形态；以 Sonnet 为代表的 coding 能力很强的模型，则解锁了像 Cursor 这样像编程助手的产品形态，可以说是相互成就的关系，如果没有 Sonnet，Cursor 就不可能火。从 Sonnet 3.5 开始，模型开始具备一定的推理能力，而 o1 及后续的 o 系列模型的进展，让模型的推理能力变得很强。解锁对应的产品形态，我觉得可能就是 Agent。

什么叫 Agent？在英文里「agency」有主观能动性的含义，以前地球上只有人类具备主观能动性，我们清楚自己的目标，能够制定计划、使用工具、评估工作成果，这也是人类得以统治世界的原因之一。但是现在 AI 的能力逐渐到达了一个突破点，使得 AI 能够扮演 Agent。

在我看来，AI 能够实现这一转变，是由三个技术的进步解锁的：

第一是 reasoning。 推理能力是 AI 的基础智能，如果推理能力不足，就会面临一系列问题。比如，它无法明确自己的任务目标，难以制定出切实可行的执行计划，更无法判断自己是否完成了任务。
第二是 coding 能力。 在数字世界中，理解 code、写 code、完成各种任务是基础技能，是赛博世界的「语言」。
第三是工具使用能力。 在数字世界，人已经为自己造了这么多的工具、软件，那 AI 要想充分发挥作用，首先得适应人类用的这些工具。比如，AI 需要借助人类的浏览器、网站来获取信息。

在过去的 12 个月里，推理（reasoning）、编程（coding）和工具使用（tool use）这三种能力都发生了翻天覆地的变化，进入指数增长的阶段。为了衡量这些能力，业界有一些不同的 benchmark（基准测试）。以推理能力为例，我们常用 GPQA 进行测试，这是一种模拟人类博士生入学资格水平的测试。在这个测试中，普通人类大约能得 20 多分，人类博士生能达到 60 分左右。在 2024 年年初，AI 领域最前沿的模型仅得 10 几分。但如今，像 o3 这样的前沿模型，得分已经达到了 70 多分（如果我没记错的话），所以这个涨得非常快。

在衡量 AI 的编程能力时，大家常用 SWE-Bench 进行测试，它抽取了一系列 GitHub 上真实的人类编程任务。在 2024 年初，4o 得分只有个位数，基本是不可用的状态。但现在，o3 已经到了 70-80 分的程度，这意味着人类 70%-80% 的编程任务 AI 都可以解答。

如今，AI 能力的快速发展给我们带来了一个新的问题，那就是我们很难再找到合适的题目来测试 AI 了。 前段时间，陶哲轩提出了一个名为 Frontier Math 的测试，里面最简单的题目都是 IMO（国际数学奥林匹克竞赛）级别的难题。当时大家认为，这些难题至少能够挡住 AI 几年的时间，结果现在 o3 模型在 Frontier Math 测试中已经能拿到 25 分，o4 模型的表现更好。

一旦 Reinforcement learning 应用到某个领域，相关 AI 的成长曲线常常呈现指数式增长。就像之前 AlphaGo 的出现，它运用强化学习技术，在围棋领域取得了巨大突破。后来，DeepMind 开发的 AlphaStar，在《星际争霸》游戏中，也凭借强化学习，迅速超越了人类顶级玩家。还有自动驾驶技术，其实从技术层面来讲，自动驾驶已经比人类驾驶安全很多倍了，只是由于各种监管因素，还没有大规模应用。我把这种 AI 能力超越人类的标志性时刻称为「李世石时刻」。大家应该都记得，李世石与 AI 进行围棋对决时，五盘棋输了四盘，那时候发现，AI 原来连最强的人类都能轻松打败。

Q：人类是不是很快就没有能够评价 AI 能力的能力了？

戴雨森： 我觉得现在已经很缺乏了。就像 Alexandr Wang 弄出的那个「Humanity's Last Exam」的问题，现在也到 20 分了。

Q：满分是 100 分吗？

戴雨森： 对，从 20 分到 80 分可能很快的。关键是人类要想出来难题来，那无疑对人类而言是个很大的挑战。但是如果 AI 靠花算力、靠 RL、靠更强的 inference 就能实现的话，差距是很难赶上的。

Q：像你刚刚提到的「李世石时刻」，开端肯定是 AI 超越了人类，这一点是很直观的。我和一些围棋爱好者交流过，比如楼天城，他说当 AlphaGo Zero 出现后，不仅超越了人类，而且人类的智能其实不能理解它。他觉得下围棋和做自动驾驶都是这种感觉，自动驾驶试乘是试不出来什么东西的。下围棋也是，人类积累了上千年的定式，被 AI 轻易打破了。

戴雨森： 我觉得可理解性和可解释性其实并不一定存在的。

Q：因为按照第一性原理，人类现在根本没有办法掌握世界上所有的真理和规律。

戴雨森： 比如我们也没法理解爱因斯坦当时是怎么想出那些理论的，如果你进一步来想，猫猫狗狗肯定也理解不了人类为什么要做各种各样的事情对吧？如今 AI 发展这么快，我们可能很快就会面临一种情况，就好比小学生去考核博士生。现在我们可能正逐渐处于这样的阶段，小学生绞尽脑汁想出自己觉得超难的题目去考博士生，可对博士生来说，这些题目可能并不难。

这对 AI 安全来说，是个至关重要的问题，我们可能无法评价了。因为现在很多人类已有的测试，AI 都能轻松刷到 95 分以上。像在清华读书时经常有人讲，有人考 100 分是因为他的能力上限就是 100 分，而有的人考 100 分是因为试卷满分只有 100 分，如果满分是 1000 分，他也能考 1000 分。

Q：现在已经到了这个阶段吗？就我们已经无法评价 AI 的能力了。

戴雨森： 我觉得还不是无法评价，但已经在可以预见的未来，可能在小几年的时间内就很难去评价了。

Q：那个时候会带来什么什么呢？

戴雨森： 其实现在大家已经看到了很多相关的苗头。比如春节期间有一篇文章，据说是梁文锋发在知乎上的回应，非常火，后来大家发现那就是 DeepSeek 写的。

我最近一直在用 OpenAI 的 Deep Research，它给了我很大帮助，也带来了很多震撼。咱们刚才聊到 Agent，其实 Agent 的第一个应用场景就是帮我做研究。我向它提出一个问题，它得思考如何解答、列出研究计划、寻找资料、进行总结和对比。从原来没有 reasoning 能力的 4o，到后来出现了 o1。接着，o1 有了 o1 pro，能进行更深入的思考，再到 o3 mini high，然后又有了 Deep Research。整个过程也就花了 3-6 个月的时间，但我明显感觉到它的水平提升是呈指数级的。

昨天我就在想，要是从大街上随便找十个人，我觉得至少有九个人的能力已经比不上 Deep Research。因为 Deep Research 能在几分钟内，针对任何你需要的话题，给出一份在我看来达到在较好公司工作一两年的白领水平的研究报告。其实很多人即便花再多时间，也不具备这样的思考推理能力、信息获取能力以及总结能力。所以我觉得 AGI 已经不再是一个科幻概念。要是两年前大家谈论 AGI，还觉得那是很遥远的事，但现在在收集信息、整理信息这类任务上，AI 已经超过了大多数人。

Q：像我们这样的人，比特进比特出的信息工作者。

戴雨森： 所以像今天这样的聊天对话，AI 目前还做不到。毕竟这是我们之间的专有信息，在聊之前，这些信息根本不存在。但要是这些信息已经存在某个地方，不是专有信息的话，那 AI 肯定比绝大部分人做得要好得多，这点我很确定。 可以说，AI 的增长速度真的特别快，我们已经看到了它的指数级增长，也会见证很多刚才提到的「李世石时刻」的到来。

回到最开始的话题，我觉得解锁 Agent 有着非常重要的意义。过去，互联网上所有的产品模式，我觉得可以用一句很著名的话来概括，就是「Attention is all you need」。