正文
我这次在硅谷听到比较多的是硅谷的创业者们对 Agent ,尤其是全栈 Agent 很关注。简单来讲就是 Agent 可以给你端到端地直接做出个应用来,而不是程序员替你填空。是直接你说一个目标,它给你交付。这将充满着信心,最主要的是来自于他们相信模型的能力在迅速向这个方案靠拢。
我觉得这点也可以让广密给我们补充补充,
前面我们说到了几个范式变化,顺着 Agent 这个明确的趋势,模型、技术有哪些值得关注的点?
李广密:
比如 GPT-4 和 O1 是两个范式级的,我是比较乐观的,有可能未来 2-3 年还能看到 2-3 次 GPT-4 水平的提升。我觉得可以分时间段,有可能在今年年内可以看到比较确定的两个:
一个是长窗口,一个是 Agent。
尤其是 Coding Agent 开始规模化、端到端地帮咱们去做有经济价值的软件应用开发。
我可以提一下为什么长窗口比较重要。今天的长窗口不只在于长度、准确性,而是「人」。
比如我参加一个会议,比如记一个笔记,其实不是所有东西全都记,而只需要记几秒钟记忆、几分钟记忆。其实我知道该记什么和不记什么,是有一个内生奖励的。但今天的 transformer attention 机制是所有东西都要记,但其实不是「in fashion」,所以我觉得长窗口是一个 Agent 落地和模型自主学习特别关键的一个点。
刚才鹏哥也提到 Agent,我感觉
Coding Agent 是观测所有通用 Agent 最关键的。
因为 Coding 是最简单、有逻辑性、可以验证、可以闭环的。我其实有一个假设,如果 Coding Agent 不能真正帮我们做大规模的、有经济价值的任务,甚至替代一些初级程序员,我觉得其他的通用 Agent 有可能都还要慢一些。
我觉得 Coding Agent 可能是观测接下来 Agent 表现的挺关键的点,这是今年年内的情况。
但如果说未来 1 到 3 年,我会提两个。
-
1. 多模融合:理解和生成一体化
今天咱们还能看到独立的视频生成,有可能以后就是各种文字进、文字出;语音进语音出;图像进、图像出;视觉进,视觉出。
我感觉今天大家都在探索的是怎么把 Long CoT 这个思维链加到多模的理解和生成里。
因为最后理解和生成的时候也可以有很长的反思,这样就能解决生成的比如一致性、可控性。我觉得这里面探索的不管是美国的 Open AI 以及很牛的科学家,还是中国很牛的科学家张祥雨等,我觉得都在探索这种多模,这个会带来一个大家期待的「世界模型」。
-
2. 在线学习或自主学习
在线学习或自主学习,我觉得也是黑天鹅级别的。比如 Open AI 之前的首席科学家伊利亚·苏茨克韦尔想探索「怎么让模型的学习效率更高」,在一个很长的窗口下有内生的奖励,去探索哪些该学、哪些不该学。咱们人类有一个内生的奖励,我要学这个,
学那个,知道该学什么,不该学什么,而且学的时候我大脑的权重也在更新,我觉得这可能是走向 ASI (人工超级智能)最关键的一个点,就是多模融合和在线学习或自主学习,我觉得这是未来几年非常值得期待的。
张鹏:
我们说 Agent 的很多能力归根结底是模型能力决定的。
刚才广密本质上讲了两个,回到模型角度,有两个最值得看的变化的可能性。
一是多模融合。
反过来会发现它有可能让模型的能力得到再一次的根本性跃迁,这个能力可能就是我们说的它的靠谱程度、一致性,也包括它有更少的幻觉,这些维度都是让它往上更靠谱、更有效、更值得信赖。
另一个维度,Long Context(长窗口)。
它是通向自己自主学习的一个前序。换句话说,如果你给它一堆东西,它不知道什么是重点,这个学习可能是无效,甚至越学越坏的,我们说的那个问题本质上是说今天你给它太多的信息,它都学,这是不太对的,它应该在里面找到重点,又要长,又要中间能得要点,进而重新融合到它的能力里和认知上的东西能变得更有效,这个又通向了自主学习的路径。
看起来我觉得这两条线是接下来值得期待的,
你认为这两条线是不是还得像 Open AI 等非巨头型的公司去推动这个范式的新进化呢?
李广密:
我肯定更相信新公司,Open AI 也有可能,未来哪个中国公司也很有可能,比如之前 Ugianea 也很早提 Long Context,张祥雨也在提多模融合,当然也有人可能在探索在线学习和自主学习,我觉得要敢于 bet ,这是比较关键的。
张鹏:
我觉得中国还是有很多非常优秀的年轻人和创业公司是有机会在这方面带动范式变化的。我最近有一个收获,之前咱们说 DeepSeek 出来之后,好像对所谓中国其他模型公司有很大的冲击。但我最近听到一个八卦,说有一个不同的视角,今天那些公司,比如 Kimi、MiniMax 他们的投资人反而不再天天问你的留存怎么样,你的用户增量怎么样,而是你下一个版本的模型准备在哪个范式上有所突破。我后来发现这一点挺好玩的,
投资人的注意力终于跟创业公司对齐了。
其实那些创业公司原来是被迫要讲一个我有一个用户、有一个增量的故事,其实这个阶段还是技术快速前进,你怎么能跟的上这一波,甚至有所突破,这是很重要的。
反过来也有一个好处,不是说 DeepSeek 掀了桌子对所有人都不好,
反而是真正在技术突破上让大家看到「技术的突破是最有力量的」。
李广密:
我觉得 DeepSeek 也带来一个 Magic moment,有可能 Kimi、MiniMax 等也好,他们有自己的 bet,带来一个 Magic moment,我觉得这是大家更期待的。