晚点
:现在外界对阿里有一个调侃,说你们是大模型领域的汪峰。
周靖人
:这我不知道。什么意思呢?
晚点
:指阿里的重磅发布常被 “抢了头条”。先是春节更新基座模型 Qwen2.5-Max,被 DeepSeek 推理模型 R1 抢了风头;后来 3 月发布推理模型 QwQ-32B ,又赶上大火的 Agent 产品 Manus 同天发布。
周靖人
:某一天的流量其实没那么重要。
晚点
:真正重要的是什么?
周靖人
:更前瞻性地思考,更笃定地坚持自己的技术路径和节奏。
晚点
:阿里通往 AGI 的路径是什么?
周靖人
:首先,我们的一个核心认知是,大模型发展和云体系的支撑不可分割。无论训练还是推理,大模型的每一次突破,表面看是模型能力演进,背后其实是整个云计算和数据、工程平台的全面配合和升级。
在模型能力上,大家现在讨论最多的是推理模型。我们在继续探索让模型能更像人那样去思考,未来甚至能自我反思、自我纠错等。
多模态也是通向 AGI 的重要途径。人的大脑也是有的部分处理文字,有的部分处理视觉、声音。我们要让大模型能理解并贯通各个模态。
我们也在探索新的学习机制,包括怎么能让模型在线学习、持续学习和自学习(Self Learning)。(注:现在的模型训练是 “离线学习”,每次升级需要重新做预训练、更新版本。)
在提升云体系的性能和效率上,我们会加强云和模型的软硬一体联合优化。尤其在今年,工程能力、整个云系统结合 AI 的性能和效率会变成核心竞争力。
晚点
:同时做这么多事,不会失焦吗?
周靖人
:大模型发展到现在,已经从早期阶段的初期,进入了早期阶段的中期,不可能只在单点能力上改进了。因为真正的通用人工智能,就是需要多模态、工具使用、Agent 支持和持续学习等多种能力,等(某个方向)跑出来再做是来不及的。不光我们,头部公司都会在多个方向上提前预研。
晚点
:刚发布的 Qwen3 体现了阿里在哪些方向的布局?
周靖人
:Qwen3 是一个混合推理模型,它同时提供了 “推理模式” 和 “非推理模式”,前者用于复杂逻辑推理、数学和编程,后者能处理日常指令和高效对话。混合推理模型今后是大模型发展的重要趋势。
晚点
:为什么会成为趋势?混合推理模型的好处是什么?
周靖人
:它能更好平衡性能和成本。在 “推理模式” 下,模型会执行分解问题、逐步推导、验证等中间步骤,给出 “深思熟虑” 的答案;在 “非推理模式” 下,则可以快速遵循指令生成答案。
Qwen3 还有一个 “思考预算” 设置——开发者可以自己设定深度思考的最大 token 消耗,这能更好满足不同开发者对性能和成本的需求。
晚点
:那么这么做的代价和难点是?
周靖人
:混合推理模型是通过推理和非推理的混合训练做到的,这需要模型学习两种不同的输出分布,很考验训练策略。所以设计和训练混合推理模型,远比做单纯的推理模型要难。
Qwen3 在后训练阶段,也是两种模式混合训练,相当于合并了推理模型 QwQ 系列和指令微调模型 Qwen2.5-instruct 系列,同时将它们的优势并合二为一。
晚点
:阿里现在怎么把握模型更新节奏?发布节奏和声量也是现在各公司的竞争点,比如 OpenAI 有几次更新都是赶在 Google 的重磅发布之前。
周靖人
:肯定会有这方面的考虑,但最终不是靠发布时宣传得怎么样,最终还是看开发者和市场反馈。
再说我们也无法预知别人的发布节奏。研发这件事,想临时调节奏也调不过来,不符合研发规律。
晚点
:Qwen 系列下载量在全球仅次于 Llama,同时是衍生模型数量最多的开源模型,但市场对此认知不够,这会让阿里困扰吗?你们想了什么方法来增加技术影响力?
周靖人
:其实通义千问的传播是不错的。核心还是在于开源的模型要足够强,否则其他方式都没什么用。
晚点
:通义千问何时会有一个真正出圈的、让更多人 eye-opening 的进展?类似 Sora、DeepSeek-R1 曾引起的关注。
周靖人
:通义千问接下来会有很多亮点,但能否让大家 eye-opening,这要看大家。我觉得有时我们太关注此时此刻,谁又比谁强一点点。但长远看,如果真认为 AGI 是最终目的地,当前的你追我赶都只是阶段性过程。
更重要的是,要知道自己在正确的方向上,以及要持续、长期创新。所以不用太纠结,今天或明天,是不是比别人又多了一个身位。
晚点