专栏名称: 阿里研究院

阿里研究院依托阿里巴巴集团海量数据、深耕小企业前沿案例、集结全球商业智慧，以开放、合作、共建、共享的方式打造具影响力的新商业知识平台。阿里研究，洞察数据，共创新知！官方网站http://www.aliresearch.com/

通义千问 Qwen3 发布，对话阿里周靖人

阿里研究院 · 公众号 · 电商 · 2025-04-30 14:28

正文

他有一些不同于多数人的观点，讲出来时也语调平淡、不带色彩：

“其实 o1 谈不上定义了新范式。让模型学会思考，它不是一个范式，而是一种能力。”

周靖人在 2015 年从微软加入阿里巴巴，在 iDST 和达摩院带过前沿技术研发，也在蚂蚁、淘宝做过实际业务落地。

以下是《晚点》对周靖人的访谈，他回顾了阿里开发大模型的过程，开源的关键决策，和他对当前大模型技术的思考。

“某一天的流量没那么重要。大模型不是短期竞争”

晚点 ：现在外界对阿里有一个调侃，说你们是大模型领域的汪峰。

周靖人 ：这我不知道。什么意思呢？

晚点：指阿里的重磅发布常被 “抢了头条”。先是春节更新基座模型 Qwen2.5-Max，被 DeepSeek 推理模型 R1 抢了风头；后来 3 月发布推理模型 QwQ-32B ，又赶上大火的 Agent 产品 Manus 同天发布。

周靖人 ：某一天的流量其实没那么重要。

晚点 ：真正重要的是什么？

周靖人 ：更前瞻性地思考，更笃定地坚持自己的技术路径和节奏。

晚点 ：阿里通往 AGI 的路径是什么？

周靖人 ：首先，我们的一个核心认知是，大模型发展和云体系的支撑不可分割。无论训练还是推理，大模型的每一次突破，表面看是模型能力演进，背后其实是整个云计算和数据、工程平台的全面配合和升级。

在模型能力上，大家现在讨论最多的是推理模型。我们在继续探索让模型能更像人那样去思考，未来甚至能自我反思、自我纠错等。

多模态也是通向 AGI 的重要途径。人的大脑也是有的部分处理文字，有的部分处理视觉、声音。我们要让大模型能理解并贯通各个模态。

我们也在探索新的学习机制，包括怎么能让模型在线学习、持续学习和自学习（Self Learning）。（注：现在的模型训练是 “离线学习”，每次升级需要重新做预训练、更新版本。）

在提升云体系的性能和效率上，我们会加强云和模型的软硬一体联合优化。尤其在今年，工程能力、整个云系统结合 AI 的性能和效率会变成核心竞争力。

晚点 ：同时做这么多事，不会失焦吗？

周靖人 ：大模型发展到现在，已经从早期阶段的初期，进入了早期阶段的中期，不可能只在单点能力上改进了。因为真正的通用人工智能，就是需要多模态、工具使用、Agent 支持和持续学习等多种能力，等（某个方向）跑出来再做是来不及的。不光我们，头部公司都会在多个方向上提前预研。

晚点 ：刚发布的 Qwen3 体现了阿里在哪些方向的布局？

周靖人 ：Qwen3 是一个混合推理模型，它同时提供了 “推理模式” 和 “非推理模式”，前者用于复杂逻辑推理、数学和编程，后者能处理日常指令和高效对话。混合推理模型今后是大模型发展的重要趋势。

晚点 ：为什么会成为趋势？混合推理模型的好处是什么？

周靖人 ：它能更好平衡性能和成本。在 “推理模式” 下，模型会执行分解问题、逐步推导、验证等中间步骤，给出 “深思熟虑” 的答案；在 “非推理模式” 下，则可以快速遵循指令生成答案。

Qwen3 还有一个 “思考预算” 设置——开发者可以自己设定深度思考的最大 token 消耗，这能更好满足不同开发者对性能和成本的需求。

晚点 ：那么这么做的代价和难点是？

周靖人 ：混合推理模型是通过推理和非推理的混合训练做到的，这需要模型学习两种不同的输出分布，很考验训练策略。所以设计和训练混合推理模型，远比做单纯的推理模型要难。

Qwen3 在后训练阶段，也是两种模式混合训练，相当于合并了推理模型 QwQ 系列和指令微调模型 Qwen2.5-instruct 系列，同时将它们的优势并合二为一。

晚点 ：阿里现在怎么把握模型更新节奏？发布节奏和声量也是现在各公司的竞争点，比如 OpenAI 有几次更新都是赶在 Google 的重磅发布之前。

周靖人 ：肯定会有这方面的考虑，但最终不是靠发布时宣传得怎么样，最终还是看开发者和市场反馈。

再说我们也无法预知别人的发布节奏。研发这件事，想临时调节奏也调不过来，不符合研发规律。

晚点：Qwen 系列下载量在全球仅次于 Llama，同时是衍生模型数量最多的开源模型，但市场对此认知不够，这会让阿里困扰吗？你们想了什么方法来增加技术影响力？

周靖人 ：其实通义千问的传播是不错的。核心还是在于开源的模型要足够强，否则其他方式都没什么用。

晚点 ：通义千问何时会有一个真正出圈的、让更多人 eye-opening 的进展？类似 Sora、DeepSeek-R1 曾引起的关注。

周靖人 ：通义千问接下来会有很多亮点，但能否让大家 eye-opening，这要看大家。我觉得有时我们太关注此时此刻，谁又比谁强一点点。但长远看，如果真认为 AGI 是最终目的地，当前的你追我赶都只是阶段性过程。

更重要的是，要知道自己在正确的方向上，以及要持续、长期创新。所以不用太纠结，今天或明天，是不是比别人又多了一个身位。

晚点