专栏名称: 阿里研究院
阿里研究院依托阿里巴巴集团海量数据、深耕小企业前沿案例、集结全球商业智慧,以开放、合作、共建、共享的方式打造具影响力的新商业知识平台。 阿里研究,洞察数据,共创新知! 官方网站http://www.aliresearch.com/
目录
相关文章推荐
云南省商务厅  ·  云南农村电商典型案例(五)| ... ·  昨天  
蛋先生工作室  ·  2025年6月4日各省淘汰鸡主流价格 ·  昨天  
蛋先生工作室  ·  2025年6月3日最新蛋价(上午) ·  2 天前  
蛋先生工作室  ·  6月3日蛋价:这个季节抄底相当于“裸奔” ·  2 天前  
51好读  ›  专栏  ›  阿里研究院

通义千问 Qwen3 发布,对话阿里周靖人

阿里研究院  · 公众号  · 电商  · 2025-04-30 14:28

正文

请到「今天看啥」查看全文


他有一些不同于多数人的观点,讲出来时也语调平淡、不带色彩:



“其实 o1 谈不上定义了新范式。让模型学会思考,它不是一个范式,而是一种能力。”

周靖人在 2015 年从微软加入阿里巴巴,在 iDST 和达摩院带过前沿技术研发,也在蚂蚁、淘宝做过实际业务落地。


以下是《晚点》对周靖人的访谈,他回顾了阿里开发大模型的过程,开源的关键决策,和他对当前大模型技术的思考。

“某一天的流量没那么重要。大模型不是短期竞争”

晚点 :现在外界对阿里有一个调侃,说你们是大模型领域的汪峰。


周靖人 :这我不知道。什么意思呢?


晚点 :指阿里的重磅发布常被 “抢了头条”。先是春节更新基座模型 Qwen2.5-Max,被 DeepSeek 推理模型 R1 抢了风头;后来 3 月发布推理模型 QwQ-32B ,又赶上大火的 Agent 产品 Manus 同天发布。


周靖人 :某一天的流量其实没那么重要。


晚点 :真正重要的是什么?


周靖人 :更前瞻性地思考,更笃定地坚持自己的技术路径和节奏。


晚点 :阿里通往 AGI 的路径是什么?


周靖人 :首先,我们的一个核心认知是,大模型发展和云体系的支撑不可分割。无论训练还是推理,大模型的每一次突破,表面看是模型能力演进,背后其实是整个云计算和数据、工程平台的全面配合和升级。


在模型能力上,大家现在讨论最多的是推理模型。我们在继续探索让模型能更像人那样去思考,未来甚至能自我反思、自我纠错等。


多模态也是通向 AGI 的重要途径。人的大脑也是有的部分处理文字,有的部分处理视觉、声音。我们要让大模型能理解并贯通各个模态。


我们也在探索新的学习机制,包括怎么能让模型在线学习、持续学习和自学习(Self Learning)。(注:现在的模型训练是 “离线学习”,每次升级需要重新做预训练、更新版本。)


在提升云体系的性能和效率上,我们会加强云和模型的软硬一体联合优化。尤其在今年,工程能力、整个云系统结合 AI 的性能和效率会变成核心竞争力。


晚点 :同时做这么多事,不会失焦吗?


周靖人 :大模型发展到现在,已经从早期阶段的初期,进入了早期阶段的中期,不可能只在单点能力上改进了。因为真正的通用人工智能,就是需要多模态、工具使用、Agent 支持和持续学习等多种能力,等(某个方向)跑出来再做是来不及的。不光我们,头部公司都会在多个方向上提前预研。


晚点 :刚发布的 Qwen3 体现了阿里在哪些方向的布局?


周靖人 :Qwen3 是一个混合推理模型,它同时提供了 “推理模式” 和 “非推理模式”,前者用于复杂逻辑推理、数学和编程,后者能处理日常指令和高效对话。混合推理模型今后是大模型发展的重要趋势。


晚点 :为什么会成为趋势?混合推理模型的好处是什么?


周靖人 :它能更好平衡性能和成本。在 “推理模式” 下,模型会执行分解问题、逐步推导、验证等中间步骤,给出 “深思熟虑” 的答案;在 “非推理模式” 下,则可以快速遵循指令生成答案。


Qwen3 还有一个 “思考预算” 设置——开发者可以自己设定深度思考的最大 token 消耗,这能更好满足不同开发者对性能和成本的需求。


晚点 :那么这么做的代价和难点是?


周靖人 :混合推理模型是通过推理和非推理的混合训练做到的,这需要模型学习两种不同的输出分布,很考验训练策略。所以设计和训练混合推理模型,远比做单纯的推理模型要难。


Qwen3 在后训练阶段,也是两种模式混合训练,相当于合并了推理模型 QwQ 系列和指令微调模型 Qwen2.5-instruct 系列,同时将它们的优势并合二为一。


晚点 :阿里现在怎么把握模型更新节奏?发布节奏和声量也是现在各公司的竞争点,比如 OpenAI 有几次更新都是赶在 Google 的重磅发布之前。


周靖人 :肯定会有这方面的考虑,但最终不是靠发布时宣传得怎么样,最终还是看开发者和市场反馈。


再说我们也无法预知别人的发布节奏。研发这件事,想临时调节奏也调不过来,不符合研发规律。


晚点 :Qwen 系列下载量在全球仅次于 Llama,同时是衍生模型数量最多的开源模型,但市场对此认知不够,这会让阿里困扰吗?你们想了什么方法来增加技术影响力?


周靖人 :其实通义千问的传播是不错的。核心还是在于开源的模型要足够强,否则其他方式都没什么用。


晚点 :通义千问何时会有一个真正出圈的、让更多人 eye-opening 的进展?类似 Sora、DeepSeek-R1 曾引起的关注。


周靖人 :通义千问接下来会有很多亮点,但能否让大家 eye-opening,这要看大家。我觉得有时我们太关注此时此刻,谁又比谁强一点点。但长远看,如果真认为 AGI 是最终目的地,当前的你追我赶都只是阶段性过程。


更重要的是,要知道自己在正确的方向上,以及要持续、长期创新。所以不用太纠结,今天或明天,是不是比别人又多了一个身位。


晚点







请到「今天看啥」查看全文