正文
这种情况下,比拼榜单分数、在更复杂的榜单上得更高的分数会更容易。换言之,这种评价方式已经过时了,现在比拼的是定义问题的能力。
从这个角度看模型,也才是 Qwen3 真正的含金量。因为基准评测里模型能力都很强,但一个评测基准里名列前茅的模型,对开发者来说却不一定是最优。
在这种情况下,开发者在实际场景中对模型更看重的东西是什么?
大的维度上,大概是模型性能、成本、易部署等几个角度。但在具体的场景里,就是不同的模型及其工具的技术实现方式了。这也是为什么 Qwen 一直采取全尺寸、全模态的智能上限探索,也会发布不同量化精度的模型版本让开发者在选择上有更大的自由度。
一位开发者帮我拆解了下,他说 Qwen3 系列有 8 个模型,包括两款 MoE(混合专家)模型和六个稠密模型,可以服务不同场景的不同需求。
在稠密模型当中,0.6B 和 1.7B 模型特别适合研究人员使用,它甚至可以在没有 GPU、没有独立显卡的情况下就可以跑起来验证一些数据集,做一些数据配比工作。
4B 和 8B 的模型则适合消费电子和汽车行业,因为这两个模型适合入端;4B 模型适合手机,8B 模型可以放在 AIPC 和智能座舱里面。
32B 的模型则在企业大规模部署上广受欢迎。另外对于 MoE 的两个模型,可以直接通过服务器做规模化部署,提高利用效率的同时、可以应用在更大规模的场景。
他觉得这么做是对的,因为只有像这样考虑到最多的细分需求组合,才能争取让各个场景里做不同产品的开发者都能有一个拿来就用的最佳实践模型,哪怕后续还需要开发者自己 DIY。
这次 Qwen3 在这个方向也作了进一步延伸,作为国内首个混合推理模型,将快速、简洁响应的快思考和更深层思维链推理能力整合于单一模型中,实现了推理模型和非推理模型的统一,开发者甚至可以自选「思考预算」来适配多样化任务需求。
企业场景里,基本上都会基于开源模型,结合自己的数据做一些微调。就像 Qwen3 这次的模型升级支持了 119 种语言,在日本市场虽然 Qwen3 才发布半个月,但已经比 Claude、GPT-4o 等模型还要更受欢迎,因为企业在开源的 Qwen3 基础上灌一些日语场景数据,这个效果就比单纯支持日语的闭源模型更灵活,可以实现四两拨千斤的效果。
当然这些之外,开发者对 Qwen 的态度,很大程度上还是来自于他们说的最多的一点——底模好。
底模好,意味着在基座模型上做蒸馏、微调后训练、强化学习等等都会有更好的效果。尤其是强化学习的 Scaling Law 更需要有一个优质的预训练模型,这是模型能够泛化的决定性因素之一。印象里,就连 DeepSeek-R1 那篇论文里展示的蒸馏小模型,也选了 Qwen 作为底模,通过利用 DeepSeek-R1 生成的推理数据,对 Qwen-7B 基础模型进行微调,将 DeepSeek-R1 的推理能力通过知识蒸馏的方式传递给 Qwen-7B,模型性能很好。
极客公园团队的同学和阿里云通义大模型业务总经理徐栋专门探讨过开发者体感上的底模好,到底意味着什么?怎么做到的?
徐栋认为每次模型能力的提升一定会体现在两点上,知识密度和指令遵循上。这使得过去的一些做不到、或者成功率低、需要抽卡的 AI 应用场景里,模型更「听话」了。Qwen3 就通过数据工程和算法迭代,进一步提升了在知识密度和指令遵循上的表现。
现在 Qwen3 可以在数据挖掘的任务上,依赖模型强大的知识密度与 SFT 阶段精细化训练,从 600 页招投标文档中精准抽取 88 个字段;在舆情监测场景,Qwen3 可以将消费者评价抽象为「小型车辆」「轿车」等标准化标签,避免过度拟合或笼统概括;在更常见的智能客服场景,Qwen3 可以精准捕捉用户需求、引导商品推荐时机,降低客户流失率。
随着今年整个行业开始跑步进入 Agent 领域,Qwen3 这次也非常及时地提高了 Agent 场景对模型提出的能力需求,优化了 Agent 工具调用和代码能力,同时也加强了对 MCP 的支持。结合封装了工具调用模板和工具调用解析器的 Qwen-Agent 框架,大大降低了编码复杂性,手机及电脑 Agent 操作等任务都开始变得更可行了。
这个优化还在继续,上周在 QwenChat 的官方网页上,我们还看到了 Deep Research(深度研究)和 WebDev(生成网页)这两个功能上线。这些是基于 Qwen 的 Agent 框架实现的。Qwen3 支持 agent 调用工具、也原生支持 MCP 协议,在对工具调用能力的 BFCL 评测中是顶尖模型里表现最好的。
Qwen3 的 Agent 增强能力,也在各行各业的客户场景中发挥作用。比如联想百应智能体平台在 Qwen3 发布后,马上就把他们平台背后的大模型引擎切过去。作为 IT 解决方案,百应平台利用 Qwen3 开源和对 agent 工具调用、MCP 支持的特点,再加上更强的推理能力,升级了 IT 运维(AI 服务)、AI 办公、AI 营销等场景方案,让中小企业在 AI 时代可以自己 DIY 垂直场景中的各种 Agent,实现了从提供生产工具到直接输送「数字员工」生产力的跃迁,进一步实现降本增效。