阿里Qwen3发布：性能超R1、o1，成本仅R1的1/4，融合思考与非思考模式

知危 · 公众号 · · 2025-04-29 10:02

正文

请到「今天看啥」查看全文

图源：x.com@Awni Hannun

总体而言，Qwen3 家族成员非常丰富，共开源了两个 MoE 模型，六个 Dense 模型。MoE 模型包括： Qwen3-235B-A22B： 235B 总参数和 22B 激活参数； Qwen3-30B-A3B： 30B 总参数和 3B 激活参数。六个 Dense 模型包括 32B、14B、8B、4B、1.7B、0.6B 版本，具体参数如下。

模型家族成员的多尺寸，可以更好地满足多种场景的部署需求。比如，4B 模型是手机端的绝佳尺寸；8B 可在电脑和汽车端侧丝滑部署应用；32B 最受企业大规模部署欢迎，有条件的开发者也可轻松上手。

通义千问团队表示，经过后训练的模型，例如 Qwen3-30B-A3B，以及它们的预训练基座模型（如 Qwen3-30B-A3B-Base），现已在 Hugging Face、ModelScope 和 Kaggle 等平台上开放使用。对于部署，官方推荐使用 SGLang 和 vLLM 等框架；而对于本地使用，则推荐 Ollama、LMStudio、MLX、llama.cpp 和 KTransformers 等工具。

同时，如果你是 C 端用户，也可以在 Qwen Chat 网页版 ( chat.qwen.ai ) 和通义千问手机 APP 中试用 Qwen3 。

在体验的时候，你一定要试试 Qwen3 新实现的与 Claude 3.7 Sonnet 近期展现的一个神秘能力相同的能力，也就是将思考模式和非思考模式融合在一个模型中。

通义千问团队表示，结合这两种模式可以带来极强的 “ 思考预算 ” 控制能力，具体来说，Qwen3 和 Claude 3.7 Sonnet 一样，支持对推理 token 数进行滑块控制，最大 38k token，最小 1k token 。

这种灵活性对于用户而言可以节省在简单问题上过度推理的时间消耗，对于开发者、企业而言则能极大节省推理成本。有研究显示，推理模式下的成本大约是非推理模式的 2 到 5 倍。

知危对控制思考长度的收益特别进行了测试。

对于一个近期难倒众多推理模型的问题 “ 如何让 7 米长的甘蔗通过 2 米高 1 米宽的门？” 如果给 Qwen3-235B-A22B 最低推理预算 1k token，模型最终找到的答案是把墙设为有厚度，并通过勾股定理计算出墙的厚度，让甘蔗沿着门和墙构成的三维空间对角线穿过，这个操作虽然毫无必要，但也是正确的。