专栏名称: 阿里研究院
阿里研究院依托阿里巴巴集团海量数据、深耕小企业前沿案例、集结全球商业智慧,以开放、合作、共建、共享的方式打造具影响力的新商业知识平台。 阿里研究,洞察数据,共创新知! 官方网站http://www.aliresearch.com/
目录
相关文章推荐
亿邦动力  ·  美团旗下Keemart在沙特启动运营;Tik ... ·  昨天  
蛋先生工作室  ·  最新淘汰鸡行情 ·  昨天  
包头新闻网  ·  超标500倍!有毒,家里有的赶紧扔! ·  2 天前  
包头新闻网  ·  超标500倍!有毒,家里有的赶紧扔! ·  2 天前  
51好读  ›  专栏  ›  阿里研究院

Qwen3 开源发布!

阿里研究院  · 公众号  · 电商  · 2025-04-29 08:14

主要观点总结

Qwen3是Qwen系列全新一代的混合推理模型,具有卓越的性能和灵活适配多场景的能力。它通过引入MOE(混合专家)架构,实现了效率显著提升,并融合了推理与非推理能力,在逻辑分析和创意生成等任务中表现卓越。预训练数据量达到月36万亿tokens,通过多轮大规模强化学习与精细优化,在推理、工具调用、指令遵循及多语言能力等方面有显著提升。其中,Qwen3-235B-A22B模型性能尤为突出。此外,Qwen3还引入了思考模式和非思考模式,以应对不同场景的需求。模型支持多种框架和工具的使用,并提供了丰富的API接口。

关键观点总结

关键观点1: Qwen3模型的特点和优势

Qwen3是Qwen系列的新一代混合推理模型,具有卓越的性能和灵活适配多场景的能力。它通过引入创新的MOE架构,在效果上媲美上一代超大规模Dense模型的同时,效率显著提升。此外,Qwen3融合了推理与非推理能力,在逻辑分析和创意生成等方面表现出色。

关键观点2: Qwen3的预训练数据和强化学习

Qwen3预训练数据量达到月36万亿tokens,通过多轮大规模强化学习与精细优化,在推理、工具调用、指令遵循及多语言能力等方面有显著提升。

关键观点3: Qwen3的思考模式和非思考模式

Qwen3引入了思考模式和非思考模式,以应对不同场景的需求。思考模式下,模型会进行多步推理和深度分析;非思考模式下,模型追求响应速度和效率,适用于简单任务或实时交互。

关键观点4: Qwen3的应用和部署

Qwen3模型可以在不同框架和工具中使用,提供了丰富的API接口。用户可以通过简单的指令或配置文件在两种模式之间切换。此外,Qwen3还支持动态切换思考模式,根据最新指令调整行为,灵活适应不同需求。


正文

请到「今天看啥」查看全文


tokens, 并通 过多轮大规模强化学习与精细优化,在 工具调用 指令遵循 多语言能力 等方面显著提升。

其中,Qwen3-235B-A22B 表现尤为突出,刷新了 开源模型的智能水平新高, 显存占用仅为性能相近模型的三分之一。无论是数学推理、代码生成还是综合逻辑分析, Qwen3 均展现出卓越能力,稳居全球开源模型前列。在工具调用方面表现优异,大幅降低了复杂任务的实现门槛,同时还支持 119 种语言,覆盖全球主要语种,满足多样化需求。


思考与非思考模式

灵活应对不同场景



Qwen3 引入了 “思考模式” “非思考模式”







请到「今天看啥」查看全文