阿里大模型突然震惊全世界

电商派Pro · 公众号 · 电商 · 2025-04-29 20:18

主要观点总结

阿里云新推出的大规模开源模型Qwen3系列，包括混合推理模型和旗舰模型Qwen3-235B-A22B等，成为全球最强开源模型之一。其优势明显，算力成本大幅降低，性能出众。此外，阿里在AI领域的投入也非常重视，对电商业务的AI转型抱有高期望，进行了一系列的开源战略和技术人才培养等举措。当前互联网行业掀起新一轮AI大战，各大公司都在加速布局AI业务。

关键观点总结

关键观点1: Qwen3系列模型的特点和优势

Qwen3系列模型包括混合推理模型和旗舰模型Qwen3-235B-A22B等，具有强大的性能表现。其优势在于算力成本大幅降低，部署成本大幅下降且显存占用低。此外，该模型支持全球多种语言和方言，具有广泛的适用性。

关键观点2: 阿里在AI领域的投入和战略转型

阿里对AI业务的重视达到前所未有的高度，持续聚焦国内外电商业务、AI+云计算的科技业务和互联网平台产品三大业务类型。未来三年，阿里将围绕AI这个战略核心在AI基础设施、基础模型平台及AI原生应用、现有业务的AI转型等方面加大投入。

关键观点3: 互联网行业的新一轮AI大战

互联网大厂都在加速布局AI业务，通过各种方式展开竞争。阿里利用开源大模型打开市场，抖音采取“广撒网”式的战略打法，构建起庞大的AI产品矩阵。整个互联网行业正在掀起新一轮的AI大战。

正文

请到「今天看啥」查看全文

，显存占用仅为性能相近模型的三分之一。

其次， Qwen3 大模型的性能也比同类大模型更强，在多个基准测试中表现出色，甚至超过了 DeepSeek-R1 和 OpenAI o1 等顶级模型。

在 Qwen3 系列模型中，旗舰版本 Qwen3-235B-A22B 是性能最强的。据阿里云披露的 Qwen3 基准测试结果，这款开源模型在代码、数学、通用能力等基准测试中，与一众顶级模型相比极具竞争优势，与 DeepSeek-R1 、 o1 、 o3-mini 、 Grok-3 和 Gemini-2.5-Pro 等模型不相上下，甚至有赶超的趋势。

Qwen3

基准测试结果图源：阿里云

具体来看，比如，在奥数水平的 AIME25 测评中，千问 3 取得了 81.5 分，刷新开源纪录；在考察代码能力的 LiveCodeBench 评测中，千问 3 得分超过 70 分，表现优于 Grok3 ；在评估模型人类偏好对齐的 ArenaHard 测评中，千问 3 以 95.6 分超越了 OpenAI-o1 及 DeepSeek-R1 。

另外，在评估模型 Agent 能力的 BFCL 评测中， Qwen3 取得了 70.8 分的成绩，刷新了该评测的记录，并超越了 Gemini2.5-Pro 、 OpenAI-o1 等顶尖模型。

值得一提的是， Qwen3 模型还支持全球 119 种语言和方言，意味着 Qwen 3 试图开辟更多的国际市场。

不得不说， Qwen3 模型的各项表现极为亮眼。当然，如果拿阿里自身来比较， Qwen3 模型取得的成绩就理所当然和不足为奇。

因为阿里大模型都很能拿得出手，去年 6 月底， 通义千问第二代开源模型 Qwen2-72B 亮相即登顶。

当时全球著名开源平台 Hugging Face （笑脸）的联合创始人兼首席执行官在社交平台透露，通义千问第二代开源模型 Qwen2-72B 拿下全球开源第一，力压 Meta 、 Mistralai 等海外科技巨头。

图源：微博

紧接着今年 3 月 3 日，阿里的另一款大模型 “万相 2.1(Wan2.1) ”也取得了优异成绩。

当时开源社区 Hugging Face 最新榜单显示，阿里大模型“万相 2.1(Wan2.1) ”登顶模型热榜和模型空间榜，成为近期全球开源社区最受欢迎的大模型。

图源：通义万相 Wan公众号

如今，阿里大模型登顶全球最强开源模型，对阿里来说，又是一次重大的技术突破和战略布局。

阿里巴巴要全面AI化

阿里大模型能取得如此突破，与阿里在资源上的大力投入密不可分。

在战略层面，阿里巴巴对 AI 业务的重视提高到了前所未有的高度。在上个月的财报电话会议上，阿里巴巴集团 CEO 吴泳铭明确指出，阿里巴巴将 持续聚焦国内外电商业务、 AI+ 云计算的科技业务、互联网平台产品 这三大业务类型。

而对于大模型，吴泳铭强调，未来三年，阿里将围绕 AI 这个战略核心，在 AI 基础设施、基础模型平台及 AI 原生应用、现有业务的 AI 转型等三方面加大投入。