2. 模型平权、推理爆发,看好端侧+应用,具备独特数据和场景的IT厂商
受益
1)1月20日,DeepSeek-R1模型发布并开源,以RL路径实现了大模型的底层范式创新,大幅降低了先进模型的训练+推理成本,性能比肩SOTA(不含多模态),标志着中国AI从跟随者走向创新者。
降本核心创新点在于DeepSeekMOE架构、FP8混合精度框架、MLA多头潜在注意力机制、纯RL强化学习不依赖人工数据标注的监督微调等。目前微软、AMD等各类厂商都已宣布支持DeepSeek-R1并将其整合进自己的产品。
事件:
幻方子公司深度求索于2024年12月和2025年1月分别发布推理大模型DeepSeek-V3和DeepSeek-R1同时开源。在多项基准测试中,它在数学、编程等推理上的表现已经和 OpenAI 的 o1 不分伯仲,但训练和API 调用成本便宜了90-95%。综合看,V3和R1在研究范式上实现了一些原创式创新,对全球大模型研究带来重要影响。
DeepSeek-V3-Base 已成为当前性能最强的开源基础模型,DeepSeek-R1与GPT-o1性能相近。
V3在MMLU 基准测试中准确率达85.6%,在GSM8K数学任务中准确率达92.3%。DeepSeek-R1 在 MMLU、MMLU-Pro 和 GPQA Diamond 等教育知识基准上相比 DeepSeek-V3 显示出卓越性能,在数学任务上的性能与 OpenAI-o1-1217 相当,远超其他模型。
Deepseek-V3通过架构和工程优化显著降低成本
:基于提升性能和降低成本的双重目标,通过架构设计有效减少了对高性能硬件(GPU)的依赖,1)DeepSeek-V3 采用了MLA(多头部潜在注意力机制)来确保推理效率,2)使用 DeepSeekMoE(自研混合专家)来实现经济高效的训练,3)通过DualPipe 算法实现了计算-通信重叠,减少管道气泡,提升训练效率,4)首个在超大规模模型上成功验证了FP8混合精度加速训练框架的有效性。最终DeepSeek-V3完整训练仅需278.8万H800 GPU小时,训练部分成本仅为557万美元,远低于国内外其他已知模型。
R1在强化学习领域实现原创突破
:1)开源 DeepSeek-R1-Zero,首次验证了纯RL(强化学习)在 LLM 中显著增强推理能力的可行性,没有进行SFT(监督微调),避免了大量标注数据的成本和耗时。2)R1提出了多阶段训练策略(冷启动 SFT -> RL -> COT + 通用数据 SFT(80w)->全场景 RL),有效兼顾准确率与可读性。3)直接用上面的 80w 数据进行SFT,展示了知识蒸馏在提升小模型推理能力方面的潜力,并开源多个大小不一的蒸馏模型(1.5B~70B)。4)在 DeepSeek-R1-Zero 的训练历程中,还出现了模型自我反思的“顿悟时刻”。
2)1月29日,阿里通义千问旗舰版模型Qwen2.5-Max发布
,预训练数据超过20万亿tokens,比肩Claude-3.5-Sonnet,在多项公开主流模型评测基准上录得高分,甚至高于GPT-4o、DeepSeek-V3及Llama-3.1-405B。
3)2月3日,ChatGPT发布新Agent“Deep Research”
,基于o3模型做了特殊优化,把推理大模型的思考能力用于联网搜索,综合多个信息来源,一次查询响应时间5分钟-30分钟不等,目标是“完成人类专家需要几个小时的复杂研究任务”。在“人类最后的考试”上,Deep Research刷新了最高分,比o3-mini高推理设置分数高出一倍
2.2. 影响:模型平权,推理爆发
国产大模型开始引领基础创新,成本下降+性能提升+模型平权为推理侧爆发筑下基础:
1)中国科技重估。
Deepseek的底层创新最为重要,R1相当于在优秀的基础模型上,不再使用大量人工标注数据做“答案参考”监督微调,而是直接上强化学习(RL)让模型自己琢磨如何获得高分,更加直接地激励模型学会长链推理和反思等能力。标志着中国AI从跟随者向创新引领者转变,直接引发全球对中国科技创新的重视并对中国资产进行重估(参考美股中概上涨)。
2)开源和低成本让模型层面的差距迅速缩小,为推理侧应用(包括端侧和软件)的爆发打下基础。
参考过去移动互联网App的爆发也是显著受益于流量费用的下降,才给了用户和创业厂商广泛的物探。Deepseek开源模型有望引领全球大模型研究路线创新和成本下降,为AI Agent等应用爆发打下基础。小型团队不需要重资产投入就可以蒸馏出先进小模型(适用于各类端侧mini场景),并且端侧算力就可以跑通小模型,
2025年或是端侧的爆发元年
。
3)对算力影响:训练+推理的整体需求依然乐观。
未来的AI投入不再盲目“大力出奇迹”,逐渐将重心从预训练转向推理,但训练+推理的整体需求依然乐观。参考从2G到4G流量费用不断降低,但因为用量的指数级提升,导致整体市场规模依然快速增大。
2.3. 大模型重构产业加速,场景+数据+铲子价值提升,看好推理+应用
国产大模型开始引领基础创新,成本下降+性能提升+模型平权为推理侧爆发筑下基础:
Deepseek加速模型平权和普及,垂直模型和Agent应用有望迎来井喷期。
Deepseek不仅是单一模型的创新突破,更加速带动了大模型在各产业的实际应用。目前各类云厂商、软件开发厂商、端侧产品厂商都纷纷宣布接入deepseek,我们认为这只是第一步。
后续我们看好场景和数据积累深厚的公司率先享受AI Agent红利。
过去各类厂商受限于模型性能、准确率以及成本的考量,并未大精力投入AI模型的实际应用,处在观望期。Deepseek的开源加速了这一过程,人人都可以蒸馏出先进水平的小模型并私有化部署。
1)模型层面的壁垒打破以后,
影响应用效果的决定因素变为了场景和数据积累
,利好B端软件服务商。
从场景看,例如医疗行业,有大量医院IT开发经验的厂商便可以基于医院数据积累,针对性蒸馏出适用于该场景的AI Agent;例如财税行业,针对企业大量积累的财务、税务、业务交互数据积累,可以调优出更适合客户使用的Agent产品。
2)模型平权以后,
强者恒强
,弱者有望追赶差距,软件产业同步享受技术革新beta。
模型能力和算力不再是主要壁垒,数据规模和质量、亦或是独特的场景优势,就成为竞争的关键因素。过去AI能力相对较弱的二线厂商也有望享用全球领先的模型性能,不论是对内开发流程的降本增效,还是对客户的应用服务效果,软件行业整体受益。