专栏名称: 爱分析ifenxi
爱分析ifenxi是一家专注于创新领域的投研机构,以企业价值研究为内核,服务企业决策者和机构投资者。爱分析重点研究技术驱动型创新领域,包括新金融、企业服务及大消费等,并通过全网多个平台发布访谈和调研报告。
目录
相关文章推荐
芝能汽车  ·  2025年5月欧州:比亚迪与特斯拉销量比较 ·  昨天  
汽车金融大全APP  ·  第7期汽车以租代购专场培训课 ·  2 天前  
51好读  ›  专栏  ›  爱分析ifenxi

10分钟速览DeepSeek三大关键版本的核心技术点

爱分析ifenxi  · 公众号  ·  · 2025-03-04 20:39

正文

请到「今天看啥」查看全文


2024年12月DeepSeek发布了V3,这是非常重磅的发布,在效率、性能方面有非常突出的工作能力。此时还没有引起AI界特别多的关注。
2025年1月,DeepSeek发布R1,引起了全民关注的出圈。
这里还要提一个重要事件,Open AI o1预览版本在2024年9月发布,这是第一个推理模型,o1的惊艳效果对大模型行业影响非常大,大家普遍认为类似o1的后训练方式是未来的方向,但是大家始终都猜不透Open AI是怎么做的这件事,也没有公布足够的技术细节。在后来很长一段时间内,没有哪家公司能够复现和o1同等效果的模型。因此,AI界苦苦等待了4个月,当DeepSeek R1出现并开源时,在全球范围内引起了巨大的轰动。
为什么DeepSeek R1会引起这么大的轰动呢?我认为原因有2点:
第一是当时的大模型技术架构逐渐趋同,每家AI企业在大模型上投入的沉没成本很高,会导致试错成本很高,很难再用一些特别革命性或者创新性的东西调整自己的研究方向。
第二是大家探索了很久,模型界也没有出现任何一个能够和OpenAI o1相匹配的产品,都还处于一个混沌的状态,都在猜测o1是如何实现的。
所以当DeepSeek R1出现后,在技术圈、企业圈里引起了全球范围的讨论,并逐步发酵出一些连带影响。
从个人视角来看,首先DeepSeek R1出圈的根本原因是效果好。 一方面是在榜单对比上的效果很好,另一方面,在业务实际使用的效果上也非常好。 其次是具备极致性价比,相比是大模型界的小米。 在保持效果优秀的同时,价格更便宜。同时是开源的推理大模型,这对整个大模型生态有着非常大的影响,各家公司都可以按照同样的方式开发自己的推理大模型或者行业大模型。 最后就是芯片卡脖子问题 ,DeepSeek提出的新架构,有可能让这一问题得到解决。
正是基于这些原因,也让DeepSeek成功取代了Meta,成为了开源世界新的领头羊。
02
DeepSeek三大关键版本的核心技术分享
1、DeepSeek V2模型
先了解下DeepSeek V2的模型信息,总参数量是236B,单个token推理激活的参数量是21B。看到下图右侧的坐标图,横坐标是单个token推理的激活参数量,纵坐标是效果。
从整体结果来说DeepSeek远超大部分模型。与LLaMA 3 70B 对比来看,在每个token推理激活的参数量不到LLaMA 3 70B一半的同时,效果做到了基本相同。和通义千问 1.5 72B相比,参数量也是大幅减小的状态。这也是 DeepSeek 打出的第一波价格战,把模型token的价格降到一个极低的水平的底气。
再从DeepSeek V2发布的技术报告中,发现有两大核心技术点创新,一个是DeepSeek MoE,第二个是MLA,这两大技术都延续到了V3。
第一个创新点是MoE, MoE是混合专家系统的缩写,它由多个专家组成,通过门控网络来决定每个数据应该被哪个专家去训练,从而减轻不同类型样本之间的干扰。当模型做单次推理的时候,可以选择是否把每一个专家都激活,如果需要激活每一个专家,那就是稠密的MoE,如果只从所有专家中挑选几个就是稀疏的MoE。当前大部分MoE模型都是稀疏的方式。
那么DeepSeek MoE有什么特点?DeepSeek MoE和Mistral MoE 有哪些区别?






请到「今天看啥」查看全文