专栏名称: 前端早读课
我们关注前端,产品体验设计,更关注前端同行的成长。 每天清晨五点早读,四万+同行相伴成长。
目录
相关文章推荐
前端早读课  ·  【第3525期】架起桥梁:在 Dart ... ·  18 小时前  
龙视新闻联播  ·  勋章闪耀|从“孤勇者”到“领头雁” ·  昨天  
龙视新闻联播  ·  勋章闪耀|从“孤勇者”到“领头雁” ·  昨天  
宝山消防支队  ·  以案为例 | 《警惕小火星引发大悲剧》 ·  2 天前  
51好读  ›  专栏  ›  前端早读课

【图书】DeepSeek 原理与项目实战

前端早读课  · 公众号  · 前端  · 2025-05-21 08:00

正文

请到「今天看啥」查看全文


1、混合专家架构(MoE):
  • 总参数量达 6710 亿,每个 token 动态激活 370 亿参数
  • 采用多头潜在注意力(MLA)架构,显著提升长文本处理能力
  • 支持 128K 超长上下文窗口,适用于复杂文档分析
2、训练优化:
  • 基于 14.8 万亿高质量 token 预训练






请到「今天看啥」查看全文


推荐文章
龙视新闻联播  ·  勋章闪耀|从“孤勇者”到“领头雁”
昨天
龙视新闻联播  ·  勋章闪耀|从“孤勇者”到“领头雁”
昨天
宝山消防支队  ·  以案为例 | 《警惕小火星引发大悲剧》
2 天前