专栏名称: 前端早读课
我们关注前端,产品体验设计,更关注前端同行的成长。 每天清晨五点早读,四万+同行相伴成长。
目录
相关文章推荐
龙视新闻联播  ·  “三个突破年”在行动丨“越”山向海 千里结“缘” ·  14 小时前  
龙视新闻联播  ·  “三个突破年”在行动丨“越”山向海 千里结“缘” ·  14 小时前  
阿杜书馆  ·  5个儿子养不了一个妈! ... ·  昨天  
阿杜书馆  ·  5个儿子养不了一个妈! ... ·  昨天  
前端大全  ·  记录一次前端项目代码Review ·  2 天前  
龙视新闻联播  ·  清凉在龙江|胜景引客 盛情留客 ·  2 天前  
51好读  ›  专栏  ›  前端早读课

【图书】DeepSeek 原理与项目实战

前端早读课  · 公众号  · 前端  · 2025-05-21 08:00

正文

请到「今天看啥」查看全文


1、混合专家架构(MoE):
  • 总参数量达 6710 亿,每个 token 动态激活 370 亿参数
  • 采用多头潜在注意力(MLA)架构,显著提升长文本处理能力
  • 支持 128K 超长上下文窗口,适用于复杂文档分析
2、训练优化:
  • 基于 14.8 万亿高质量 token 预训练






请到「今天看啥」查看全文