专栏名称: 算法与数据结构
算法与数据结构知识、资源分享
目录
相关文章推荐
51好读  ›  专栏  ›  算法与数据结构

DeepSeek V3架构图;Deepseek 团队核心成员揭秘 —— 清北应届生撑起一片天;Dee...

算法与数据结构  · 公众号  · 算法  · 2025-01-16 12:03

正文

请到「今天看啥」查看全文


成员、高级研究科学家Andrej Karpathy很罕见地,分享了一个来自中国的开源大模型——DeepSeek-v3。Karpathy表示,DeepSeek仅用了280万小时的GPU算力,就训练出了比Llama-3405B(使用3080万小时 GPU)更强的前沿模型,整体成本节省了11倍左右,将算力发挥到了极致。这为小模型和受算力限制的组织打开了全新世界——即便在算力有限的情况下,使用高质量数据、更好的算法同样能训练出高性能大模型。
DeepSeek在MMLU、DROP、Codeforces、AIME等多个主流基准测试中,性能大幅度超过了GPT-4o、Claude-3.5-Sonnet、Qwen2.5-72B等著名开闭源模型,成为目前最强开源大模型之一。DeepSeek 的团队是一群前量化分析师,他们的训练效率非常疯狂。
DeepSeek v3 的架构主要包括多头潜在注意力(MLA)和混合专家(MoE)两大块,其中 MLA 是 v3 的核心创新之一,主要用于减少推理过程中的内存占用。v3 的 MoE 引入了一套先进的动态调整机制,专门用于优化专家负载。Deep Seek 除了开源最新模型之外,他们还提供了免费的在线服务。(AIGC开放社区)






请到「今天看啥」查看全文


推荐文章
21世纪经济报道  ·  一图看懂广东媒体资本布局
8 年前
滴滴上海  ·  不打扰|你的乘车空间,就留给你
8 年前
自然系列  ·  为什么要研究狗的家谱?
8 年前