专栏名称: 经纬创投
经纬创投公众平台,创享汇,新闻发布官方平台
目录
相关文章推荐
经纬创投  ·  “苏超”刷屏,为何其他省市难以复制? ... ·  7 小时前  
红杉汇  ·  高情商管理者,是如何提供情绪价值的? | ... ·  12 小时前  
真格基金  ·  Genspark 创始人景鲲分享:看见 ... ·  昨天  
光伏們  ·  广东建工收购5家光伏项目公司 ·  昨天  
光伏們  ·  广东建工收购5家光伏项目公司 ·  昨天  
51好读  ›  专栏  ›  经纬创投

DeepSeek团队大起底:仅凭清北应届生,就能在 AI 赛道狂飙? |【经纬低调分享】

经纬创投  · 公众号  · 科技投资  · 2025-01-14 11:49

正文

请到「今天看啥」查看全文



他们中有的参与了从DeepSeek LLM v1到DeepSeek-v3的全程,有的只是实习了一段时间也做出重要成果。


为DeepSeek提出MLA新型注意力、GRPO强化学习对齐算法等关键创新的,几乎都是年轻人。


1

DeepSeek核心成员揭秘


2024年5月发布的DeepSeek-V2,是致使这家大模型公司破圈的关键一环。


其中最重要的创新是提出了一种新型注意力,在Transformer架构的基础上,用MLA(Multi-head Latent Attention)替代了传统的多头注意力,大幅减少了计算量和推理显存。



在一众贡献者中, 高华佐 曾旺丁 为MLA架构做出了关键创新。



高华佐非常低调,目前只知道是北大物理系毕业。


另外,在“大模型创业六小强”之一阶跃星辰的专利信息中也可以看到这个名字,暂不确定是否是同一人。



而曾旺丁来自北邮,研究生导师是北邮人工智能与网络搜索教研中心主任张洪刚。



DeepSeek-V2工作中还涉及到了另一项关键成果——GRPO。


DeepSeek-V2发布前三个月,DeepSeek-Math问世,其中提出了GRPO(Group Relative Policy Optimization)。


GRPO是PPO的一种变体RL算法,放弃了critic模型,而是从群体得分中估算baseline,显著减少了训练资源的需求。



GRPO在圈内得到广泛关注,另一家国内开源大模型阿里Qwen 2.5的技术报告中也透露用到了GRPO。



DeepSeekMath有三位核心作者是在DeepSeek实习期间完成的工作。



核心作者之一 邵智宏 是清华交互式人工智能(CoAI)课题组博士生,师从黄民烈教授。



他的研究领域包括自然语言处理、深度学习,特别对如何能构建一个稳健且可扩展的AI系统感兴趣,这个AI系统能利用多样化的技能整合异构信息,并能准确回答各种复杂的自然语言问题。







请到「今天看啥」查看全文