专栏名称: 红衣大叔周鸿祎
360公司董事长兼CEO,奇酷科技CEO周鸿祎个人公众号。分享创业、创新、产品和互联网的心得与思想。
目录
相关文章推荐
云南司法行政  ·  复议为民 | 楚雄州行政复议专题网站上线 ·  昨天  
云南司法行政  ·  复议为民 | 楚雄州行政复议专题网站上线 ·  昨天  
51好读  ›  专栏  ›  红衣大叔周鸿祎

国产大模型震惊海外 我怎么看?

红衣大叔周鸿祎  · 公众号  · 科技自媒体  · 2025-01-05 15:55

正文

请到「今天看啥」查看全文


这家公司首次被人记住是因其发布 2.0 开源模型时提供了史无前例的性价比,模型推理成本降至每百万个 token 约一元,约为 LLaMA的1/7、GPT 的1/70,故而 DeepSeek 被称为 AI 界的拼多多,掀起国产大模型价格战 ,字节跳动、腾讯、百度、阿里纷纷降价。
如今开发者能享大模型福利,DeepSeek 功不可没。

为何今日要提及此事?

过去我常说中美 AI 核心差距不大,约半年左右,主要差距在算力。因核心算法公开,多为工程化方法,模型也是开源的,差距实则不大,可很多人不信,一些专家还带节奏,称论 AI 实力美国领先,中国最多第二梯队,美国遥遥领先,我对此不敢苟同。
有人妄自菲薄还让众人灰心,长他人的志气灭自己的威风,对中国 AI 产业发展无益。

如今 DeepSeek 发布的模型有力回击了这些言论。微软、脸书、谷歌都在朝着10万卡集群做大模型训练时,DeepSeek 仅用2000个 GPU,花费不到600万美金和两个月时间,就做出一个与全球顶尖大模型能力对齐的开源大模型。

有人质疑说,新推的大模型是用国外模型知识蒸馏而来,但知识蒸馏方法人人可用,为何他人未做到?
此次效率大幅提升,肯定是在底层架构上有不同于其他巨头的创新,DeepSeek 定有不为人知的训练方法和工程实践方法。






请到「今天看啥」查看全文