主要观点总结
DeepSeek公司发布的大模型DeepSeek-R1在全球引发关注。该模型在基准测试中表现优秀,且训练成本极低。DeepSeek采用了一种新的训练方法,即直接强化学习,不使用大量已标注数据进行监督微调。DeepSeek-R1系列开源模型允许研究者和开发者在自己的项目中自由使用,并支持商业用途和任何形式的修改和衍生创作。该模型的出现引起了全球科技界的热议和评价不一,有人认为它展示了中国AI行业的进步和创新,也有人关注其长远影响和可能的竞争关系。
关键观点总结
关键观点1: DeepSeek-R1性能优秀且训练成本低
DeepSeek发布的大模型DeepSeek-R1在多项基准测试中表现优秀,与顶尖模型如OpenAI o1相当或略强。其训练成本极低,仅使用少量计算资源即可完成训练。
关键观点2: DeepSeek采用直接强化学习的新训练方法
DeepSeek团队采用了直接强化学习的方法训练DeepSeek-R1,这是一种不同于传统监督微调的新尝试,有助于降低训练成本和提高模型的推理能力。
关键观点3: DeepSeek-R1系列开源并受到全球关注
DeepSeek-R1系列模型开源,允许研究者和开发者自由使用,这一做法受到全球科技界的关注。一些人认为这是开源大语言模型领域的最大黑马。
关键观点4: 中国AI行业的发展引发讨论
DeepSeek的大模型引起了全球媒体的广泛关注,让人们看到了中国在AI领域的发展潜力。尽管存在对美国出口管制措施的担忧,但该大模型的出现仍然给中国的大模型发展带来了新的希望。
正文
在低价优质的基础上,DeepSeek-R1还实现了部分开源。官方声明同步开源了模型权重,允许研究者和开发者在自己的项目中自由使用该模型,或在其基础上进行进一步的研究和开发。DeepSeek-R1系列支持商业用途,并且允许用户对模型进行任何形式的修改和衍生创作。同时,DeepSeek-R1对用户开放思维链输出,这意味着我们能直接看到它以文本形式输出的“思考”过程。
去年 12 月底,DeepSeek发布的DeepSeek-V3已经引起过一次AI圈的震动。它的性能GPT-4o和Claude Sonnet 3.5等顶尖模型相近,但训练成本极低。整个训练在2048块英伟达H800 GPU集群上完成,仅花费约557.6万美元,不到其他顶尖模型训练成本的十分之一。
GPT-4o等模型的训练成本约为1亿美元,至少在万个GPU量级的计算集群上训练,而且使用的是性能更为优越的H100 GPU。例如,同为顶尖大模型,去年发布的Llama 3.1在训练过程中使用了16,384块H100 GPU,消耗了DeepSeek-V3 11倍的计算资源,成本超过6000万美元。
随着大模型的竞争越来越卷,去年OpenAI、Meta、Google以及马斯克的xAI,各大AI巨头都开始打造自己的万卡
(GPU)
集群,万卡集群似乎成了训练顶尖大模型的入场券。但DeepSeek却用不到十分之一的资源打造出性能相近的大模型,这让习惯了资源竞赛的硅谷AI界人士感到意外。
DeepSeek-V3发布后,英伟达高级研究科学家Jim Fan曾在社交媒体上表示,“DeepSeek是本年度开源大语言模型领域的最大黑马
[1]
”。
硅谷人工智能数据服务公司Scale AI的创始人亚历山大·王
(Alexander Wang)
则在社交媒体上直言不讳地表达了对中国科技界追赶美国的担忧。他认为DeepSeek-V3的发布,是中国科技界带给美国的苦涩教训。“当美国休息时,中国
(科技界)
在工作,以更低的成本、更快的速度和更强的实力赶上。”
而今年年初DeepSeek-R1发布后,硅谷科技界的评价依然很高。亚历山大·王认为“我们发现,DeepSeek……是表现最好的,或者大致与美国最好的模型相当.这个领域的竞争越来越激烈,而不是越来越少
[2]
”。
Jim Fan的评价更上一层楼,甚至讨论起了DeepSeek“接班”OpenAI的话题。相比依靠闭源构筑护城河的OpenAI,他在社交网站上表示“我们生活在这样一个时间线上,一家非美国公司正在维持 OpenAI 的原始使命——真正开放、前沿的研究,赋予所有人力量。这看似不合逻辑,但最有趣的结果往往最容易发生
[3]
”。
在基准测试中的得分未必能完全代表大模型的真实能力,科学家们对R1的能力持更为谨慎的态度。目前,科学家们已经开始对R1进行更深入的测试。
德国埃尔兰根马克斯·普朗克光学研究所人工智能科学家实验室负责人马里奥·克伦,让OpenAI o1和DeepSeek-R1两个竞争模型对3,000个研究想法按照其有趣程度进行排序,并将结果与人类的排序进行了比较。在这个评估标准上,R1的表现略逊于o1。然而,她指出R1在某些量子光学计算任务中表现优于o1
[4]
。