正文
微软AI前沿研究实验室的首席研究员迪米特里斯·帕帕利奥普洛斯表示,令他最为惊讶的是R1的工程简洁性。“DeepSeek更注重准确答案,而不是详细列出每一个逻辑步骤,这大大减少了计算时间,同时保持了高效性。”
训练大语言模型需要一支高水平的研究团队和大量的计算资源。著名企业家、前谷歌中国总裁李开复曾在接受媒体采访时表示,只有“前排玩家”才有能力投入到构建基础模型的工作中,因为这一过程资源消耗极大。加之美国的芯片出口管制政策,局势变得更加复杂。
然而,DeepSeek的成功恰恰源于这种困境。早在美国制裁预期到来之前,该公司就提前囤积了大量的英伟达A100芯片,数量可能超过1万颗甚至5万颗。正是基于这一战略性的资源积累,DeepSeek才能够利用这些高性能芯片和低功耗芯片的组合,开发出其创新性的AI模型。
DeepSeek通过创新,找到了一种既能减少内存使用又能加快计算速度的方法,且不会显著影响准确性。卡内基国际和平基金会AI研究员马特·希恩表示:“美国的出口管制实际上将中国公司逼入了一个角落,它们必须在有限的计算资源下更加高效。这将促使更多的AI企业通过更精细的资源分配和协作生存下来。”
《连线》:DeepSeek正向西方AI巨头发起挑战
事实上,在许多关键指标上,如性能、成本和开放性等方面,DeepSeek正在向西方AI巨头发起挑战。
DeepSeek的成功凸显了美中科技冷战中的一个意外结果。美国的出口管制严重限制了中国科技公司在西方方式上与AI竞争的能力——即通过不断购买更多芯片并延长训练
时间来无限扩展。因此,大多数中国公司将重点放在下游应用上,而不是打造自己的模型。DeepSeek的最新发布证明了另一种制胜之道:通过重塑AI模型的基础结构,更高效地利用有限资源。
悉尼科技大学的副教授Marina Zhang解释道:“与许多依赖高端硬件的中国AI公司不同,DeepSeek专注于最大化软件驱动的资源优化。DeepSeek拥抱开源方法,汇聚集体智慧并促进协同创新。这种方式不仅缓解了资源限制,还加速了前沿技术的开发,使DeepSeek与更封闭的竞争者有所不同。”
DeepSeek愿意与公众分享这些创新,赢得了全球AI研究社区的广泛好感。对于许多中国AI公司而言,开发开源模型是追赶西方同行的唯一途径,因为开源能够吸引更多的用户和贡献者,进而帮助模型成长。
“他们现在已经证明,尖端模型可以用相对较少的资金甚至更低的资源来打造,而当前的模型构建规范仍然有很大的优化空间,”Marina Zhang表示。“未来,我们肯定会看到更多的类似尝试。”
VentureBeat:DeepSeek打乱了AI模型市场格局