正文
上周在达沃斯论坛期间,我收到很多非技术类商业领袖的提问。而就在周一,股市出现了“DeepSeek 抛售潮”:Nvidia 英伟达和其他一些美国科技公司的股价大幅下跌。(截至写作时,股价已略有回升。)
我认为,DeepSeek 让很多人意识到了以下几点:
中国在生成式 AI 领域正在追赶美国
2022 年 11 月 ChatGPT 发布时,美国在生成式 AI 领域遥遥领先。尽管印象改变往往较慢,但即便最近,我还听到很多来自美国和中国的朋友表示,认为中国仍然落后。但事实上,在过去两年里,这一差距已经迅速缩小。
随着中国一些模型如 Qwen(我的团队已经使用了几个月)、Kimi、InternVL 和 DeepSeek 的发布,中国在这一领域显然在追赶,而且在视频生成等领域,甚至已经有时超越了美国。
我非常高兴 DeepSeek-R1 作为开放权重模型发布,并且附带了详细的技术报告。相比之下,一些美国公司则不断推动出台监管措施,借助炒作 AI 灾难(如人类灭绝)来打压开源。
现在已经显而易见,开源和开放权重模型是 AI 供应链的重要组成部分,许多公司将使用它们。如果美国继续压制开源,中国将主导这一供应链的部分,许多企业最终将使用更符合中国价值观的模型,而非美国的。
开放权重模型正在将基础模型层商品化
正如我之前所说,LLM 的 token 价格正在快速下降,而开放权重模型助推了这一趋势,并为开发者提供了更多选择。例如,
OpenAI 的 o1 模型每百万输出 token 的价格为 60 美元,而 DeepSeek R1 的价格仅为 2.19 美元。这一近 30 倍的价格差异,让许多人意识到价格下降的趋势。
训练基础模型并提供 API 接入服务是一个充满挑战的行业。许多从事这一领域的公司仍在寻找方法来弥补巨额的训练成本。文章《AI 的 6000 亿美元问题》很好的展示了这一挑战(但我认为这些基础模型公司做得非常棒,我希望它们能成功)。
相比之下,在基础模型上构建应用程序则创造了很多商业机会。现在,其他公司已经花费数十亿美元训练出这些模型,你只需花费几美元就能使用这些模型,构建客服聊天机器人、邮件摘要、AI 医生、法律文件助手等各种应用。
规模化并不是 AI 进步的唯一途径
关于规模化推动 AI 进步的讨论最近有些过热。公平地说,我曾是规模化早期的支持者。
许多公司通过炒作“只要获得更多资本,就能扩大规模并且稳定地推动改进”这一论调,成功筹集了大量资金。
因此,大家过于专注于规模化,而忽视了推动 AI 进步的其他更多途径。
受美国 AI 芯片禁运的影响,DeepSeek 团队不得不进行大量优化,最终使得模型在性能较差的 H800 GPU 上也能运行,成本控制在不到 600 万美元(不包括研发费用)。
目前尚不清楚这一举措是否真的会减少对计算能力的需求。
有时每个单位商品的价格下降反而会促进更多的购买。我认为,在长远来看,智能和计算的需求几乎没有上限
,因此,我对未来人类将使用更多智能持乐观态度,即使这种智能变得更加便宜。
我在社交媒体上看到很多对 DeepSeek 进展的解读,就像一场罗夏墨迹测试,大家根据自己的理解对其进行解读。
我认为 DeepSeek-R1 的发布具有深远的地缘政治意义
,尽管这还需要进一步分析。