专栏名称: 美树嘉文艺志
为让更多人看到艺术的优雅与可能,亦为生活本身分享有价值的内容与智慧,我们高谈艺术或俯首生活,试图将有生命力的信息温和地送达给您,希望所有的主题都鲜活有趣——提供极美图片,从诗歌聊到马桶,从爱情写到火星。
目录
相关文章推荐
成都发布  ·  @高考生,22所军校招生!报考条件→ ·  昨天  
成都发布  ·  正式投运!成都又添一个西南总部 ·  昨天  
成都发布  ·  住院预交金,降!一批新规明起实施 ·  2 天前  
51好读  ›  专栏  ›  美树嘉文艺志

DeepSeek梁文峰采访全录(23年5月,24年7月)

美树嘉文艺志  · 公众号  ·  · 2025-02-02 00:05

正文

请到「今天看啥」查看全文



开源,发论文,其实并没有失去什么。对于技术人员来说,被 follow 是很有成就感的事。其实,开源更像一个文化行为,而非商业行为。给予其实是一种额外的荣誉。一个公司这么做也会有文化的吸引力。

暗涌: 你怎么看类似朱啸虎的这种市场信仰派观点?

梁文锋: 朱啸虎是自洽的,但他的打法更适合快速赚钱的公司,而你看美国最赚钱的公司,都是厚积薄发的高科技公司。

暗涌: 但做大模型,单纯的技术领先也很难形成绝对优势,你们赌的那个更大的东西是什么?

梁文锋: 我们看到的是中国AI不可能永远处在跟随的位置。我们经常说中国 AI 和美国有一两年差距,但真实的 gap 是原创和模仿之差。如果这个不改变,中国永远只能是追随者,所以有些探索也是逃不掉的。

英伟达的领先,不只是一个公司的努力,而是整个西方技术社区和产业共同努力的结果。他们能看到下一代的技术趋势,手里有路线图。中国 AI 的发展,同样需要这样的生态。很多国产芯片发展不起来,也是因为缺乏配套的技术社区,只有第二手消息,所以中国必然需要有人站到技术的前沿。




我们想去验证一些猜想



暗涌: 幻方决定下场做大模型,一家量化基金为什么要做这样一件事?

梁文锋: 我们做大模型,其实跟量化和金融都没有直接关系。我们独建了一个名为深度求索的新公司来做这件事。幻方的主要班底里,很多人是做人工智能的。当时我们尝试了很多场景,最终切入了足够复杂的金融,而通用人工智能可能是下一个最难的事之一,所以对我们来说,这是一个怎么做的问题,而不是为什么做的问题。

暗涌: 你们要自训一个大模型,还是某个垂直行业——比如金融相关的大模型?

梁文锋: 我们要做的是通用人工智能,也就是 AGI。语言大模型可能是通往 AGI 的必经之路,并且初步具备了 AGI 的特征,所以我们会从这里开始,后边也会有视觉等。

暗涌: 因为大厂的入局,很多创业型公司都放弃了只做通用型大模型的大方向。

梁文锋: 我们不会过早设计基于模型的一些应用,会专注在大模型上。

暗涌: 很多人认为,创业公司在大厂形成共识后下场,已经不是一个好的时间点。

梁文锋: 现在看起来,无论大厂,还是创业公司,都很难在短时间内建立起碾压对手的技术优势。因为有 OpenAI 指路,又都基于公开论文和代码,最晚明年,大厂和创业公司都会把自己的大语言模型做出来。大厂和创业公司都各有机会。现有垂类场景不掌握在初创公司手上,这个阶段对初创公司不太友好。但因为这种场景说到底也是分散的、碎片化的小需求,所以它又是更适合灵活的创业型组织的。

从长期看,大模型应用门槛会越来越低,初创公司在未来 20 年任何时候下场,也都有机会。我们的目标也很明确,就是不做垂类和应用,而是做研究,做探索。

暗涌: 为什么你的定义是「做研究、做探索」?

梁文锋: 一种好奇心驱动。从远处说,我们想去验证一些猜想。比如我们理解人类智能本质可能就是语言,人的思维可能就是一个语言的过程。你以为你在思考,其实可能是你在脑子里编织语言。这意味着,在语言大模型上可能诞生出类人的人工智能(AGI)。从近处说,GPT4 还有很多待解之谜。我们去复刻的同时,也会做研究揭秘。

暗涌: 但研究意味着要付出更大的成本。

梁文锋: 只做复刻的话,可以在公开论文或开源代码基础上,只需训练很少次数,甚至只需 finetune(微调)一下,成本很低。而做研究,要做各种实验和对比,需要更多算力,对人员要求也更高,所以成本更高。

暗涌: 那研究经费哪里来?

梁文锋: 幻方作为我们的出资人之一,有充足的研发预算,另外每年有几个亿的捐款预算,之前都是给公益机构,如果需要,也可以做些调整。

暗涌: 但做基础层大模型,没有两三亿美元,连牌桌都上不了,我们如何支撑它的持续投入?

梁文锋: 我们也在找不同出资方在谈。接触下来,感觉很多 VC 对做研究有顾虑,他们有退出需求,希望尽快做出产品商业化,而按照我们优先做研究的思路,很难从 VC 那里获得融资。但我们有算力和一个工程师团队,相当于有了一半筹码。

暗涌: 我们对商业模式做了哪些推演和设想?

梁文锋: 我们现在想的是,后边可以把我们的训练结果大部分公开共享,这样可以跟商业化有所结合。我们希望更多人,哪怕一个小 app 都可以低成本去用上大模型,而不是技术只掌握在一部分人和公司手中,形成垄断。

暗涌: 一些大厂后期也会有一些服务提供,你们差异化的部分是什么?

梁文锋: 大厂的模型,可能会和他们的平台或生态捆绑,而我们是完全自由的。

暗涌: 无论如何,一个商业公司去做一种无限投入的研究性探索,都有些疯狂。

梁文锋: 如果一定要找一个商业上的理由,它可能是找不到的,因为划不来。从商业角度来讲,基础研究就是投入回报比很低的。OpenAI 早期投资人投钱时,想的一定不是我要拿回多少回报,而是真的想做这个事。我们现在比较确定的是,既然我们想做这个事,又有这个能力,这个时间点上,我们就是最合适人选之一。




万卡储备其实是好奇心驱动



暗涌: GPU是这次 ChatGPT 创业潮的稀缺品,你们在 2021 年就可以有先见之明,储备了 1 万枚。为什么?

梁文锋: 其实从最早的 1 张卡,到 2015 年的 100 张卡、2019 年的 1000 张卡,再到一万张,这个过程是逐步发生的。几百张卡之前,我们托管在 IDC,规模再变大时,托管就没法满足要求了,就开始自建机房。很多人会以为这里边有一个不为人知的商业逻辑,但其实,主要是好奇心驱动。

暗涌: 什么样的好奇心?

梁文锋: 对 AI 能力边界的好奇。对很多行外人来说,ChatGPT 这波浪潮冲击特别大;但对行内人来说,2012 年 AlexNet 带来的冲击已经引领一个新的时代。AlexNet 的错误率远低于当时其他模型,复苏了沉睡几十年的神经网络研究。虽然具体技术方向一直在变,但模型、数据和算力这三者的组合是不变的,特别是当 2020 年 OpenAI 发布 GPT3 后,方向很清楚,需要大量算力;但即便 2021 年,我们投入建设萤火二号时,大部分人还是无法理解。

暗涌: 所以 2012 年起,你们就开始关注到算力的储备?

梁文锋: 对研究员来说,对算力的渴求是永无止境的。做了小规模实验后,总想做更大规模的实验。那之后,我们也会有意识地去部署尽可能多的算力。

暗涌: 很多人以为搭这个计算机集群,是量化私募业务会用到机器学习做价格预测?

梁文锋: 如果单纯只做量化投资,很少的卡也能达到目的。我们在投资外做了大量研究,更想搞清楚什么样的范式可以完整地描述整个金融市场,有没有更简洁的表达方式,不同范式能力边界在哪,这些范式是不是有更广泛适用,等等。






请到「今天看啥」查看全文