正文
以下为对话内容精选:
为何多模态理解生成一体化模型
如此重要?
提问:理解生成一体化的路线是公司成立之初就设定好的吗?在这个相对较难的前沿方向上坚持,会对商业化有什么影响?
姜大昕:
成立之初就设定好了这一路线。我认为模型突破是早于商业化的,就像先有GPT-3,才会有ChatGPT;先有多模态融合和推理模型,才会有成熟的Agent。
同样,需要先有多模态理解生成一体化,特别是可扩展的一体化,才能实现人形机器人的泛化能力。
一体化技术突破后,
它的意义不仅在于改进现有Agent,还会在具身智能泛化和世界模型构建方面带来全新应用。
对端侧来说,理解生成一体化确实能带来更好的理解和生成能力,有助于Agent发展,但其意义远不止于此。
从技术路径发展阶段看,
理解生成一体化相当于语言模型发展中的Transformer阶段,甚至比GPT-1还早。
Transformer是2017年出现的,而GPT-1是2018年出现的,所以这是一个架构级的基础突破。
提问:阶跃的技术路线是什么?是希望自己创造多模态模型的"Transformer时刻"还是等待别人突破后跟进?
姜大昕:
我们内部有多条技术路线并行探索,因为确实不知道哪条路会成功。不谦虚地说,阶跃的技术人才储备很雄厚,各团队在基于自己的判断尝试。我们当然希望自己做出突破,但真正成功的才有意义。
历史上,Transformer出现之前自然语言处理也有多条技术路线,包括RNN、LSTM等。直到Transformer出现后大家才认可"就是它了"。现在的多路线探索就像当年在寻找更高效的架构,最终会有一个让大家都认可的解决方案。
很有趣的是,2017年Transformer出现后,真正一统天下的不是OpenAI的GPT,而是Google的BERT。当时在自然语言处理领域,BERT完全吊打GPT。
GPT比BERT早出来几个月,但是没有受到同等重视。Ilya Sutskever有种执念,坚信没有生成就谈不上理解。当时从实际效果看,BERT确实更好。甚至GPT-3出来时我们也只认为它有研究价值,因为又大又笨,似乎什么都能做但是什么都做不好,直到ChatGPT出现才改变看法。
语言模型已经经历过这段历程,视觉领域可能会吸取经验。一旦视觉的"Transformer"出现,后面的发展路径会变得顺理成章,大家只需沿着语言模型已探索的路径前进即可。
理解生成一体化模型
实现的标志是什么?
提问:GPT-4o新版本是否已实现理解和生成一体化?
姜大昕:我们猜测GPT-4o可能已将理解和生成放在同一个模型中,但不确定这种方法是否能实现泛化(scalable)
。我们追求的理解生成一体化应该像Transformer那样能够扩展,能够处理海量视频数据进行预训练。
判断一个模型是否实现了可扩展的理解生成一体化,关键是看它能否预测下一帧(predict next frame)。
去年Sora发布时,很多人非常兴奋,但我们其实相当失望,因为我们期待的是理解生成一体化的突破,而不仅仅是一个扩散模型生成视频。