正文
具体说来,Flux、Stable Diffusion 等模型,现在的做法都是将文本表征和图像生成过程进行解耦,然后扩散模型出图。这种方式通常要先对文本进行完整表征,例如通过 CLIP 或大语言模型提取特征,然后将该特征直接输入扩散模型,并要求扩散模型在生成图像的整个过程中持续参考这个固定的文本特征。这个文本特征的来源是用户输入的 prompt,某种编码器的方式会对 prompt 进行特征提取。
然而问题在于:特征提取完成后,信息量就被固定了。在文本到图像的生成过程中,100% 的原始信息都存在于用户输入的文本 prompt 中,但经过文本编码或表征提取后可能只剩下 70% 的信息,这意味着后续最多就只能基于这 70% 的信息量进行图像生成。
当前几乎所有图像生成模型都采用了上述模式。但可以看出,这些模型在生成文本表征时都会不可避免地造成信息损失,而这种损失一旦形成固定的 embedding 或表征就无法挽回,这一阶段出现的信息缺失,后续扩散模型在生成图像时是无法回溯弥补的。
当前,扩散模型的扩充方式是 prompt engineering(提示词工程)。但是,提示词工程只能扩展成显式描述,比如输入“一个漂亮的小女孩”,系统会将其扩展为非常详细的描述,包括小女孩戴着什么样的帽子、出现在什么样的背景下等等。但这种方式在后续建模中仍然需要提取文本特征,依然会造成信息损失。只要是采用二阶段的方式,即先建模文本再以文本为条件输入扩散模型,就必然会因为文本建模过程中的信息损失导致最终生成的图像无法与文本描述 100% 对齐。
GPT-4o 之所以强大,关键在于它能有效处理用户提供的简洁信息。例如,用户通常只会简单地输入:“帮我画一只小猫或小狗”,但不会给出具体是什么样的猫或狗。现在,GPT-4o 统一到大语言模型的自回归框架下,所以天然具备了语义泛化能力。这种能力本质上源于模型本身的知识储备,使其能够准确理解用户简单文字背后代表的真正的、稠密的信息量是什么。
正是由于 GPT-4o 拥有强大的大语言模型作为知识基础,它才能在完整的端到端框架中实现如此精准的理解和生成能力,这一点至关重要。模型输入的就是用户的原始 prompt,然后直接出图,中间过程中没有二阶段损失,都是一阶段做的,可以充分利用大语言模型所带来的隐式知识,包括扩充 prompt 等。
另外一点是,原来的方法仅支持单轮操作,即输入文字生成提示词,再通过特征提取生成图像,但无法支持多轮条件控制。
GPT-4o 可以直接将图片按照上传图片的风格生成新图像,其中关键在于需要理解上下文中的具体指向,如“刚才提到的狗的照片是哪一张”,这需要大语言模型具备跨模态理解能力。在自回归框架下,上下文从纯文本扩展到了文本 + 图像,因此模型能轻松 get 上下文,甚至远程的上下文。
值得注意的是,从出图质量来看,目前基于自回归框架的生成效果并没有碾压式地超过扩散模型,甚至可能还不如扩散模型的表现。现阶段,两者的生成质量水平其实相差不大。
李岩指出,这仅仅是就出图效果而言,我们更应该关注的是交互方式的差异。未来在交互体验方面,自回归框架显然具有更大的理论优势,它能够更好地兼容完全开放的自由度,实现更接近自然语言对话式的交互方式。
“这种 Interleaved 的图文交错技术才是真正原生的多模态大模型。”李岩认为,在当前行业中,真正意义上的原生全模态的大模型领域里,OpenAI 还是走在最靠前的。
此外,李岩表示,“文生图架构没有什么可以争议的了,在 2025 年这个话题就不是话题了。”
自回归框架对于多模态里面的文本模态、音频模态,自不用多说,基本上已经证明了是可行的,难点在于视觉模态。现在行业内最好的模型,包括开源的 Flux、闭源的可灵、Sora 等,还在用 DIT 的架构,真正做到高精度的视觉生成现在还离不开扩散模型,但图像生成领域,单靠自回归框架实际上是有可能达到一个新的高度的,这件事情 GPT-4o 已经给出了答案。