多模态技术爆发元年，行业应用如何落地？

InfoQ · 公众号 · 科技媒体 · 2025-04-24 16:32

正文

请到「今天看啥」查看全文

赵波： 我们作为高校实验室当然是拥抱开源的，从模型、代码到数据都是完全开源的。

赵波：多模态理解和生成的区别？以及结合点？有没有什么融合趋势？

邵帅： 我认为一个非常重要的结合场景是：如何利用理解模型来提升生成模型的性能。从技术实现上，可以将其分为训练前、训练中、训练后三个阶段。

训练前，理解模型至少可以发挥两个作用：数据清洗和数据标注。我们的实践经验表明，数据质量与生成效果呈正相关，因此我们在这一环节投入了大量优化工作。训练过程中，强化学习是一个关键能力，而强化学习通常依赖奖励模型，而奖励模型本身就是一个理解模型。

训练后，生成模型的应用可以进一步分为生成前和生成后两个阶段：生成前，目前常用的方法是 prompt rewriting。我们发现，许多用户输入的 prompt 较为简单，通过优化用户的原始 prompt，可以显著提升输出质量。生成后，我们也在探索多种优化手段，比如 test-time scaling；我们也会做 post-filtering，例如，在某些场景下，我们可能一次性生成 10 张图，但仅返回其中 4 张质量最佳的结果给用户。

目前，我们已经观察到生成与理解一体化的明显趋势，并且这一进展可能会比预期更快。如果这类一体化模型能结合强大的语言模型，还能复用其知识和推理能力，进一步提升生成效果。

高欢： 我们认为模型架构并非当前最重要的考量因素，关键还是在于技术路线的选择和应用目标。例如，在 GPT-4o 的技术方向上，赵老师团队此前发表的 EMU-3 论文已经验证了相关技术路线的可行性。我们团队主要从 Diffusion 模型的角度进行探索。Diffusion 模型非常依赖对用户意图的理解，以及多模态信息的处理能力。虽然传统观点认为自回归模型更适合理解任务，Diffusion 模型更适合生成任务，但我们认为未来应该以实际应用效果为导向。

赵波：多模态技术中，处理不同模态数据（如视频、图像、文本）时，分别面临的核心技术挑战是什么？

邵帅： 目前最核心的难题在于多模态对齐与融合的问题。不同模态数据在数据结构上都存在显著差异，这种根本性的差异导致我们需要解决两个关键技术难点：一方面是如何设计通用的 tokenizer 来实现跨模态的统一表征，另一方面是如何建立有效的模态对齐机制来实现异构数据间的语义关联。

在实际应用过程中，我们还面临着数据平衡的挑战。当训练数据中某一模态占据优势时，往往会导致其他模态的性能出现退化。此外，在多任务学习场景下，当模型需要同时处理多种不同类型的任务时，经常会出现任务之间的相互干扰问题，以及计算资源如何合理分配的难题。

高欢： 与静态图像不同，视频是由连续帧构成的时序数据，这对当前受限于上下文窗口的自回归大语言模型提出了更高要求。目前常见的解决方案包括帧采样、降低分辨率增加帧数，或是采用 token merge 技术来压缩视觉 token。但每种方法都不可避免地会损失部分信息，这种信息损耗在进行深度多模态理解时尤为关键。

作为短视频平台，我们每天都需要处理海量的新数据，这带来了热门概念快速更迭的问题。一个今天爆火的舞蹈可能明天就过时了，而训练一个模型往往也需要一整天时间，这就导致模型刚训练完就可能面临失效的风险。为了解决这个问题，我们探索了 RAG 等技术方案，以及轻量级训练方法来快速融入新概念。

短视频数据还呈现出独特的静态特征：平台上大量视频包含特效、突破物理规律的创意内容，这些与真实世界的物理规律存在显著差异。虽然传统训练方法难以准确理解这类内容，但它们恰恰是文本生成视频中最具价值的部分。

这些技术挑战最终都指向推理成本的增加。为了处理更长的视频序列，我们需要引入更多帧和思维链，这直接导致推理时间延长。同时，某些场景下小模型完全无法胜任，必须使用大模型并经过专门训练才能达到可用水平。

赵波： 我们课题组目前专注于长视频理解大模型的研究，核心要解决的问题是如何高效提取和压缩视频中的信息。正如高欢老师提到的，视频数据最大的挑战在于其冗余性——长视频会产生海量的 token。我们近期完成的 Video-XL 和 Video-XL-Pro 两项工作，分别从两个维度进行了技术创新：一是充分利用大语言模型自身的 token 压缩能力，二是从源头压缩视觉 tokenizer 产生的 token 数量。

赵波：多模态训练是否缺数据？如何应对？

邵帅： 我们始终面临着数据不足、标注质量欠佳、美学标准不达标以及多样性匮乏等挑战。在策略上，我们采用"先多后精"的技术路线：前期收集海量数据进行预训练模型训练，同时建立完整的数据清洗和标注管线。

我们将数据分为铜标、银标、金标三个等级，形成金字塔式的数据体系。对于精品数据，我们不仅要关注基础质量，还要考量美学价值和具体任务适配性。虽然图文匹配和文生图数据相对容易获取，但编辑类任务的数据却十分稀缺。以草图生图任务为例，构建草图与完整图片的配对数据就极具挑战性。为此，我们广泛采用合成数据和构造方法。例如，让人根据完整图片绘制草图要比反向操作容易得多。

最近我们还面临新的挑战：训练数据中混入了 AI 生成内容，这些数据的鉴别难度很高，一旦混入训练集就可能污染整个训练流程，这比以往的数据问题更加棘手。

高欢： 当前高质量数据和垂直领域数据都存在严重短缺。垂直数据往往依赖现有业务场景的积累，但新业务开发时又恰恰缺乏这些数据，形成了一个典型的"先有鸡还是先有蛋"的困境。为此我们不得不投入大量精力来人工构造训练数据，整个过程相当复杂耗时。

从实践数据来看，当前 LLM 训练规模已达数万亿 token 级别，而多模态模型即便算上主流训练案例，整体 token 量级仍相差一个数量级。换算成样本数量的话，差距就更为明显。目前多模态数据不仅总量不足，还存在严重的分布不均衡问题。开源数据集中的样本往往过于"精致"而缺乏多样性，这导致很多开源模型难以直接应用于工业场景的具体任务。

赵波：在两家的多模态模型中是否已经用了基于用户反馈的强化学习？是否有显著的性能提升？

邵帅： 在用户反馈方面，我们发现评价标准与用户偏好之间存在显著差异。对于明显的 Badcase，比如三腿六指、动作不自然等问题，大家容易达成共识。但在美学偏好等主观评价上，比如人物形象是否好看，往往难以形成统一标准。为此，我们开发了通用美学和人像美学的评估体系，通过建立数据标准和标注算子，在强化学习中引入这些"软性"指标，显著提升了生成内容的美学质量。

在广告等业务场景中，我们尝试直接利用 CTR、CVR 等业务指标作为优化目标。每张投放的生成图片都能获得真实的用户反馈数据，这为我们提供了直接的优化信号。

高欢： 从对话系统的角度来看，用户反馈的应用存在一些特殊考量。特别是在开放域对话场景中，很多时候回答并没有绝对的对错之分。虽然简单回答"不知道"在技术上是准确的，但这会直接终止对话。为了维持更自然的对话体验，我们会分析哪些回复能促使用户继续交流，并以此作为正向反馈信号。这种优化既包括在线实时调整，也包含离线模型迭代。

在快手的具体业务中，强化学习的应用场景非常丰富。特别是在那些"左右都算对"但存在业务偏好的场景，RLHF 发挥着重要作用。而在 caption 生成这类任务上，我们主要采用 DPO 方法，通过 reward model 来优化模型表现。

我们发现视频理解模型常犯两个典型错误：一是事件顺序错乱，二是过度冗长的描述。针对顺序问题，我们主动构造负样本，通过交换事件顺序来训练模型；针对过度描述问题，DPO 能有效控制模型在适当时机停止生成。