正文
论文代码:https://github.com/yanghan-yh/MCA-Ctrl
背景
近年来,生成式人工智能(Generative AI)技术的突破性进展,特别是文本到图像 T2I 生成模型的快速发展,已经使 AI 系统能够根据用户输入的文本提示(prompt)生成高度逼真的图像。从早期的 DALL・E 到 Stable Diffusion、Midjourney 等模型,这一领域的技术迭代呈现出加速发展的态势。
在基础 T2I 模型能力不断提升的背景下,图像定制化(Image Customization)需求日益凸显。所谓图像定制化,是指在对参考图像中的主体(subject)保持身份特征和本质属性的前提下,根据文本或视觉条件生成该主体的新表现形式。这一技术对于电子商务(如虚拟试衣)、数字内容创作(如个性化角色设计)、广告营销等应用场景具有重要价值。
当前,主流的图像定制化方法主要沿着三个技术路线发展:基于反演优化(inversion-based)的方法、基于多模态编码器(multimodal encoder-based)的方法,以及新兴的基于注意力控制(attention control-based)的方法。
尽管这些方法在特定场景下都取得了一定成效,但通过系统的实验评估和实际应用验证,我们发现现有技术方案仍然面临着若干关键性技术瓶颈。
1. 可控性不足:主流文本驱动方法难以精确控制背景、布局等元素。虽然 PhotoSwap 等新技术尝试引入图像条件,但仍局限于单一功能(替换或添加),无法实现统一控制。
2. 复杂视觉场景处理困难:面对多物体交互、遮挡等复杂场景时,常出现主体特征扩散问题,这源于模型在高响应区域生成的不准确性。
3. 背景融合不自然:在图像条件控制下,生成结果与原始背景的融合往往不自然。
方法
本文提出了一种无需微调的通用图像定制方法 — 多主体协同注意力控制 MCA-Ctrl,该方法利用扩散模型内部知识实现图像定制。其核心创新在于将条件图像 / 文本提示的语义信息与主体图像内容相结合,实现对特定主体的新颖呈现。MCA-Ctrl 主要针对三类任务:主题替换、主题生成和主题添加。
本方法分为通过条件图像和条件文本进行图像定制化,如下图(A)和(B)所示。具体而言,本方法首先引入主体定位模块(Subject Location Module,SLM)对图像进行精准定位,然后通过三个并行扩散过程中的自注意力注入与查询机制,在保持条件信息语义空间布局的同时捕获特定主体的视觉特征表示。