专栏名称: 我爱计算机视觉

关注计算机视觉与机器学习技术的最前沿，“有价值有深度”，分享开源技术与最新论文解读，传播CVML技术的业内最佳实践。www.52cv.net 微博:计算机视觉与机器学习，QQ群:928997753，52CV君个人账号：Your-Word。

CVPR2025｜MCA-Ctrl：多方协同注意力控制助力AIGC时代图像精准定制化

我爱计算机视觉 · 公众号 · · 2025-05-13 12:30

正文

请到「今天看啥」查看全文

论文代码：https://github.com/yanghan-yh/MCA-Ctrl

背景

近年来，生成式人工智能（Generative AI）技术的突破性进展，特别是文本到图像 T2I 生成模型的快速发展，已经使 AI 系统能够根据用户输入的文本提示（prompt）生成高度逼真的图像。从早期的 DALL・E 到 Stable Diffusion、Midjourney 等模型，这一领域的技术迭代呈现出加速发展的态势。

在基础 T2I 模型能力不断提升的背景下，图像定制化（Image Customization）需求日益凸显。所谓图像定制化，是指在对参考图像中的主体（subject）保持身份特征和本质属性的前提下，根据文本或视觉条件生成该主体的新表现形式。这一技术对于电子商务（如虚拟试衣）、数字内容创作（如个性化角色设计）、广告营销等应用场景具有重要价值。

当前，主流的图像定制化方法主要沿着三个技术路线发展：基于反演优化（inversion-based）的方法、基于多模态编码器（multimodal encoder-based）的方法，以及新兴的基于注意力控制（attention control-based）的方法。

尽管这些方法在特定场景下都取得了一定成效，但通过系统的实验评估和实际应用验证，我们发现现有技术方案仍然面临着若干关键性技术瓶颈。

1. 可控性不足：主流文本驱动方法难以精确控制背景、布局等元素。虽然 PhotoSwap 等新技术尝试引入图像条件，但仍局限于单一功能（替换或添加），无法实现统一控制。

2. 复杂视觉场景处理困难：面对多物体交互、遮挡等复杂场景时，常出现主体特征扩散问题，这源于模型在高响应区域生成的不准确性。

3. 背景融合不自然：在图像条件控制下，生成结果与原始背景的融合往往不自然。

方法

本文提出了一种无需微调的通用图像定制方法 — 多主体协同注意力控制 MCA-Ctrl，该方法利用扩散模型内部知识实现图像定制。其核心创新在于将条件图像 / 文本提示的语义信息与主体图像内容相结合，实现对特定主体的新颖呈现。MCA-Ctrl 主要针对三类任务：主题替换、主题生成和主题添加。

本方法分为通过条件图像和条件文本进行图像定制化，如下图（A）和（B）所示。具体而言，本方法首先引入主体定位模块（Subject Location Module，SLM）对图像进行精准定位，然后通过三个并行扩散过程中的自注意力注入与查询机制，在保持条件信息语义空间布局的同时捕获特定主体的视觉特征表示。