【首度揭秘】淘宝2025春晚云参演证背后的AIGC技术

大淘宝技术 · 公众号 · 程序员 · 2025-02-21 16:23

正文

请到「今天看啥」查看全文

基础模型

模型微调

基础模型

模型微调

基础模型

模型微调

批量模板生产prompt 工程

工作流程：

首先，收集一批具有准确语义和明确场景的高质量图片。
使用这些图片，通过反向推理和大型语言模型（LLM）扩展生成大量精确的文本描述，作为模板生产的基础。

挑战：

春晚项目涵盖多种类别，文本提示（prompt）需要覆盖九种类型，且每种类别内部需包括丰富的人物妆造、服饰、动作、道具和构图元素。
很难找到既语义准确又满足高清完整要求的图片。有的图片背景合适但前景人物混乱，有的前景合适但背景人物杂乱，这些都使得直接反推的文本提示难以使用。

解决方案：

为了实现批量化、多样化、并确保可玩性和广泛传播性，算法团队通过 qwen-VL-max 模型，应用多种 prompt 技术，如反推、分段、改写、扩展和组装：

整体反推：对完整的参考图片进行文本反推。
单点反推：针对图片中的特定元素如衣服、动作或背景进行反推。
直接改写：对已经反推出的文本提示进行改写。
拆解提示：将完整的文本提示拆解为面部、服饰、动作、背景及其他质感组件。
扩展与组装：对单个元素进行扩展改写，并通过多样化组装形成丰富的提示集合。

通过多组自动化的 prompt 改造流水线，我们能够大规模生产满足模板生成需求的文本提示，这为批量模板生图提供了基础。

图片修复技术

生成的AI图像在细节上常存在诸多问题，需要进行后处理修复来提升画面的合理性，从而确保在终端市场赢得良好口碑，提高用户的保存和传播率。为此，我们的算法团队构建并升级了一整套模板图片的修复流程，包括文字擦除、局部擦除、图像延展、图像重绘、手部修复及图像清晰化等。通过这些精细的后处理技术，我们确保AI生成图像的质量更符合用户的期望，从而带来更高的用户满意度和更广泛的传播效果。

a. 手部修复。手部绘制始终是AI生成图像中的一大挑战 , 手部崩坏会极大降低模板图成图率和优图率，我们利用inpaint技术、LoRA微调技术和ControlNet技术，开发了专用于春晚的手部修复模型，手部修复成功率超过90%。在模板图的生产过程中，手部修复被整合至图片后处理阶段，以显著提升成图率和图像质量 .

原始图	修复图	原始图	修复图

b. 文字擦除 。由于春晚项目的特殊性，经常会在图像的舞台上、道具中、背景中出现文字。AI 直接生成文字的能力还比较弱，容易在前景精美的图像背景中出现部分字符，会降低成图率。我们利用文字检测、擦除能力构建通用文字擦除模块，可以在图像后处理中加入，对文字进行自动化检测与擦除。

原始图	修复图	原始图	修复图

c. 细节擦除与重绘 。AI 生图在细节上、局部上极容易出问题。手部只是一个特例。其他的诸如发饰、耳环、衣服花纹细节、发型细节、道具细节等。如果因为局部细节问题而直接丢弃一张美观度较高的图片，那么优图率会进一步降低。利用淘宝擦除重绘模型，在图片审核后的后处理中加入，可以提升图片的优图率，并保证模板图局部和细节上的合理性。

原始图

修复图

原始图

修复图