正文
基础模型
模型微调
基础模型
模型微调
基础模型
模型微调
-
为了实现批量化、多样化、并确保可玩性和广泛传播性,算法团队通过 qwen-VL-max 模型,应用多种 prompt 技术,如反推、分段、改写、扩展和组装:
-
整体反推:对完整的参考图片进行文本反推。
-
单点反推:针对图片中的特定元素如衣服、动作或背景进行反推。
-
直接改写:对已经反推出的文本提示进行改写。
-
拆解提示:将完整的文本提示拆解为面部、服饰、动作、背景及其他质感组件。
-
扩展与组装:对单个元素进行扩展改写,并通过多样化组装形成丰富的提示集合。
通过多组自动化的 prompt 改造流水线,我们能够大规模生产满足模板生成需求的文本提示,这为批量模板生图提供了基础。
生成的AI图像在细节上常存在诸多问题,需要进行后处理修复来提升画面的合理性,从而确保在终端市场赢得良好口碑,提高用户的保存和传播率。为此,我们的算法团队构建并升级了一整套模板图片的修复流程,包括文字擦除、局部擦除、图像延展、图像重绘、手部修复及图像清晰化等。通过这些精细的后处理技术,我们确保AI生成图像的质量更符合用户的期望,从而带来更高的用户满意度和更广泛的传播效果。
a. 手部修复
。
手部绘制始终是AI生成图像中的一大挑战
, 手部崩坏会极大降低模板图成图率和优图率,
我们利用inpaint技术、LoRA微调技术和ControlNet技术,开发了专用于春晚的手部修复模型,手部修复成功率超过90%。在模板图的生产过程中,手部修复被整合至图片后处理阶段,以显著提升成图率和图像质量
.
b.
文字擦除
。由于春晚项目的特殊性,经常会在图像的舞台上、道具中、背景中出现文字。AI 直接生成文字的能力还比较弱,容易在前景精美的图像背景中出现部分字符,会降低成图率。我们利用文字检测、擦除能力构建通用文字擦除模块,可以在图像后处理中加入,对文字进行自动化检测与擦除。
c.
细节擦除与重绘
。AI 生图在细节上、局部上极容易出问题。手部只是一个特例。其他的诸如发饰、耳环、衣服花纹细节、发型细节、道具细节等。如果因为局部细节问题而直接丢弃一张美观度较高的图片,那么优图率会进一步降低。利用淘宝擦除重绘模型,在图片审核后的后处理中加入,可以提升图片的优图率,并保证模板图局部和细节上的合理性。
d. 图像尺寸
。AI生图在构图上,有时候不合理,因此需要做图像延展,来保证诸如人物居中、头发不被截断等问题。我们通过微调开发出了适合春晚的图像延展模型和图像延展策略, 可以修复构图不合理的问题。
e.
图像高清
。模型生产直出的图片一般在1024的宽高。在画面中,人脸的占比往往更小,发饰细节、脸部纹理细节、服饰细节会存在一定的模糊。通过专门的人像图像高清模型,可以将图片放大至四倍宽高。显著提升模板图细节与质感。
通过这些精细的后处理技术,我们确保AI生成图像的质量更符合用户的期望,从而带来更高的用户满意度和更广泛的传播效果。
-
通过与业务和产品团队的紧密协作,算法团队得以迅速完成第一轮粗审核和第二轮详细审核,确保选择的图片不存在结构性问题(如人物四肢、道具和背景的崩坏)。
-
通过多轮出图策略优化与修图策略优化,模型生成图片的成图率大约在3~4成之间。我们设立了专门的图片审核工具和专业标准。
-
提升图片的优图率涉及专业的审美和排序标准。关键在于了解什么样的图片符合C端用户的审美,哪些图片的保存率更高。
-
我们的算法团队通过多轮与业务和产品的深入沟通,建立了一致的优选标准和高效的审图流程。
-
在进行图片修复和换脸效果生成后,继续进行第三轮细致审核和最终的确认审核,以确保图片符合C端的美学标准,从而提高市场传播效果。