正文
事实上,上述案例仅是淘内大量视频内容的冰山一角,这些视频内容或优或劣,但可能由于封面的质量不过关,在淘宝站
内没有获得较好的分发。对比之下,
我们优化后的封面中,商品主体清晰、构图美观、展示形式对用户具有较强的吸引力,并通过营销花字突出商品卖点
,将核心信息快速传达给用户,从而能够发挥内容的最大上限。
▐
2.
动态封面
以下是我们为
直播频道页直播卡生产的高光动态封面
案例。
直播卡在WIFI网络环境下默认展示给用户的是直播实时流,实时流的优势是所见即所得,但问题是可能会出现
无商品展示
的空镜
,或者
主播实时展示商品的片段不够吸引人
的情况,从而
影响用户进入直播间的意愿
。我们将实时流替换为商品展示的10秒高光片段,作为直播间的动态封面。AB实验表明,我们的方案相比其他两路动态封面方案,获得了最为显著和有效的点击率提升。
在大模型蓬勃发展之前,已有许多算法自动化生产的封面投入应用。但是这些方案存在明显的通病,依据技术路线的不同,可以总体分为以下两类:
-
定制化小模型组合方案
:针对每个业务需求定制开发并训练多个评估小模型(如人脸检测、人眼检测、商品检测等),
综合多个小模型的结果选择封面。此类方法依赖的模型数量多,对于业务个性化需求的迁移能力差,难以适应快速变化的业务需求。
-
黑盒端到端方案
:直接通过黑盒模型的方式端到端产出封面,实现技术上的优雅,但在实际应用中的可解释性较差。
当不同业务方的实际需求存在差异时,模型的迁移难度和成本较高。
为了解决上述问题,我们提出了一套
基于多模态大模型的封面生成AIAgent
系统。该系统采用模块化的Agent架构,融合了多模态大模型的能力,通过各个模块的协同工作,
系统能够以白盒、灵活、高效的方式支持不同的业务需求,实现高质量封面的自动化生产
。
封面生成AIAgent包含以下核心模块:
-
Planning-规划模块
:基于大语言模型,解析复杂的业务需求,制定封面生成策略和工作流。
-
Memory-记忆模块
:基于内容理解得到的优质封面特征,构建知识库,存储封面生成的规则和评价标准,指导封面的个
性化生产。
-
Action-行动模块
:执行封面生成的具体操作,包括长视频处理、智能选帧、营销花字生成与自动布局等功能。
-
Reflection-反思模块
:利用评价模型,对生成的封面进行质量评估,反馈优化建议,形成闭环,不断提升封面质量。
接下来,我将详细介绍各个模块的技术实现以及模块之间的协同。
▐
1.
Planning-规划模块
背景
在淘宝域内,封面存在于多类业务场景,
业务场景对封面的需求存在较高的复杂度和多样性
。具体地,不同的业务场景对封面的需求有异有同,如直播频道页要求封面中出现主播,但视频封面则不对此强制要求。即便是在同一业务场景下,由于面向行业的不同,也存在需求上的细粒度的差异。如搜索场域希望服饰行业的视频可以展示整体的穿搭效果,美妆行业的视频希望更侧重展示使用效果。
我们希望构建起
支持业务自定义需求的可配置的业务规则引擎
,支持业务输入一段任意的封面要求定义文本,系统自动解析、拆解并执行。