专栏名称: 大淘宝技术
淘系技术官方账号
目录
相关文章推荐
程序员小灰  ·  氛围编程来了!现在做应用,就像和AI聊个天 ·  3 小时前  
程序员的那些事  ·  大翻车!特朗普手机吹 “美国造” 卖 ... ·  昨天  
程序员的那些事  ·  突发!紧急召回 49 万台,罗马仕 3 ... ·  2 天前  
程序猿  ·  有了这些 VS Code 的 ... ·  2 天前  
玉伯  ·  感谢使用 ... ·  2 天前  
51好读  ›  专栏  ›  大淘宝技术

大模型时代的视频动静态封面生产方案及业务实践

大淘宝技术  · 公众号  · 程序员  · 2025-03-05 16:36

正文

请到「今天看啥」查看全文



事实上,上述案例仅是淘内大量视频内容的冰山一角,这些视频内容或优或劣,但可能由于封面的质量不过关,在淘宝站 内没有获得较好的分发。对比之下, 我们优化后的封面中,商品主体清晰、构图美观、展示形式对用户具有较强的吸引力,并通过营销花字突出商品卖点 ,将核心信息快速传达给用户,从而能够发挥内容的最大上限。


2. 动态封面


以下是我们为 直播频道页直播卡生产的高光动态封面 案例。


直播卡在WIFI网络环境下默认展示给用户的是直播实时流,实时流的优势是所见即所得,但问题是可能会出现 无商品展示 的空镜 ,或者 主播实时展示商品的片段不够吸引人 的情况,从而 影响用户进入直播间的意愿 。我们将实时流替换为商品展示的10秒高光片段,作为直播间的动态封面。AB实验表明,我们的方案相比其他两路动态封面方案,获得了最为显著和有效的点击率提升。


直播流(商品看点部分) 高光封面

图片
技术方案

在大模型蓬勃发展之前,已有许多算法自动化生产的封面投入应用。但是这些方案存在明显的通病,依据技术路线的不同,可以总体分为以下两类:

  1. 定制化小模型组合方案 :针对每个业务需求定制开发并训练多个评估小模型(如人脸检测、人眼检测、商品检测等), 综合多个小模型的结果选择封面。此类方法依赖的模型数量多,对于业务个性化需求的迁移能力差,难以适应快速变化的业务需求。

  2. 黑盒端到端方案 :直接通过黑盒模型的方式端到端产出封面,实现技术上的优雅,但在实际应用中的可解释性较差。 当不同业务方的实际需求存在差异时,模型的迁移难度和成本较高。


为了解决上述问题,我们提出了一套 基于多模态大模型的封面生成AIAgent 系统。该系统采用模块化的Agent架构,融合了多模态大模型的能力,通过各个模块的协同工作, 系统能够以白盒、灵活、高效的方式支持不同的业务需求,实现高质量封面的自动化生产


封面生成AIAgent包含以下核心模块:

  • Planning-规划模块 :基于大语言模型,解析复杂的业务需求,制定封面生成策略和工作流。

  • Memory-记忆模块 :基于内容理解得到的优质封面特征,构建知识库,存储封面生成的规则和评价标准,指导封面的个 性化生产。

  • Action-行动模块 :执行封面生成的具体操作,包括长视频处理、智能选帧、营销花字生成与自动布局等功能。

  • Reflection-反思模块 :利用评价模型,对生成的封面进行质量评估,反馈优化建议,形成闭环,不断提升封面质量。



接下来,我将详细介绍各个模块的技术实现以及模块之间的协同。


1. Planning-规划模块


背景

在淘宝域内,封面存在于多类业务场景, 业务场景对封面的需求存在较高的复杂度和多样性 。具体地,不同的业务场景对封面的需求有异有同,如直播频道页要求封面中出现主播,但视频封面则不对此强制要求。即便是在同一业务场景下,由于面向行业的不同,也存在需求上的细粒度的差异。如搜索场域希望服饰行业的视频可以展示整体的穿搭效果,美妆行业的视频希望更侧重展示使用效果。


我们希望构建起 支持业务自定义需求的可配置的业务规则引擎 ,支持业务输入一段任意的封面要求定义文本,系统自动解析、拆解并执行。







请到「今天看啥」查看全文