专栏名称: 大淘宝技术
淘系技术官方账号
目录
相关文章推荐
阿里云云栖号  ·  一周AI大事件 ·  昨天  
稀土掘金技术社区  ·  优雅!原生Js实现多标签页之间的数据共享如此简单 ·  3 天前  
OSC开源社区  ·  AI运维「开挂」指南,OSC源创会·北京·6 ... ·  3 天前  
51好读  ›  专栏  ›  大淘宝技术

淘宝全新图生视频大模型“淘宝法象”,助力商家降本增效

大淘宝技术  · 公众号  · 程序员  · 2025-03-03 15:26

正文

请到「今天看啥」查看全文


淘宝法象图生视频模型架构


技术优势:

  • 海量垂类电商数据: 专注于人物垂领,持续积累、清洗和标注电商营销视频和电商域内容视频,建设了完善数据清洗算子体系,精心清洗2亿+的高质量电商数据,覆盖淘宝全服装品类。

  • 电商领域专家对齐 :通用模型生成的结果往往出现手部畸形,表情与动作怪异的问题,部分表情动作也与展示的服装有风格上的差异。通过人类电商专家进行标注打分,我们积累了丰富的人类偏好数据进行模型的对齐学习,让生成的视频更贴合电商应用场景。

  • 精心设计的Lora精调体系 :基于强大的基础模型能力,完善在各个细分场景上的功能生态建设,将生态功能lora化,减少模型迭代成本。当前已经构建带有营销文案的图生视频能力支持、运镜、光影、场景变换等lora的开发。

  • 丰富的控制能力 :模型支持文本控制、动作幅度控制和运镜控制,同样的图片可以生成多样的视频结果,用户可以根据投放场景定义合适的生成视频风格,一图多用。

  • 丰富的衍生模型能力: “淘宝法象”不仅仅是图生视 频! 我们构建了一系列视频生成和编辑模型矩阵,包含: 视频换衣模型,视频换背景模型,视频生视频模型,视频延展模型,动作驱动图生视频模型,语音驱动图生视频模型,虚拟人驱动模型 等等。各项算法能力有层层递进、相互促进的关系,同时可组合出支持不同控制条件的产品级能力,支持多样的应用场景和业务需求,具体效果和应用场景见本文第二部分。



模型特色:

  • 丰富的电商展示形式: 通过多维度的控制能力,无论是活泼可爱的童装、严肃专业的职业装还是轻松悠闲的休闲装,模型都能高效生成对应风格的服装展示视频。同时,针对业务不同场景的需要,模型能生成不同分辨率和不同时长的视频片段。

  • 成功率高: 人物和画面畸形率低,肢体穿模、人体畸形等概率低,在整个视频生成业界的对比评测中处于最前沿水平。

  • 更懂淘宝电商: 训练数据来自海量的淘宝主图视频和营销视频,并且与电商领域人类专家进行偏好对齐,模型有浓厚的淘宝电商特色:模特动作更加专业,针对不同服装品类,模型可以自动推理出合理的表情动作,避免服装模特动作表情与服装风格矛盾冲突。
  • 泛化性好: 对生成模特图和真实模特图、复杂场景和棚拍场景、原模特图和换衣模特图,等等,都有较好的泛化性。








请到「今天看啥」查看全文