淘宝全新图生视频大模型“淘宝法象”，助力商家降本增效_大淘宝技术的专栏文章_微信文章

海量垂类电商数据： 专注于人物垂领，持续积累、清洗和标注电商营销视频和电商域内容视频，建设了完善数据清洗算子体系，精心清洗2亿+的高质量电商数据，覆盖淘宝全服装品类。
电商领域专家对齐 ：通用模型生成的结果往往出现手部畸形，表情与动作怪异的问题，部分表情动作也与展示的服装有风格上的差异。通过人类电商专家进行标注打分，我们积累了丰富的人类偏好数据进行模型的对齐学习，让生成的视频更贴合电商应用场景。
精心设计的Lora精调体系 ：基于强大的基础模型能力，完善在各个细分场景上的功能生态建设，将生态功能lora化，减少模型迭代成本。当前已经构建带有营销文案的图生视频能力支持、运镜、光影、场景变换等lora的开发。
丰富的控制能力 ：模型支持文本控制、动作幅度控制和运镜控制，同样的图片可以生成多样的视频结果，用户可以根据投放场景定义合适的生成视频风格，一图多用。
丰富的衍生模型能力： “淘宝法象”不仅仅是图生视 频！我们构建了一系列视频生成和编辑模型矩阵，包含：视频换衣模型，视频换背景模型，视频生视频模型，视频延展模型，动作驱动图生视频模型，语音驱动图生视频模型，虚拟人驱动模型等等。各项算法能力有层层递进、相互促进的关系，同时可组合出支持不同控制条件的产品级能力，支持多样的应用场景和业务需求，具体效果和应用场景见本文第二部分。

模型特色：

丰富的电商展示形式： 通过多维度的控制能力，无论是活泼可爱的童装、严肃专业的职业装还是轻松悠闲的休闲装，模型都能高效生成对应风格的服装展示视频。同时，针对业务不同场景的需要，模型能生成不同分辨率和不同时长的视频片段。
成功率高： 人物和画面畸形率低，肢体穿模、人体畸形等概率低，在整个视频生成业界的对比评测中处于最前沿水平。
更懂淘宝电商： 训练数据来自海量的淘宝主图视频和营销视频，并且与电商领域人类专家进行偏好对齐，模型有浓厚的淘宝电商特色：模特动作更加专业，针对不同服装品类，模型可以自动推理出合理的表情动作，避免服装模特动作表情与服装风格矛盾冲突。
泛化性好： 对生成模特图和真实模特图、复杂场景和棚拍场景、原模特图和换衣模特图，等等，都有较好的泛化性。

淘宝全新图生视频大模型“淘宝法象”，助力商家降本增效

正文

请到「今天看啥」查看全文

请到「今天看啥」查看全文