专栏名称: CSDN
CSDN精彩内容每日推荐。我们关注IT产品研发背后的那些人、技术和故事。
目录
相关文章推荐
新浪科技  ·  【#新消费概念再度活跃##若羽臣涨停创历史新 ... ·  10 小时前  
新浪科技  ·  【#苹果中国官网推出翻新M2iPadAir# ... ·  15 小时前  
新浪科技  ·  【#ChatGPT欲挑战Siri市场地位## ... ·  15 小时前  
新浪科技  ·  【#苹果客服回应辨别假iPhone##平台客 ... ·  昨天  
51好读  ›  专栏  ›  CSDN

让照片人张嘴唱 rap,阿里发布图生视频 EMO 框架,却因零代码上 GitHub 引争议!

CSDN  · 公众号  · 科技媒体  · 2024-03-04 09:38

正文

请到「今天看啥」查看全文


观其背后,这款新模型 EMO 全称为 Emote Portrait Alive, 出自阿里巴巴智能计算研究院(Alibaba's Institute for Intelligent Computing)四位研究员即 Linrui Tian、Qi Wang、Bang Zhang 和 Liefeng Bo 之手。

对此,该团队也在 arXiv 上发表了一篇主题为《 EMO: Emote Portrait Alive - 在弱条件下利用音频视频扩散模型生成富有表现力的肖像视频 》( https://arxiv.org/pdf/2402.17485.pdf )研究论文中进行了详尽地分享技术细节,EMO 这款 AI 框架能够在单张人像照片的基础上创造出一些极具表现力的面部动作和头部姿势,这些动作和姿势与所提供音轨非常吻合,并以极其逼真的方式生成人物说话或唱歌的视频。

直接将音频+图片转换为视频的 EMO

不同于 OpenAI 的文生视频模型 Sora,EMO 主攻的就是直接以图+音频生成视频的方向。

据论文介绍,EMO 模型采用了 Stable Diffusion 的生成能力 ,能够直接从给定的图像和音频剪辑合成人物头部视频。这种方法消除了中间表示或者复杂预处理的需要,同时,它利用自动编码器 Variational Autoencoder (VAE)将原始图像特征分布 映射到潜空间 ,将图像编码为 ,并将潜特征重建为 。这种架构的优点是既能降低计算成本,又能保持较高的视觉保真度。

整体来看,EMO 框架设计主要分为两个阶段。

在初始阶段,也可以称之为 帧编码 (Frames Encoding),部署 ReferenceNet 被用来从参考图像和运动帧中提取特征。







请到「今天看啥」查看全文