让照片人张嘴唱 rap，阿里发布图生视频 EMO 框架，却因零代码上 GitHub 引争议！

CSDN · 公众号 · 科技媒体 · 2024-03-04 09:38

正文

请到「今天看啥」查看全文

观其背后，这款新模型 EMO 全称为 Emote Portrait Alive， 出自阿里巴巴智能计算研究院（Alibaba's Institute for Intelligent Computing）四位研究员即 Linrui Tian、Qi Wang、Bang Zhang 和 Liefeng Bo 之手。

对此，该团队也在 arXiv 上发表了一篇主题为《 EMO: Emote Portrait Alive - 在弱条件下利用音频视频扩散模型生成富有表现力的肖像视频 》（ https://arxiv.org/pdf/2402.17485.pdf ）研究论文中进行了详尽地分享技术细节，EMO 这款 AI 框架能够在单张人像照片的基础上创造出一些极具表现力的面部动作和头部姿势，这些动作和姿势与所提供音轨非常吻合，并以极其逼真的方式生成人物说话或唱歌的视频。

直接将音频+图片转换为视频的 EMO

不同于 OpenAI 的文生视频模型 Sora，EMO 主攻的就是直接以图+音频生成视频的方向。

据论文介绍，EMO 模型采用了 Stable Diffusion 的生成能力 ，能够直接从给定的图像和音频剪辑合成人物头部视频。这种方法消除了中间表示或者复杂预处理的需要，同时，它利用自动编码器 Variational Autoencoder （VAE）将原始图像特征分布映射到潜空间，将图像编码为，并将潜特征重建为。这种架构的优点是既能降低计算成本，又能保持较高的视觉保真度。