正文
论文名称:Audio-driven Talking Face Video Generation with Natural Head Pose
作者:Ran Yi /Zipeng Ye /Juyong Zhang /Hujun Bao /Yong-Jin Liu
发表时间:2020/2/24
论文链接:https://arxiv.org/abs/2002.10137
推荐原因
现实世界中说话的人脸通常伴随着自然的头部运动,但大多数现有的说话人脸视频生成方法仅考虑具有固定头部姿势的人脸动画。
本文通过提出一个深度神经网络模型来解决此问题,该模型将源人的音频信号A和目标人的非常短的视频V作为输入,并输出合成的高质量说话人脸视频,其具有自然的头部姿势(利用V中的视觉信息),且表情和嘴唇同步(同时考虑A和V)。该项工作最大的挑战是自然的头部姿态包含平面内外的头部旋转,为了解决这个问题,作者重建出3D人脸动画并将其重新渲染为视频序列,为了平滑过渡这些视频的背景图使得结果更加逼真,作者提出了一个新颖的内存增强的GAN模块。
大量实验和用户调研表明,文章方法可以生成高质量(即自然的头部运动,表情和嘴唇的同步)个性化的说话人脸视频,表现优于 state-of-the-art 的方法。