3DiFACE是一种新颖的基于扩散的语音驱动 3D 面部动画方法。给定一个音频,可以生成具有口型同步和随机性的运动序列。此外,3DiFACE 可用于音频一致的动作编辑。
虽然现有方法确定性地从语音预测面部动画,但它们忽略了语音和面部表情之间固有的一对多关系,即存在多个与音频输入匹配的合理面部表情动画。在内容创建中,能够修改生成的运动或指定关键帧尤其重要。
为了实现随机性和运动编辑,作者提出了一种用于 3D 面部运动的轻量级音频调节扩散模型。该扩散模型可以在小型 3D 运动数据集上进行训练,从而保持富有表现力的嘴唇运动输出。此外,它还可以针对特定主题进行微调,只需要该人的短视频即可。
作者用的方法采用Wav2Vec2.0 模型从原始音频信号中提取音频特征。通过一系列卷积块串联,将音频条件注入到网络中。
我觉得这个很有意思。有了这个就能给目前数字人项目丰富更多功能。
地址:
https://balamuruganthambiraja.github.io/3DiFACE/
https://github.com/bala1144/3DiFACE
联系客服