3DiFACE：语音驱动3D数字人脸部嘴形动画

3DiFACE是一种新颖的基于扩散的语音驱动 3D 面部动画方法。给定一个音频，可以生成具有口型同步和随机性的运动序列。此外，3DiFACE 可用于音频一致的动作编辑。

虽然现有方法确定性地从语音预测面部动画，但它们忽略了语音和面部表情之间固有的一对多关系，即存在多个与音频输入匹配的合理面部表情动画。在内容创建中，能够修改生成的运动或指定关键帧尤其重要。
为了实现随机性和运动编辑，作者提出了一种用于 3D 面部运动的轻量级音频调节扩散模型。该扩散模型可以在小型 3D 运动数据集上进行训练，从而保持富有表现力的嘴唇运动输出。此外，它还可以针对特定主题进行微调，只需要该人的短视频即可。

作者用的方法采用Wav2Vec2.0 模型从原始音频信号中提取音频特征。通过一系列卷积块串联，将音频条件注入到网络中。

我觉得这个很有意思。有了这个就能给目前数字人项目丰富更多功能。

地址：

https://balamuruganthambiraja.github.io/3DiFACE/

https://github.com/bala1144/3DiFACE

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。