CVPR2023论文“Identity-Preserving Talking Face Generation with Landmark and Appearance Priors” 的PyTorch官方方案的升级。
- 通过dlib优化关键点检测方式
- 对齐音频视频帧
- 二次生成说话脸速度提升
- 通过锐化滤波加强清晰度
- Python 3.9
- torch 2.0.0
- torchvision 0.15.1
- ffmpeg
我们在1个24G的RTX3090上使用CUDA 118进行实验。更多细节,请参考 requirements.txt
。我们建议首先安装pytorch,然后运行以下命令:
pip install -r requirements.txt
从[FoxCloud](http://cloud.foxyear.cn/s/jMtW下载预训练模型,并将其放置在 checkpoints
文件夹中。然后运行以下命令:
python inference.py
从[FoxCloud](http://cloud.foxyear.cn/s/jMtW下载预训练模型,并将其放置在 checkpoints
文件夹中。然后运行以下命令:
python inference.py --input ./video/videoxx.mp4 --audio ./audio/testxx.wav
该项目在公开可用的代码 IP_LAP , DFRF , pix2pixHD, vico_challenge 和 Wav2Lip 基础上构建而成。感谢这些作品和代码的作者将他们优秀的工作公开发布。
深度开发合作交流,联系加微信:
交流群及资料教程:
如果你在研究中使用了这个库,请引用以下论文并为该项目点赞。谢谢!
@InProceedings{Zhong_2023_CVPR,
author = {Zhong, Weizhi and Fang, Chaowei and Cai, Yinqi and Wei, Pengxu and Zhao, Gangming and Lin, Liang and Li, Guanbin},
title = {Identity-Preserving Talking Face Generation With Landmark and Appearance Priors},
booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
month = {June},
year = {2023},
pages = {9729-9738}
}