Seed-VC

English | 简体中文

目前发布的模型支持零样本语音转换和零样本歌声转换。无需任何训练，只需提供1~30秒的参考语音即可克隆声音。

要查看演示列表和与之前语音转换模型的比较，请访问我们的演示页面🌐

我们将继续改进模型质量并添加更多功能。

安装 📥

建议在 Windows 或 Linux 上使用 Python 3.10：

pip install -r requirements.txt

使用方法🛠️

首次运行推理时，将自动下载最新模型的检查点。

命令行推理：

python inference.py --source <源语音文件路径> \
--target <参考语音文件路径> \
--output <输出目录> \
--diffusion-steps 25 \ # 建议歌声转换时使用50~100
--length-adjust 1.0 \
--inference-cfg-rate 0.7 \
--n-quantizers 3 \
--f0-condition False \ # 歌声转换时设置为 True
--auto-f0-condition False \ # 设置为 True 可自动调整源音高到目标音高，歌声转换中通常不使用
--semi-tone-shift 0 # 歌声转换的半音移调

其中:

source 待转换为参考声音的源语音文件路径
target 声音参考的语音文件路径
output 输出目录的路径
diffusion-steps 使用的扩散步数，默认25，最佳质量建议使用50-100，最快推理使用4-10
length-adjust 长度调整系数，默认1.0，<1.0加速语音，>1.0减慢语音
inference-cfg-rate 对输出有细微影响，默认0.7
n-quantizers 用的 FAcodec 码本数量，默认3，使用的码本越少，保留的源音频韵律越少
f0-condition 是否根据源音频的音高调整输出音高，默认 False，歌声转换时设置为 True
auto-f0-condition 是否自动将源音高调整到目标音高水平，默认 False，歌声转换中通常不使用
semi-tone-shift 歌声转换中的半音移调，默认0

Gradio 网页界面:

python app.py

然后在浏览器中打开 http://localhost:7860/ 使用网页界面。

TODO📝

发布代码
发布 v0.1 预训练模型：
Hugging Face Space 演示：
HTML 演示页面（可能包含与其他 VC 模型的比较）： Demo
流式推理
歌声转换
提高源音频和参考音频的抗噪性
- 这已在 f0 条件模型中启用，但不确定效果如何...
潜在的架构改进
- 类似U-ViT 的skip connection
- 将输入更改为 FAcodec tokens
自定义数据训练代码
歌声解码器更改为 NVIDIA 的 BigVGAN
44k Hz 歌声转换模型
更多待添加

更新日志 🗒️

2024-09-22:
- 将歌声转换模型的解码器更改为 BigVGAN，解决了大部分高音部分无法正确转换的问题
- 在Web UI中支持对长输入音频的分段处理以及流式输出
2024-09-18:
- 更新了用于歌声转换的模型
2024-09-14:
- 更新了 v0.2 预训练模型，具有更小的尺寸和更少的扩散步骤即可达到相同质量，且增加了控制韵律保留的能力
- 添加了命令行推理脚本
- 添加了安装和使用说明

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

README-CN.md

README-CN.md

Seed-VC

安装 📥

使用方法🛠️

TODO📝

更新日志 🗒️

Files

README-CN.md

Latest commit

History

README-CN.md

File metadata and controls

Seed-VC

安装 📥

使用方法🛠️

TODO📝

更新日志 🗒️