From 8de59eb9ac953a619046e792db9be0048b284f59 Mon Sep 17 00:00:00 2001 From: rockbenben Date: Sat, 14 Oct 2023 05:38:19 +0800 Subject: [PATCH] Update 2023-10-07-clone-voice.md --- docs/_posts/2023-10-07-clone-voice.md | 18 +++++++++++------- 1 file changed, 11 insertions(+), 7 deletions(-) diff --git a/docs/_posts/2023-10-07-clone-voice.md b/docs/_posts/2023-10-07-clone-voice.md index 1145504b5..4d55808b4 100644 --- a/docs/_posts/2023-10-07-clone-voice.md +++ b/docs/_posts/2023-10-07-clone-voice.md @@ -71,15 +71,21 @@ order: -56 ![](https://img.newzone.top/2023-10-10-05-01-08.png?imageMogr2/format/webp) -## 语音生成 +## 文字生成语音 微调完成后,你可以下载微调好的模型和语音生成工具 [inference](https://github.com/Plachtaa/VITS-fast-fine-tuning/releases),在本地环境下生成个性化的语音内容。 ![](https://img.newzone.top/2023-10-09-09-08-31.png?imageMogr2/format/webp) -在这个阶段,特别注意中文模型(即 languages C)的 `finetune_speaker.json` 格式问题。确保「speaks」部分被修改为字典格式,否则在运行 inference 时,你可能会遇到 `File "inference.py", line 99` 的报错。为方便,你可以直接点击[这里](https://wwva.lanzouq.com/iIy5m1b4bosf)下载我调整好的 json 文件。 +在这个阶段,特别注意中文模型(即 languages C)的 `finetune_speaker.json` 格式问题。确保「speaks」部分被修改为字典格式,否则在运行 inference 时,你可能会遇到 `File "inference.py", line 99` 的报错。为方便,你可以直接点击[这里](https://wwva.lanzouq.com/iIy5m1b4bosf)下载我调整好的 json 文件。如果你不需要二次元声音,可以直接使用 OUTPUT_MODEL 下的 `config.json` 替代 `finetune_speaker.json`。 -## 常见问题 +## 声音微调 + +### 生成声音与原声无关 + +在检查语料转写文本时,避免对 short_character_anno.txt 和 long_character_anno.txt 文件做过多的修改,因为这可能导致生成的声音与原声音产生较大差异。 + +例如:因个人语调的不同,我读的是「假语村言」,但 whisper 将其识别为「甲乙寸言」。如果我保留 whisper 的识别结果不做修改,最终生成的声音与我本人的声音非常接近。但当我将 whisper 识别结果修改为原文本后,生成的声音产生了显著变化,几乎听不出与原声音的相似性。我们只需要对那些发音明显错误的部分做出修改。例如,「假」和「甲」的发音相同,无需更改;「语」和「乙」之间的差异较大,但由于是个人发音的特点,也无需更改;对于「村」和「寸」这样声调不同的词汇,可以在检查录音后做出相应更改。 ### 语音克隆的「口音」问题 @@ -87,6 +93,8 @@ order: -56 这个示例是使用 8 分钟 B 站视频和 CJE 模型训练出的。但你可能注意到了明显的断调口音问题,仿佛一个日本人在说中文。正如 @zachx121 指出的,「CJE 用的时候 romaji 的注音,就好比说用汉语拼音去标注英文单词的发音一样会有“口音”」。为了避免这个问题,可以使用纯中文设计的 C 模式进行训练和生成,以确保音频的自然和准确性。增加训练次数也有助于改善口音问题。 +## 常见问题 + ### 无法启动 inference 如果你遇到无法启动 inference 的问题,通常是因为 `finetune_speaker.json` 配置文件有问题。确保你下载的 json 文件是对应的版本,并且格式完整。如果问题仍然存在,可以考虑使用 `configs/modified_finetune_speaker.json` 文件替代原有配置文件,通常这样可以解决运行中出现的错误。 @@ -98,7 +106,3 @@ order: -56 ### 录音中出现 zh 在使用纯中文模式调试时,音频前后可能会标注当前语言,例如,中文语言中出现 ZH 标注。为去除这些不必要的语言标注,可以将生成语言设置为 `Mix`模式。 - -## 最后 - -声音不仅仅是交流的工具,它还代表了个人品牌的一部分。AI 和声音克隆技术的联合运用,让你能快速、高效地生成具有个性特色的音频内容,拥有更多未来的可能。