合成语音数据

为了拟补数据集的不足，我们合成一批语音用于训练，使用PaddlePaddle官方的Parakeet合成中文语音。首先安装Parakeet，执行下面命令即可安装完成。

git clone https://github.com/PaddlePaddle/Parakeet
cd Parakeet
python setup.py install

然后分别下载下面模型压缩包并解压到tools/generate_audio/目录下。

https://download.csdn.net/download/qq_33200967/33826147

然后下载一个语料，如果开发者有其他更好的语料也可以替换。然后解压dgk_lost_conv/results目录下的压缩文件，windows用户可以手动解压。

cd tools/generate_audio
git clone https://github.com/aceimnorstuvwxz/dgk_lost_conv.git
cd dgk_lost_conv/results
unzip dgk_shooter_z.conv.zip
unzip xiaohuangji50w_fenciA.conv.zip
unzip xiaohuangji50w_nofenci.conv.zip

接着执行下面命令生成中文语料数据集，生成的中文语料存放在tools/generate_audio/corpus.txt。

cd tools/generate_audio/
python generate_corpus.py

最后执行以下命令即可自动合成语音，合成时会随机获取说话人进行合成语音，合成的语音会放在dataset/audio/generate，标注文件会放在dataset/annotation/generate.txt。

cd tools/generate_audio/
python generate_audio.py