Tacotron2

NATURAL TTS SYNTHESIS BY CONDITIONING WAVENET ON MEL SPECTROGRAM PREDICTIONS https://arxiv.org/pdf/1712.05884.pdf

WaveNet: A Generative Model for Raw Audio https://arxiv.org/abs/1609.03499

Status

Spectrogram network is functional but not fully trained. The model takes ~3 hours per epoch on an M6000 gpu.

conda install pytorch -c pytorch

pip install -r requirements.txt

train Spectrogram Prediction Network

python train.py

view logs in Tensorboard

tensorboard --logdir runs

Name		Name	Last commit message	Last commit date
Latest commit History 20 Commits
assets		assets
models		models
tests		tests
.gitignore		.gitignore
README.md		README.md
SGDR.ipynb		SGDR.ipynb
attention.py		attention.py
audio.py		audio.py
datasets.py		datasets.py
decoding_helpers.py		decoding_helpers.py
hyperparams.py		hyperparams.py
requirements.txt		requirements.txt
screens.txt		screens.txt
sgdr.py		sgdr.py
spectrogramnet.ipynb		spectrogramnet.ipynb
text.py		text.py
train.py		train.py
train.sh		train.sh
utils.py		utils.py
visualize.py		visualize.py
wavenet.ipynb		wavenet.ipynb