Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

データセット作成の音声のスライスはうまくいきますが、音声の文字お越しがうまくいきません、 #157

Open
keisasa00 opened this issue Jul 27, 2024 · 2 comments

Comments

@keisasa00
Copy link

keisasa00 commented Jul 27, 2024

音声の文字おこしをしようとすると、UnicodeDecodeError: 'utf-8' codec can't decode byte 0x8e in position 953: invalid start byte
といったエラーが出ます、何回かやるとそのエラーは表示されませんが、一向に完了しません、0%から動きません。

前のバージョンを、3つほど試しましたができませんでした。

追記
'utf-8'っていう文字コードのままだとデータの読み込みができない状態のようで、
エンコーディング(日本語が入っているcsvファイルは、UTF-8では読めないからShift_JIS に変更)する必要がありそうです。

@keisasa00
Copy link
Author

お騒がせしてしまいすいません、次の日に再インストールした結果、なぜか解決しました。

@litagin02
Copy link
Owner

#155 (comment)
おそらくPyTorch2.4系由来の不具合があり、上のところで2.4未満を使うように修正をしたので、そちらの影響で治ったのかもしれません。
また書き起こし時の文字コードのエラーは、ffmpegが入っていないためという可能性があるため、もしまだ問題がある場合はお手数ですが入れて試してみてください。

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants