Robotic ロボットのような音声になる - akjava/Matcha-TTS-Japanese GitHub Wiki

ようするに、あまりにも品質が悪いわけです。

Matcha-TTSで出力して、なんとかなく、違和感がある。ブオンというか風切音。一部が低音になったり、ノイズぽく聞こえる。こともある。

原因

音声のすべての部分がロボットな場合、原因としては、２つ考えられます。

なんか、部分的におかしい、低音というかノイズな音になる。選択してよく聞くと、そこだけ合成感がひどい。

この場合の原因も２つ考えられます。

最低でも、あかさたなはまやらわ(清音) に加えて、びぴぴゃぴっ(濁音等などなど) すべての母音と子音が必要になります。

理想を言えば、母音と子音の組み合わせが、すべてあれば、いいのですが。それが足りない場合は、学習した母音と子音で、うまいことつなげてくれます。

Curriculum Learning を試した時に経験しました。とある音素のトレーニングが後半から訓練データに挿入されたので、圧倒的に訓練回数が少なく学習できませんでした。

　あと考えられるのが、その音が含まれる文章が長すぎるなど、高難易度で、うまく音を切り出せていない。（訓練回数が足りていない)

まずは、付録にあるようなモーラ一覧を出力してみて、現状を把握してみましょう。

validデーターの方に、レア音素が混じってるかもしれません。(大変ですけど)

長い文章の音声から、その部分だけを切り抜いて、新しい音声を作ってみましょう。（ただし大変です)

私のケースは、Curriculum Learningの音声が変だったので、通常版に付録の内容をTTS出力したものを混ぜました。

すでに出来上がってるモデルで、音声をトレーニング(multispeakerで別spk番号使う)させると短時間でうまくいくことがあります。

多少違和感はあるかもしれませんが、ないよりましです。このとき、RVCした方がいいのかどうかは未検証です。(いまの所ノイズが増えるだけな気がしています)

必要な音声例（一部不要なの混じってるかも)。最近母音伸ばすの追加した。