Matcha‐TTSでCurriculum Learning カリキュラム学習 - akjava/Matcha-TTS-Japanese GitHub Wiki

カリキュラム学習は詳しく論文を読んだわけではないので詳しくありませんがAIが毎回勧めてくるので試してみました。

 といっても、モジュールがあるわけでもなく、訓練データーを難易度で分割して、数回にわけて訓練する。 回数が増えるごとに、前回の訓練データに加えて、新しいのを追加する。という方式で訓練しました。

学習結果

低難易度の、val/lossは驚くほど低いが、徐々に上がっていき、最終段階でも普通トレーニングと少しの差になった。

その1

結果は、イントネーションはよくなった。音素は駄目なところが増えた。

 まず、分割で間違えた。ファイル数で、5分割した。すると最後の難易度が物凄く高くなった。

音素は駄目というのは、通常のまとめて、訓練する単純な方式に比べると、最高難易度のみに、存在する音素の訓練量が1/5になってしまっている。

次回予定

次は、難易度で均等、あるいは初期は低難易度で、その他は均等にするため文字数ベースで分割してみようと思う。

あとは音素バランスを考慮して最初の低トレーニングの段階で、すべて登場するように切り抜きあるいは他でTTS出力した物を混ぜてみたい。

そうすれば、各段階で、出力推奨の長さが違うだけで、実用的なモデルの生成が可能になる。(20文字ぐらいしか出力できないが、高性能みたいな)