TrainとSplitの分割方法 - akjava/Matcha-TTS-Japanese GitHub Wiki

基本 TrainとValid だいたい80:20 の割合で分割しています。

分割方法

上から順番に

特に分割方法を記載していないモデルは、この単純に上からの行で分割しています。

  • 音素のバランスは取っていません
  • 文字数のバランスも取っていません

文字数を考慮した分割

文章を、文字数順にソートして、比率に対して、分割しています。

  • 音素のバランスは取っていません
  • 文字数のバランスは取れています。

文字数と音素バランスを考慮した順

今のところ、劇的に効果を感じたことはありません。

V1

一部、出現頻度が低い音素を優先的にトレーニングに回しています。

  • 音素のバランスはある程度とれています。
  • 文字数のバランスは取れています。