TrainとSplitの分割方法 - akjava/Matcha-TTS-Japanese GitHub Wiki
基本 TrainとValid だいたい80:20 の割合で分割しています。
分割方法
上から順番に
特に分割方法を記載していないモデルは、この単純に上からの行で分割しています。
- 音素のバランスは取っていません
- 文字数のバランスも取っていません
文字数を考慮した分割
文章を、文字数順にソートして、比率に対して、分割しています。
- 音素のバランスは取っていません
- 文字数のバランスは取れています。
文字数と音素バランスを考慮した順
今のところ、劇的に効果を感じたことはありません。
V1
一部、出現頻度が低い音素を優先的にトレーニングに回しています。
- 音素のバランスはある程度とれています。
- 文字数のバランスは取れています。