異なるdataset同士のlossの比較は難しい - akjava/Matcha-TTS-Japanese GitHub Wiki
文章短いとLoss値は低い。
Curriculum Learningをしてみてわかりました、短い文章の train/loss,valid/loss値は低いです。そして長い文章は高くなります。
datasetが異なると、含まれるファイル数や文章量だけでも、大きくことなります。 さらには、難易度に影響を与えると要素はいろいろあるようで、そもそもの難易度が違うので比較はできない。
loss値が低いからといって、完成したモデルの質がいいわけではない。
batchサイズが同じでファイル数近いなら必要Epoch数は似てくるかも
あくまでこれは、経験則ですが、難易度で違いは出てきますが、多少の文章量の違いぐらいなら、だいたい似たepochで結果が出てくると思います。
ただし、本当に文章サイズが大きく違うと、同じbatch数だとメモリ不足で、エラーが出ます。この場合、batchサイズを下げて実行しますが、そうすると進行度合いに違いは出てくるような。