OpenJtalkのg2pの精度の問題 - akjava/Matcha-TTS-Japanese GitHub Wiki

ようするに、問題はあるが、まったく解決できていません。

問題があることは断言できます。

正直、読み間違いのエラーレートより高いのではと疑っています。

　問題とは、OpenJtalkのg2pにおいて、漢字を正しくカナ・Phonomeに変換出来ません。といっても、他のツールなら完璧というわけではなく、ある程度のエラーは発生します。なんらかの処理をする必要があります。名指しでいっているのは、一番よく変換に使われるからです。

人が聞いて判断するのも手ですが、体感的に300ぐらいが限界。大型のdatasetでは、5000を優に超えます。

Common-Voiceとかの音声で、読み手が正しく読めていても、肝心のラベルがおかしかったら、モデルの品質が下がります。特にCommon-Voiceによく出てくる、町名とか、致命的に悪いように見えます。

また、Common-Voiceは入力されたラベルは稀な漢字の使い方が混じっていて、いっそう検出が難しくなっています。

まだ、計測できていません。

あらかじめ、カナ表記のある、ITA-RecitationやITA-Emotionと比べるのがいいかなと思っています。

一番手軽なのは、Mecab等の品詞解析の読みから取り出すことですが、Phonome化するのに苦労しています。

学習向けのラベリングは、AIに聞いて作るのも手かと思ってます。