OpenJtalkのg2pの精度の問題 - akjava/Matcha-TTS-Japanese GitHub Wiki
ようするに、問題はあるが、まったく解決できていません。
問題があることは断言できます。
正直、読み間違いのエラーレートより高いのではと疑っています。
問題とは、OpenJtalkのg2pにおいて、漢字を正しくカナ・Phonomeに変換出来ません。といっても、他のツールなら完璧というわけではなく、ある程度のエラーは発生します。 なんらかの処理をする必要があります。名指しでいっているのは、一番よく変換に使われるからです。
人が聞いて判断するのも手ですが、体感的に300ぐらいが限界。大型のdatasetでは、5000を優に超えます。
Common-Voiceとかの音声で、読み手が正しく読めていても、肝心のラベルがおかしかったら、モデルの品質が下がります。 特にCommon-Voiceによく出てくる、町名とか、致命的に悪いように見えます。
また、Common-Voiceは入力されたラベルは稀な漢字の使い方が混じっていて、いっそう検出が難しくなっています。
具体的なエラーレートは不明
まだ、計測できていません。
あらかじめ、カナ表記のある、ITA-RecitationやITA-Emotionと比べるのがいいかなと思っています。
代価案は研究中
一番手軽なのは、Mecab等の品詞解析の読みから取り出すことですが、Phonome化するのに苦労しています。
学習向けのラベリングは、AIに聞いて作るのも手かと思ってます。