辞書のメモ - WariHima/pyopenjtalk-mod GitHub Wiki

　後述する理由で壊れているため、最長一致で分割されるように辞書のコストを設定する（予定）

openjtalkの辞書はunidic-csj(たぶん2.12.2)とnaist-jdicをマージして使われており、形態素解析、短単位解析能力が機能しなくなっている。

主にコストの調整がされていないことが原因。

kanji-gram-.csvの内容を見比べてみて、4行目の数字がコストで小さい順で出やすいのだが、unidicとnaist-jdicで数値の差が大きいことがわかる特にunidicのよりnaist-jdicの方が出やすく、unidicはほとんど使われていないパターンのほうが多そう

また、現状コストを手動調整する以外に方法はない。

openjtalk 1.11でunidicの追加がされており、辞書のみそれ以前のバージョンに戻すことも可能ただopenjtalk 1.11には辞書にフィラー項目が追加されており、それがないと未知語を正しく読めない。

pyopenjtalk-plusではその問題を懸念してフィラー項目のみ別ファイルに避けているこのフォークでは辞書ファイルをngramサイズで分けることで辞書のコスト設定の前準備をしている