今後の展開 - acknak/Nakloid GitHub Wiki

HOME

Nakloidに明日はあるのか!?頑張れNakloid!!

作者の現状とか

HOME動画で解説した通り、作者は現在、大学を離れて就職しています。仕事内容も事務系で、プログラミングとは無縁の日々。まぁもともと大学の専攻も情報工学ではなかったわけですが。とにかく、そんなこんなでNakloidに割ける作者のリソースが極端に少なくなっています。誰か代わりに組んでくれないかなぁ……(チラッ

とりあえず以下に現在把握している要改善点を掲載しておきます。歌声合成に携わるあなたの参考にでもなれば。

要改善点

周波数領域での波形編集

Nakloidは「自然な歌声」を合成するために、歌声DBに登録された音声波形の特徴をできる限り残したまま合成することを目標としていますが、このままでは自由度が低くなってしまい、実用には耐えません。声質をパラメータでいじることができればベストですが、時間領域での波形編集には限界があります。そこで現在考えているのが、単位波形毎に対する周波数領域での波形編集。昔、どこかで単位波形に周波数領域の波形編集を行った論文を読んだ気がします。加えて、MATLABでの先行実験ではそこそこな結果が出ていた気もします。単位波形の合計時間は元波形のそれよりも長い都合上、周波数領域単体での波形編集より時間はかかってしまいますが、合成音声の品質は悪くはないはず。どちらにせよ、事前に実証実験をする必要があるので、実現まではかなり時間が掛かりそうです。

ピッチマークの性能向上

現在は音声DBに登録された音声波形の周波数を決め打ちまたはUTAUの生成する.frqを元に指定していますが、この部分も自動化したいものです。また、ピッチマーク自体も単純に自己相関関数を用いただけであるため、成功率は100%とはいかず、ノイズが混じりやすい状態です。正解の確定している問題では無いので、TD-PSOLA法をベースにしている以上、Nakloidの永遠の課題とも言えるでしょう。

音長変換の性能向上

音長変換は単純に自己フェードを利用していますが、これがあまりうまくいかないことも事実です。単に音の長さを変える研究、というのはあまり見かけないので、他に方法も思いつきません。UTAUとかどうやって解決しているのかしら。

GUIの充実

UTAUで最も凄いと思うのはここ。WindowsプログラミングとかAPIを見ただけで拒絶反応ががが。正直、NakloidをUTAUのresamplerにしてしまった方が社会の役に立つ気がします。Nakloidの利点(曲全体を通した細かなF0調整が可能)を活かしたGUIを、デザインセンスのない作者が生き恥を晒しながら作成しましたが、バグだらけで使いづらいったらありゃしない。本当を言えば、歌声合成システムを名乗る以上は、VST化がベストな選択肢なのでしょうが。自分で使いながら、ゆっくり改善したいと思います。

ソースコードの整理

いろいろと無駄が多すぎて目も当てられないソースコードをなんとかしたいですが、いかんせん作者の実力が……。Boost librariesも、Java8も、うまく活用できていません。この辺りはおいおい改善していくしかないでしょうか。

作者のコミュ力

だれかにゃっぽんに誘ってくだしあ>< とか思っているうちに閉鎖とか,もうね.