背景 - acknak/Nakloid GitHub Wiki

HOME

Nakloid解説の前フリとか

開発に至るまで

コンピュータは、その黎明期から今日に至るまで、数限りない技術革新を実現してきました。その中でも象徴的な事件の一つとして、1961年、ベル研究所のIBM 7094が"Daisy Bell"を歌った一幕が挙げられます。これは世界で初めてコンピュータが歌った瞬間であり、その後、アーサー・C・クラークとスタンリー・キューブリックが制作した映画及び小説である『2001 年宇宙の旅』の最も象徴的な場面で引用されました。

「歌」は一般に、人間の高度な心理作用により解され、歌われるとされます。したがって、コンピュータが歌を聴き、歌うことは、技術的に高難度の問題であると同時に、それこそが歌声情報処理の研究意義であると言い換えることもできるわけです。特に近年では歌声合成システムが脚光を浴びており、Nakloidもその流れの一つとして誕生しました。

……とまぁ堅い話を初っ端に載せましたが、早い話がボカロが好きすぎて自分でも歌声合成システムを作りたくなったのでNakloidを開発しました。せっかく作るならガチで、ということで卒論のテーマとして取り組んだ結果がこれです。

歌声合成技術

技術的な背景とか

合成方式

「声」を扱う技術として、音声合成(いわゆるText-to-Speech)が古くから検討されてきました。人間が音声を発声するメカニズムを電気回路等で実現して音声を人工生成することを音声合成といい、その方式はおおよそ次の3つに分けられます(古井貞煕:新音響・音声工学,近代科学社(2006)をもとに作成)。

音声合成方式の分類

中でも規則合成方式は録音した音声を音素・音節等の基本単位まで分解して保存し、任意の語彙を合成することができます。最近の音声合成システムはほとんどが規則合成方式を採用しており、Nakloidも同様です。

合成単位

規則合成方式の合成単位は音素が基本ですが、音素のみで高品質な合成音声を得ることは非常に難しいので、一般に音素より大きい単位を合成単位とします。母音(Vowel)と子音(Consonant)の組み合わせは以下のとおり(古井貞煕:新音響・音声工学,近代科学社(2006)をもとに作成)。

日本語の音声合成のための合成単位

NakloidはVOCALOIDやUTAUと同様、日本語のかな文字に対応するCV単位及びVCV単位(2014年より対応)を採用しています。

編集領域

合成単位で録音された音声は、そのまま繋ぎあわせても、高品質の合成音声は得られません。音高や音長が大きく変化する歌声合成であればなおさらです。したがって合成時に、録音された音声を編集して聞こえを良くする必要があります。その方法は主に時間領域(time domain)での編集と周波数領域(frequency domain)での編集に分けることができます。

時間領域での編集は波形をそのまま編集する方法で、再生速度や音量の変更など、単純でわかりやすい仕組みのものがほとんどです。NakloidがベースとするTD-PSOLA法も時間領域で音高(基本周波数。F0とも。)を変換するアルゴリズムで、望月氏の論文にわかりやすくまとめられています。

周波数領域での編集はフーリエ変換により波形を周波数スペクトルに変換してから編集する方式で、処理は比較的重いものの、一般に自由度の高い編集ができます。音声分析変換合成法「STRAIGHT」をはじめ多くの検討がなされており、VOCALOIDも基本的には周波数領域で波形を編集しているようです。

現在の歌声合成システムはVOCALOIDのように周波数領域での編集を主とした合成が一般的ですが、Nakloidは時間領域での編集のみを採用しています。以下はTD-PSOLA法の流れを示した図です。解説動画の2:38~を見たほうがわかりやすいかも。

TD-PSOLA法の流れ

歌声特性

なんやかんやと音声合成について説明してきましたが、ここではその味付けについて。人間は人の声を聴いた時に、それが話声なのか歌声なのか聞き分けることができます。同様にコンピュータにも「話声」と「歌声」を区別させる研究があります。歌声合成で重要なのはその逆パターン。歌声特性として特に重要なのは基本周波数の変化と周波数領域の特徴である"Singers' formant"で、齋藤氏と後藤氏の論文にわかりやすくまとめられています。ちなみにNakloidでは基本周波数の変化のみを歌声DBの音声波形に適用しています。これはNakloidが歌声合成システムであるという前提の下、歌声DBに登録された音声波形には既に"Singers' formant"類似の特徴量が多かれ少なかれ既に備わっていると考えているためです。

個人的に気になっている技術

まぁ、ここまで書き連ねた文章はちょっとググれば出てくるような内容なのでどうでもいいとして、個人的に気になっている技術のリストを下に掲載します。各技術の論文を読めば歌声合成の前線部分が見えてくるはずです。