音声認識 - Shinichi0713/LLM-fundamental-study GitHub Wiki

目的

音声研究の概要を掴み、今後の技術研究に活用する

自前で構築

背景

  • 科学方法論の重要性
  • 技術の透明化・民主化することで技術的な貢献を行う

音声基盤モデルの歴史

ESPネットの技術確立にアカデミックとメタが協働した→うまく行かなかった。

espnetで再現実装を手伝った。 2022にwisperが出てきた。

アカデミックでも再現実装が出来る。 自己教師あり学習を構築して音声基盤モデルを実装出来た。

image

マルチノード、マルチビューの学習ノウハウと、HuBERTの経験があった。 クローリングや多言語の扱いも行った。

image

学習した環境や工夫

データに対してノイズを加えて敵対的データセットとした。 自己教師有学習だが、ノイズ除去をAIモデルが学習できるようにした。

image

1回目結果

あまりパフォーマンスは良くなかった

image

2回目のトライアル

論文投稿の審査で落ちてしまった。

改善のビューポイント

学習曲線が収束していなかった。→収束するまで続けるべきだった。

image

2回目結果

image

英語タスクでも精度は非常に良かった。

EspNet

音声処理のEnd-to-Endモデル(完全な連続モーダルをinputして、完全な連続モーダルをoutputするAIモデル)です。 なんと開発者は日本人。 開発が2019年なので、Transformerと同年代。 特徴はメルスペクトログラムを中継データとして、文章、音声に可逆性変換が可能である点。 このことを考えると、現在の音声処理系AIモデルの先行手法となりそうです。 開発者がプレゼンしている動画ありき。 英語はひどいですが、プレゼン見れば、内容はなんとか確認出来ます。 しかし、英語はひどい。。。

https://www.youtube.com/watch?v=DsYDmg72K1k&list=PLfVqr2l0FG-u7chWKPQMDoT0o-I2ejxeK

参考

NLPコロキウム