音声認識 - Shinichi0713/LLM-fundamental-study GitHub Wiki
目的
音声研究の概要を掴み、今後の技術研究に活用する
自前で構築
背景
- 科学方法論の重要性
- 技術の透明化・民主化することで技術的な貢献を行う
音声基盤モデルの歴史
ESPネットの技術確立にアカデミックとメタが協働した→うまく行かなかった。
espnetで再現実装を手伝った。 2022にwisperが出てきた。
アカデミックでも再現実装が出来る。 自己教師あり学習を構築して音声基盤モデルを実装出来た。
マルチノード、マルチビューの学習ノウハウと、HuBERTの経験があった。 クローリングや多言語の扱いも行った。
学習した環境や工夫
データに対してノイズを加えて敵対的データセットとした。 自己教師有学習だが、ノイズ除去をAIモデルが学習できるようにした。
1回目結果
あまりパフォーマンスは良くなかった
2回目のトライアル
論文投稿の審査で落ちてしまった。
改善のビューポイント
学習曲線が収束していなかった。→収束するまで続けるべきだった。
2回目結果
英語タスクでも精度は非常に良かった。
EspNet
音声処理のEnd-to-Endモデル(完全な連続モーダルをinputして、完全な連続モーダルをoutputするAIモデル)です。 なんと開発者は日本人。 開発が2019年なので、Transformerと同年代。 特徴はメルスペクトログラムを中継データとして、文章、音声に可逆性変換が可能である点。 このことを考えると、現在の音声処理系AIモデルの先行手法となりそうです。 開発者がプレゼンしている動画ありき。 英語はひどいですが、プレゼン見れば、内容はなんとか確認出来ます。 しかし、英語はひどい。。。
https://www.youtube.com/watch?v=DsYDmg72K1k&list=PLfVqr2l0FG-u7chWKPQMDoT0o-I2ejxeK