BERT.kyoto_u.ac.jp - izudon/izudon.github.io GitHub Wiki
解かせている問題の種類は以下の3つ
- マスク予測(Masked Language Model を解かせる)
- 文章分散表現の取得(文章埋め込み)(モデルの中を除きレイヤのパラメタを取得)
- 文書分類
- run_classifier.py を利用
- 分散表現を SVM(サポートベクトルマシン)に与え回帰分析
ファインチューニング
5.
さんだけが実施(同梱プログラムを利用)
環境
- 完全ローカル
- Docker
- Google Colaboratory
- BERT導入手順おさらい個人メモ - Qiita
- 京大モデルを解凍した中身
- tokenization.py 中身の書き換え
- GOAL:
- extract_features.py 特徴量抽出
- pytorchでBERTの日本語学習済みモデルを利用する - 文章埋め込み編 - Out-of-the-box
- GOAL:
- 文章埋め込み(文章の分散表現)の取得。
- モデルの中身を覗いて最終層の一つ手前の重みを取り出す。
- ソースコードは独自に書く。
- 文章埋め込み(文章の分散表現)の取得。
- BertWithJumanModel というクラスを独自に作成。
- JUMAN++ によるトークナイズ(形態素分割)
- モデルへの入力(引数で京大モデルを指定する)
- 分散表現の取得(モデルの中を覗きレイヤを取得する)
3.
の参考先はおそらくこれ。
- GOAL:
- BERTによる文書分類 | CCT blog
- GOAL
- livedoor ニュースコーパスで文書分類のテスト。
- 従来アルゴリズム(SVM: サポートベクトルマシン)と比較して
精度は高く出るか低く出るか?
- 独自のソースコードを書いてテスト。
- モデル内部の適当な層を取り出して 分散表現 とし、
- 分散表現 をSVNに与えて分類予測を行なっている。
- GOAL
- BERTの日本語事前学習済みモデルでテキスト埋め込みをやってみる | Developers.IO
1.
の参考先。- tokenization.py 中身の書き換え
- GOAL:
- extract_features.py 特徴量抽出。
- Embedding projector による次元削減&可視化。
- 意味的に近い文章が近い位置にあることを確認。
- 自然言語処理で注目のBERT
取り敢えず動かしてみる編- Qiita- Step by Step
- GOAL:
- 発言小町の文書分類
- run_classifier.py を利用
- GOAL:
- 追加学習(ファインチューニング)
- create_pretraining_data.py -> run_pretraining.py を利用
- pytorch-transformersを触ってみる② - 機械学習・自然言語処理の勉強メモ
- PyTorch から利用。
- GOAL:
- Masked Lanuguage Model を解かせる。
- 僕が友達とやりたがっていることは何なのか?
- ->
['話', '仕事', 'キス', 'ゲーム', 'サッカー']
- ->
- すぐに試せる日本語BERTのDocker Imageを作ってみた - 機械学習 Memo φ(・ω・ )
- GOAL:
- マスク予測(Masked Lanuguage Model を解かせる)
- どんなに勉強しても全然良くならないものは一体何か?
- ->
['成績', '頭', '気持ち', '方', '態度']
by 京大モデル(JUMAN++) - ->
['愛', '心', '気', '方', '日']
by Google デフォルト(SentencePiece)
- ->
- 形態素解析器はやはり重要だという・・・
- GOAL:
- 文章埋め込み(文章の分散表現の取得)
- Transformers 利用。
- 形態素解析器は JUMAN++
- 最終レイヤを取って書き出す。
- 文章埋め込み(文章の分散表現の取得)
- GOAL:
- BERTについて解説!日本語モデルを使って予測をしてみようー!|スタビジ
- GOAL:
- マスク予測(Masked Lanuguage Model を解かせる)
- Google Colaboratory 上で実装
- GOAL: