BERT.kyoto_u.ac.jp - izudon/izudon.github.io GitHub Wiki


解かせている問題の種類は以下の3つ

  1. マスク予測(Masked Language Model を解かせる)
  2. 文章分散表現の取得(文章埋め込み)(モデルの中を除きレイヤのパラメタを取得)
  3. 文書分類
    • run_classifier.py を利用
    • 分散表現を SVM(サポートベクトルマシン)に与え回帰分析

ファインチューニング

  • 5. さんだけが実施(同梱プログラムを利用)

環境

  • 完全ローカル
  • Docker
  • Google Colaboratory

  1. BERT導入手順おさらい個人メモ - Qiita
    • 京大モデルを解凍した中身
    • tokenization.py 中身の書き換え
    • GOAL:
      • extract_features.py 特徴量抽出
  2. pytorchでBERTの日本語学習済みモデルを利用する - 文章埋め込み編 - Out-of-the-box
    • GOAL:
      • 文章埋め込み(文章の分散表現)の取得。
        • モデルの中身を覗いて最終層の一つ手前の重みを取り出す。
        • ソースコードは独自に書く。
    • BertWithJumanModel というクラスを独自に作成
      1. JUMAN++ によるトークナイズ(形態素分割)
      2. モデルへの入力(引数で京大モデルを指定する)
      3. 分散表現の取得(モデルの中を覗きレイヤを取得する)
    • 3. の参考先はおそらくこれ。
  3. BERTによる文書分類 | CCT blog
    • GOAL
      • livedoor ニュースコーパスで文書分類のテスト。
      • 従来アルゴリズム(SVM: サポートベクトルマシン)と比較して
        精度は高く出るか低く出るか?
    • 独自のソースコードを書いてテスト。
      • モデル内部の適当な層を取り出して 分散表現 とし、
      • 分散表現 をSVNに与えて分類予測を行なっている。
  4. BERTの日本語事前学習済みモデルでテキスト埋め込みをやってみる | Developers.IO
    • 1. の参考先。
    • tokenization.py 中身の書き換え
    • GOAL:
      • extract_features.py 特徴量抽出。
      • Embedding projector による次元削減&可視化。
      • 意味的に近い文章が近い位置にあることを確認。
  5. 自然言語処理で注目のBERT 取り敢えず動かしてみる編 - Qiita
    • Step by Step
    • GOAL:
      • 発言小町の文書分類
      • run_classifier.py を利用
    • GOAL:
      • 追加学習(ファインチューニング)
      • create_pretraining_data.py -> run_pretraining.py を利用
  6. pytorch-transformersを触ってみる② - 機械学習・自然言語処理の勉強メモ
    • PyTorch から利用。
    • GOAL:
      • Masked Lanuguage Model を解かせる。
      • 僕が友達とやりたがっていることは何なのか?
        • -> ['話', '仕事', 'キス', 'ゲーム', 'サッカー']
  7. すぐに試せる日本語BERTのDocker Imageを作ってみた - 機械学習 Memo φ(・ω・ )
    • GOAL:
      • マスク予測(Masked Lanuguage Model を解かせる)
      • どんなに勉強しても全然良くならないものは一体何か?
        • -> ['成績', '頭', '気持ち', '方', '態度'] by 京大モデル(JUMAN++)
        • -> ['愛', '心', '気', '方', '日'] by Google デフォルト(SentencePiece)
      • 形態素解析器はやはり重要だという・・・
    • GOAL:
      • 文章埋め込み(文章の分散表現の取得)
        • Transformers 利用。
        • 形態素解析器は JUMAN++
        • 最終レイヤを取って書き出す。
  8. BERTについて解説!日本語モデルを使って予測をしてみようー!|スタビジ
    • GOAL:
      • マスク予測(Masked Lanuguage Model を解かせる)
      • Google Colaboratory 上で実装