BERT.kyoto_u.ac.jp - izudon/izudon.github.io GitHub Wiki

BERT日本語Pretrainedモデル - KUROHASHI-MURAWAKI LAB

解かせている問題の種類は以下の３つ

マスク予測（Masked Language Model を解かせる）
文章分散表現の取得（文章埋め込み）（モデルの中を除きレイヤのパラメタを取得）
文書分類
- run_classifier.py を利用
- 分散表現を SVM（サポートベクトルマシン）に与え回帰分析

ファインチューニング

5. さんだけが実施（同梱プログラムを利用）

環境

完全ローカル
Docker
Google Colaboratory

BERT導入手順おさらい個人メモ - Qiita
- 京大モデルを解凍した中身
- tokenization.py 中身の書き換え
- GOAL:
  - extract_features.py 特徴量抽出
pytorchでBERTの日本語学習済みモデルを利用する - 文章埋め込み編 - Out-of-the-box
- GOAL:
  - 文章埋め込み（文章の分散表現）の取得。
    - モデルの中身を覗いて最終層の一つ手前の重みを取り出す。
    - ソースコードは独自に書く。
- BertWithJumanModel というクラスを独自に作成。
  1. JUMAN++ によるトークナイズ（形態素分割）
  2. モデルへの入力（引数で京大モデルを指定する）
  3. 分散表現の取得（モデルの中を覗きレイヤを取得する）
- 3. の参考先はおそらくこれ。
BERTによる文書分類 | CCT blog
- GOAL
  - livedoor ニュースコーパスで文書分類のテスト。
  - 従来アルゴリズム（SVM: サポートベクトルマシン）と比較して
    精度は高く出るか低く出るか？
- 独自のソースコードを書いてテスト。
  - モデル内部の適当な層を取り出して分散表現とし、
  - 分散表現をSVNに与えて分類予測を行なっている。
BERTの日本語事前学習済みモデルでテキスト埋め込みをやってみる | Developers.IO
- 1. の参考先。
- tokenization.py 中身の書き換え
- GOAL:
  - extract_features.py 特徴量抽出。
  - Embedding projector による次元削減＆可視化。
  - 意味的に近い文章が近い位置にあることを確認。
自然言語処理で注目のBERT ~~取り敢えず動かしてみる編~~ - Qiita
- Step by Step
- GOAL:
  - 発言小町の文書分類
  - run_classifier.py を利用
- GOAL:
  - 追加学習（ファインチューニング）
  - create_pretraining_data.py -> run_pretraining.py を利用
pytorch-transformersを触ってみる② - 機械学習・自然言語処理の勉強メモ
- PyTorch から利用。
- GOAL:
  - Masked Lanuguage Model を解かせる。
  - 僕が友達とやりたがっていることは何なのか？
    - -> ['話', '仕事', 'キス', 'ゲーム', 'サッカー']
すぐに試せる日本語BERTのDocker Imageを作ってみた - 機械学習 Memo φ(・ω・ )
- GOAL:
  - マスク予測（Masked Lanuguage Model を解かせる）
  - どんなに勉強しても全然良くならないものは一体何か？
    - -> ['成績', '頭', '気持ち', '方', '態度'] by 京大モデル（JUMAN++）
    - -> ['愛', '心', '気', '方', '日'] by Google デフォルト（SentencePiece）
  - 形態素解析器はやはり重要だという・・・
- GOAL:
  - 文章埋め込み（文章の分散表現の取得）
    - Transformers 利用。
    - 形態素解析器は JUMAN++
    - 最終レイヤを取って書き出す。
BERTについて解説！日本語モデルを使って予測をしてみようー！｜スタビジ
- GOAL:
  - マスク予測（Masked Lanuguage Model を解かせる）
  - Google Colaboratory 上で実装