japanese_resources - shigashiyama/nlp_survey GitHub Wiki
日本語言語資源・ツール
言語資源集
- GSK:言語資源カタログ
http://www.gsk.or.jp/catalog/ - 情報学研究データリポジトリ
https://www.nii.ac.jp/dsc/idr/datalist.html - NTCIR:テストコレクション一覧
http://research.nii.ac.jp/ntcir/data/data-ja.html - 音声資源コンソーシアム 音声コーパスリスト
http://research.nii.ac.jp/src/list.html - ALAGIN 言語資源・音声資源サイト
https://alaginrc.nict.go.jp - 日本の言語資源・ツールのカタログ
https://www.jaist.ac.jp/project/NLP_Portal/doc/LR/lr-cat-j.html - arXivTimes - DataSets
https://github.com/arXivTimes/arXivTimes/tree/master/datasets - 京都大学 黒橋・河原研究室 - 自然言語処理のためのリソース
http://nlp.ist.i.kyoto-u.ac.jp/index.php?NLP%E3%83%AA%E3%82%BD%E3%83%BC%E3%82%B9 - 京都大学 学術情報メディアセンター 大規模テキストアーカイブ研究分野
http://www.ar.media.kyoto-u.ac.jp/data/ - 京都大学情報学研究科--NTTコミュニケーション科学基礎研究所 共同研究ユニット
http://nlp.ist.i.kyoto-u.ac.jp/kuntt/ - 東北大学 乾・鈴木研究室 - Open Resources
https://www.nlp.ecei.tohoku.ac.jp/research/open-resources/ - NICT
- 広く公開している研究データ
https://www.nict.go.jp/data-provided/opendata.html - 提供先等の条件を設定して公開している研究データ
https://www.nict.go.jp/data-provided/limit-data.html
- 広く公開している研究データ
生コーパス
- 日本語 Wikipedia
https://ja.wikipedia.org/wiki/Wikipedia:%E3%83%87%E3%83%BC%E3%82%BF%E3%83%99%E3%83%BC%E3%82%B9%E3%83%80%E3%82%A6%E3%83%B3%E3%83%AD%E3%83%BC%E3%83%89 - WikiText-JA
http://www.ar.media.kyoto-u.ac.jp/data/wikitext-ja/home.html - 日本語ウェブコーパス 2010
http://www.s-yata.jp/corpus/nwc2010/ - 青空文庫
https://www.aozora.gr.jp/
https://github.com/aozorahack/aozorabunko_text - CoARiJ: Corpus of Annual Reports in Japan
https://github.com/chakki-works/CoARiJ - 地方議会会議録コーパス
http://local-politics.jp/ - 関西弁コーパス
https://sites.google.com/view/kvjcorpus/
コーパス検索システム
- 中納言
https://chunagon.ninjal.ac.jp/ - NINJAL-LWP for TWC - 筑波ウェブコーパス
https://tsukubawebcorpus.jp/ - 朝日新聞記事データベース 聞蔵Ⅱ
https://database.asahi.com/index.shtml - 多言語母語の日本語学習者横断コーパス
中国語・韓国語母語の日本語学習者縦断発話コーパス
http://lsaj.ninjal.ac.jp/
タグ付きコーパス
形態素
- 現代日本語書き言葉均衡コーパス (BCCWJ)
http://pj.ninjal.ac.jp/corpus_center/bccwj/dvd-index.html - Project Next NLP 形態素解析 (BCCWJ test set ID list)
http://www.ar.media.kyoto-u.ac.jp/mori/research/topics/PST/NextNLP.html - 京都大学テキストコーパス,京都大学ウェブ文書リードコーパス
http://nlp.ist.i.kyoto-u.ac.jp/index.php?NLP%E3%83%AA%E3%82%BD%E3%83%BC%E3%82%B9 - 首都大日本語 Twitter コーパス
https://github.com/tmu-nlp/TwitterCorpus
依存構造
- Universal Dependencies
http://universaldependencies.org/ - Japanese Dependency Corpus
http://www.ar.media.kyoto-u.ac.jp/data/word-dep/ - BCCWJ-DepPara (文節単位係り受け・並列構造アノテーションデータ)
https://github.com/masayu-a/BCCWJ-DepPara2
http://www.anlp.jp/proceedings/annual_meeting/2013/pdf_dir/X1-2.pdf
述語項構造・意味役割
- BCCWJ-PT
http://pth.cl.cs.okayama-u.ac.jp/ - NAISTテキストコーパスに対する述語語義と意味役割のアノテーションデータ
https://github.com/shirayu/naist-srl - Cookpad Parsed Corpus v1.0
https://github.com/cookpad/cpc1.0
意味解析
- NPCMJ(NINJAL Parsed Corpus of Modern Japanese) [句構造,ゼロ照応 など]
http://npcmj.ninjal.ac.jp/
https://msu.edu/~matsuiai/slides/NINJAL_salon_20161129_final.pdf - 解析済みブログコーパス [形態素,構文,格・省略・照応,評判情報]
http://nlp.ist.i.kyoto-u.ac.jp/kuntt/ - クックパッドデータセット / フローグラフコーパス [形態素,依存構造,意味役割]
http://www.nii.ac.jp/dsc/idr/cookpad/cookpad.html
http://www.ar.media.kyoto-u.ac.jp/data/recipe/
固有表現・情報抽出
- UD Japanese GSD (v2.6 or later)
https://github.com/megagonlabs/UD_Japanese-GSD - BCCWJ NEコーパス
https://sites.google.com/site/projectnextnlpne/ - GSK2014-A 拡張固有表現タグ付きコーパス (BCCWJ コアデータ, 毎日新聞'95)
http://www.gsk.or.jp/catalog/gsk2014-a/ - 「拡張固有表表現+Wikipedia」データ
http://www.languagecraft.com/enew/ - 評価対象-評価表現抽出用 日本語Twitterデータセット
http://www.cl.ecei.tohoku.ac.jp/resources/twitter_target_review/ - 将棋コーパス
http://www.ar.media.kyoto-u.ac.jp/data/game/home.html
https://github.com/hkmk/shogi-comment-tools - Wikipediaを用いた日本語の固有表現抽出データセット
https://github.com/stockmarkteam/ner-wikipedia-dataset
エンティティリンキング
- Japanese Wikification
http://murawaki.org/research/wikify-data.html - 日本語Wikificationコーパス
http://www.cl.ecei.tohoku.ac.jp/jawikify/ - nayose-wikipedia-ja (Wikipediaから作成した日本語名寄せデータセット)
https://github.com/yagays/nayose-wikipedia-ja
関係抽出
- RANIS - Relational representation of context-dependent roles on information science papers
http://mynlp.github.io/ranis/
感情分析
- WRIME: 主観と客観の感情分析データセット
https://github.com/ids-cv/wrime
話し言葉コーパス
- 日本語話し言葉コーパス (CSJ)
https://pj.ninjal.ac.jp/corpus_center/csj/ - 『日本語日常会話コーパス』CEJC
https://www2.ninjal.ac.jp/conversation/cejc.html - BTSJ日本語自然会話コーパス
https://ninjal-usamilab.info/btsj_corpus/ - 名大会話コーパス
https://mmsrv.ninjal.ac.jp/nucc/nucc_abst.html- 名大会話コーパスへの「自然会話コーパス話題アノテーション情報」
http://nakamata.info/database/
- 名大会話コーパスへの「自然会話コーパス話題アノテーション情報」
- 日本語話題別会話コーパス J-TOCC
日中 Skype 会話コーパス
http://nakamata.info/database/ - LaboroTVSpeech
https://github.com/laboroai/LaboroTVSpeech
https://arxiv.org/pdf/2103.14736.pdf - JTubeSpeech: Corpus of Japanese speech collected from YouTube
https://github.com/sarulab-speech/jtubespeech
音声認識コーパス
- J-KAC: Japanese Kamishibai and audiobook corpus
https://sites.google.com/site/shinnosuketakamichi/research-topics/j-kac_corpus - J-MAC: Japanese multi-speaker audiobook corpus
https://sites.google.com/site/shinnosuketakamichi/research-topics/j-mac_corpus
応用タスク向けコーパス
対訳コーパス
文法・入力誤り訂正コーパス
- 作文対訳DB:日本語学習者による日本語作文と,その母語訳との対訳データベース
http://shachi.org/resources/3382?ln=jpn - NAIST Lang-8 Learner Corpora
https://sites.google.com/site/naistlang8corpora/ - GitHub Typo Corpus
https://github.com/mhagiwara/github-typo-corpus - 日本語Wikipedia入力誤りデータセット (v2)
https://nlp.ist.i.kyoto-u.ac.jp/?%E6%97%A5%E6%9C%AC%E8%AA%9EWikipedia%E5%85%A5%E5%8A%9B%E8%AA%A4%E3%82%8A%E3%83%87%E3%83%BC%E3%82%BF%E3%82%BB%E3%83%83%E3%83%88
要約コーパス
- JSSS: Japanese speech corpus for summarization and simplification
https://sites.google.com/site/shinnosuketakamichi/research-topics/jsss_corpus - NTCIR14 QALab-PoliInfo
http://research.nii.ac.jp/ntcir/permission/ntcir-14/perm-ja-QALab.html - NTCIR-7 MuST
http://research.nii.ac.jp/ntcir/permission/ntcir-7/perm-ja-MuST.html
質問応答コーパス
- JAQKET:クイズを題材にした日本語QAデータセット
https://www.nlp.ecei.tohoku.ac.jp/projects/jaqket/
含意関係認識・論理推論コーパス
- 含意関係データセット Japanese Realistic Textual Entailment Corpus
根拠説明データセット Evidence-based Explanation Dataset
https://www.recruit.co.jp/newsroom/2020/1019_18866.html - MED: Monotonicity Entailment Dataset
https://github.com/verypluming/MED
文字認識データ
- 日本古典籍くずし字データセット
http://codh.rois.ac.jp/char-shape/ - KMNISTデータセット(機械学習用くずし字データセット)
http://codh.rois.ac.jp/kmnist/
辞書・シソーラス等
- UniDic
https://unidic.ninjal.ac.jp/ - 「中納言」データ語彙表
https://ccd.ninjal.ac.jp/bccwj/bcc-chu.html - BCCWJ複合辞辞書
http://japanese.gr.jp/data_archives.html - mecab-ipadic-NEologd
https://github.com/neologd/mecab-ipadic-neologd/ - Sudachi 同義語辞書
https://github.com/WorksApplications/SudachiDict/blob/develop/docs/synonyms.md - つつじ:日本語機能表現辞書
http://www.cl.inf.uec.ac.jp/lr/tsutsuji/ - Japanese WordNet
http://compling.hss.ntu.edu.sg/wnja/index.en.html - PPDB : Japanese - 日本語言い換えデータベース
http://ahclab.naist.jp/resource/jppdb/ - 述語項構造シソーラス
http://www.cl.cs.okayama-u.ac.jp/rsc/data/ - 漢字を構成する部首/偏旁のデータセット
https://yag-ays.github.io/project/kanjivg-radical/ - 郵便番号データ
https://www.post.japanpost.jp/zipcode/download.html - 地名情報処理システム GeoNLP
https://geonlp.ex.nii.ac.jp/dictionary - 日本会社名辞書 Japanese Company Lexicon (JCLdic)
https://github.com/chakki-works/Japanese-Company-Lexicon - 公開されている日本の企業名辞書の紹介
https://tech.mntsq.co.jp/entry/2021/04/28/160829 - バイオサイエンスデータベースセンター 科学技術用語形態素解析辞書
- JSTシソーラス見出し語・同義語辞書
https://dbarchive.biosciencedbc.jp/jp/mecab/data-1.html - J-GLOBAL MeSH辞書
https://dbarchive.biosciencedbc.jp/jp/mecab/data-2.html - 日化辞辞書
https://dbarchive.biosciencedbc.jp/jp/mecab/data-3.html
- JSTシソーラス見出し語・同義語辞書
- 万病辞書
http://sociocom.jp/~data/2018-manbyo/index.html - 医療用語辞書 ComeJisyo
https://ja.osdn.net/projects/comedic/
単語ベクトル・言語モデル等
Word Embedding 学習済みモデル・関連データ
- 日本語単語類似度データセット
https://github.com/tmu-nlp/JapaneseWordSimilarityDataset/blob/master/README.md - The Japanese Bigger Analogy Test Set (jBATS)
https://vecto.space/projects/jBATS/ - 大規模コーパスと複数粒度分割による日本語単語分散表現
https://www.worksap.co.jp/nlp-activity/word-vector/ - chakin - downloader for pre-trained word vectors
https://github.com/chakki-works/chakin
http://qiita.com/Hironsan/items/85b281270671dde3555d - 東北大学 乾・岡崎研究室:日本語 Wikipedia エンティティベクトル
http://www.cl.ecei.tohoku.ac.jp/~m-suzuki/jawiki_vector/ - 白ヤギコーポレーション:word2vecの学習済み日本語モデル
http://aial.shiroyagi.co.jp/2017/02/japanese-word2vec-model-builder/
テキスト解析ツール
テキスト解析ツール群
- 日本語自然言語処理ライブラリ GiNZA
https://www.recruit.co.jp/newsroom/2019/0402_18331.html
https://megagonlabs.github.io/ginza/ - 国立情報学研究所 宮尾研究室 - 研究成果
https://mynlp.github.io/ja/projects
単語分割・形態素解析
- MeCab
http://taku910.github.io/mecab/ - KyTea
http://www.phontron.com/kytea/index-ja.html - 日本語形態素解析システム JUMAN/JUMAN++
http://nlp.ist.i.kyoto-u.ac.jp/index.php?NLP%E3%83%AA%E3%82%BD%E3%83%BC%E3%82%B9 - Sudachi, SudachiPy
https://github.com/WorksApplications/Sudachi
https://github.com/WorksApplications/SudachiPy - Vaporetto
https://github.com/legalforce-research/vaporetto - 中・長単位解析器 Comainu
http://comainu.org/
依存構造解析
- CaboCha
https://taku910.github.io/cabocha/ - 日本語構文解析システム KNP
http://nlp.ist.i.kyoto-u.ac.jp/index.php?NLP%E3%83%AA%E3%82%BD%E3%83%BC%E3%82%B9 - J.DepP - C++ implementation of Japanese Dependency Parsers
http://www.tkl.iis.u-tokyo.ac.jp/~ynaga/jdepp/ - EDA 係り受け解析器
http://www.ar.media.kyoto-u.ac.jp/tool/EDA/
述語項構造解析・意味役割付与
- ChaPAS
https://github.com/yotarow/chapas - ShynCha
https://sites.google.com/site/ryuiida/syncha - 意味役割付与システム Argument Structure Analyzer (ASA)
http://www.cl.cs.okayama-u.ac.jp/study/project/asa/
その他 言語解析ツール
- 照応解析システムANASYS
http://www-haradalb.it.aoyama.ac.jp/anasys.html - 日本語拡張モダリティ解析器 Zunda
https://jmizuno.github.io/zunda/ - cohesion-analysis: BERT based Japanese cohesion analyzer
https://github.com/nobu-g/cohesion-analysis - 日本語節境界検出プログラム CBAP (現在非公開)
https://www.jstage.jst.go.jp/article/jnlp1994/11/3/11_3_39/_pdf
その他 前処理ツール
- SentencePiece
https://github.com/google/sentencepiece - ja_sentence_segmenter
https://github.com/wwwcojp/ja_sentence_segmenter
https://qiita.com/wwwcojp/items/3535985007aa4269009c - WikiExtractor
https://github.com/attardi/wikiextractor - nwc-toolkit
https://code.google.com/archive/p/nwc-toolkit/
https://github.com/xen/nwc-toolkit - Chazutsu
https://github.com/chakki-works/chazutsu - KAKASHI 漢字→かな(ローマ字)変換プログラム
http://kakasi.namazu.org/index.html.ja - cutlet: a tool to convert Japanese to romaji
https://github.com/polm/cutlet
アノテーションツール
- brat rapid annotation tool
http://brat.nlplab.org/ - doccano
https://github.com/chakki-works/doccano