リソースデータについて - RITE-VAL/BIUTEE GitHub Wiki

基本ファイル

  • data/json/*.knp_mix.json

    • KNP, zunda, normalizeNumexp が ひとつのフォーマットに埋まっている
  • data/json/*.knp_simple.json

    • 上記データにSimpleな文の情報も付与したもの
  • TODO:

    • JUMAN体系での固有表現抽出データ (IPA/Cabochaならjson/*.ne.jsonにある)

JSONデータの取得方法

import jsonののち,json.loadで取得可能.(以下参照)

おおまかな構造

これはjson/*.knp_simple.jsonの構造.分からない点は聞くこと

import json
data = json.load(open(filename, "r"))
print data["1"]["ans"]             # 答え (主に Y or N)
print data["1"]["t2"]["raw_text"]  # 生文
print data["1"]["t2"]["zunda"]     # zunda の データ(辞書)
print data["1"]["t2"]["nn"]        # normalizeNumexp の データ(リスト)
print data["1"]["t2"]["knp"]       # KNPの出力(文字列)
print data["1"]["t2"]["chunks"]    # KNPの「基本句」ごとに区切ったもの
print data["1"]["t2"]["simple"]    # KNPを述語項ごとで区切ったもの

chunksのフォーマット

基本句が一要素の配列となっている.それぞれの要素は

{
     "EID": 0,  # 談話要素ID (談話要素とは(共参照解析で)共参照関係になるものをひとつとしたもの指す(はず))
     "dep": 9,  # 係り先の基本句のインデックス
     "words": "百貨店 ひゃっかてん 百貨店 名詞 6 普通名詞 1 * 0 * 0 \"代表表記:百貨店/ひゃっかてん 組織名末尾 カテゴリ:場所-施設 ドメイン:ビジネス\" <代表表記:百貨店/ひゃっかて
ん><組織名末尾><カテゴリ:場所-施設><ドメイン:ビジネス><正規化代表表記:百貨店/ひゃっかてん><文頭><漢字><かな漢字><名詞相当語><自立><内容語><タグ単位始><文節始><文節主辞>\nは は は 助詞 9 副助
詞 2 * 0 * 0 NIL <かな漢字><ひらがな><付属>\n、 、 、 特殊 1 読点 2 * 0 * 0 NIL <英記号><記号><述語区切><付属>" # KNP(JUMAN)単語情報
},

となっている.

simpleのフォーマット

以下の様なフォーマットにしている

"simple" : {
   "9" : {      # 述語に相当する基本句のインデックス
       "suf" :  "文字列"       # 述語の基本?形
       "words" : "文字列"      # 基本句の情報(KNPの出力まま)
       "ガ" : {    # "suf", "words" 以外は格を表す
           "b_pos": 10,       # 基本句上での位置
           "rel": "ガ",       # 格(キーと一緒)
           "suf": "文字列"     # 単語自身
           "type": "N",
           "words": {         # 係り先も含めた単語のKNP情報(キーが単語位置), そのまま結合すると係り元が複数あって意味不明になるのもあるので一応分けている
                 "3" : "文字列"
                 ....
           }
       }
       ...
   }
}

※ JSON は数値をキーにしたマップができないので文字列になっている*

具体的には以下の様な感じになる.

    "simple": {
       "9": {
           "suf": "区分/くぶん+する/する+れる/れる", 
           "words": "区分 くぶん 区分 名詞 6 サ変名詞 2 * 0 * 0 \"代表表記:区分/くぶん カテゴリ:抽象物\" <代表表記:区分/くぶん><カテゴリ:抽象物><正規化代表表記:区分/くぶん><漢字><かな漢字><名詞相当語><サ変><サ変動詞><自立><内容語><タグ単位始><文節始><文節主辞>\t#EVENT1\nさ さ する 動詞 2 * 0 サ変動詞 16 未然形 3 \"代表表記:する/する 付属動詞候補(基本) 自他動詞:自:成る/なる\" <代表表記:する/する><付属動詞候補(基本)><自他動詞:自:成る/なる><正規化代表表記:する/する><とタ系連用テ形複合辞><かな漢字><ひらがな><活用語><付属>\t#EVENT2\nれて れて れる 接尾辞 14 動詞性接尾辞 7 母音動詞 1 タ系連用テ形 14 \"代表表記:れる/れる\" <代表表記:れる/れる><正規化代表表記:れる/れる><かな漢字><ひらがな><活用語><付属>\nいる いる いる 接尾辞 14 動詞性接尾辞 7 母音動詞 1 基本形 2 \"代表表記:いる/いる\" <代表表記:いる/いる><正規化代表表記:いる/いる><表現文末><かな漢字><ひらがな><活用語><付属>\n。 。 。 特殊 1 句点 1 * 0 * 0 NIL <文末><英記号><記号><付属>", 
          "ガ": {
                    "EID": 0, 
                    "rel": "ガ", 
                    "suf": "百貨店", 
                    "type": "N", 
                    "words": {
                            "0": "百貨店 ひゃっかてん 百貨店 名詞 6 普通名詞 1 * 0 * 0 \"代表表記:百貨店/ひゃっかてん 組織名末尾 カテゴリ:場所-施設 ドメイン:ビジネス\" <代表表記:百貨店/ひゃっ
かてん><組織名末尾><カテゴリ:場所-施設><ドメイン:ビジネス><正規化代表表記:百貨店/ひゃっかてん><文頭><漢字><かな漢字><名詞相当語><自立><内容語><タグ単位始><文節始><文節主辞>\nは は は 助詞 9 
副助詞 2 * 0 * 0 NIL <かな漢字><ひらがな><付属>\n、 、 、 特殊 1 読点 2 * 0 * 0 NIL <英記号><記号><述語区切><付属>"
                        }
                    }, 
          "ニ": {
                "EID": 5, 
                "rel": "ニ", 
                "suf": "大型百貨店", 
                "type": "C", 
                "words": {
                            "3": "3000? 3000? 3000? 名詞 6 普通名詞 1 * 0 * 0 \"疑似代表表記 代表表記:3000?/3000? 品詞変更:3000?-3000?-3000?-15-1-0-0\" <疑似代表表記><代表表記:3000?/3000?><正
規化代表表記:3000?/3000?><品詞変更:3000?-3000?-3000?-15-1-0-0-\"疑似代表表記 代表表記:3000?/3000?\"><品曖-その他><未知語><記英数カ><英記号><記号><名詞相当語><自立><複合←><内容語><タグ単位始><
文節主辞>\n以上 いじょう 以上 接尾辞 14 名詞性名詞接尾辞 2 * 0 * 0 \"代表表記:以上/いじょう\" <代表表記:以上/いじょう><正規化代表表記:以上/いじょう><副詞的接尾辞><漢字><かな漢字><名詞相当語><
付属>\nの の の 助詞 9 格助詞 1 * 0 * 0 NIL <品曖><ALT-の-の-の-9-3-0-0-NIL><品曖-格助詞><品曖-接続助詞><かな漢字><ひらがな><付属>", 
                            "4": "「 「 「 特殊 1 括弧始 3 * 0 * 0 NIL <記英数カ><英記号><記号><括弧始><括弧><接頭><非独立接頭辞><タグ単位始><文節始>\n大型 おおがた 大型だ 形容詞 3 * 0 ナノ形
容詞 22 語幹 1 \"代表表記:大形/おおがたa 代表表記変更:大形だ/おおがただ 反義:形容詞:小形だ/こがただ\" <代表表記:大形/おおがたa><反義:形容詞:小形だ/こがただ><正規化代表表記:大形/おおがたa><漢
字><かな漢字><名詞的形容詞語幹><代表表記変更:大形だ/おおがただ><名詞相当語><自立><内容語>\t#EVENT0", 
                            "5": "百貨店 ひゃっかてん 百貨店 名詞 6 普通名詞 1 * 0 * 0 \"代表表記:百貨店/ひゃっかてん 組織名末尾 カテゴリ:場所-施設 ドメイン:ビジネス\" <代表表記:百貨店/ひゃっ
かてん><組織名末尾><カテゴリ:場所-施設><ドメイン:ビジネス><正規化代表表記:百貨店/ひゃっかてん><漢字><かな漢字><名詞相当語><自立><複合←><内容語><タグ単位始><文節主辞>\n」 」 」 特殊 1 括弧終 4
 * 0 * 0 NIL <記英数カ><英記号><記号><括弧終><括弧><述語区切><付属>\nと と と 助詞 9 格助詞 1 * 0 * 0 NIL <品曖><ALT-と-と-と-9-3-0-0-NIL><品曖-格助詞><品曖-接続助詞><かな漢字><ひらがな><付属
>\n、 、 、 特殊 1 読点 2 * 0 * 0 NIL <英記号><記号><述語区切><付属>"
                        }
                    }
                }
            },

zundaのフォーマット

zunda#EVENTn(nは整数)をキーにした辞書になっている.値はタブ区切りでフォーマットはhttps://code.google.com/p/zunda/ を参考

            "zunda": {
                "#EVENT0": "14\twr:筆者\t非未来\t0\t叙述\t成立\t0\t0", 
                "#EVENT1": "19\twr:筆者\t非未来\t0\t叙述\t成立\t0\t0"
            }

KNP中にもその単語(*+はついてない行)の後に#EVENTnタブの後につけている.

建て たて 建てる 動詞 2 * 0 母音動詞 1 基本連用形 8 "代表表記:建てる/たてる 可能動詞:建つ/たつ 自他動詞:自:建つ/たつ" <代表表記:建てる/たてる><可能動詞:建つ/たつ><自他動詞:自:建つ/たつ><正規 化代表表記:建てる/たてる><かな漢字><活用語><自立><内容語><タグ単位始><文節始><文節主辞>\t#EVENT0

normalizeNumexpのフォーマット

normalizeNumexpは以下の様なリストと辞書構造にした

  "nn": [
                {
                    "end": 3,                # 終了位置
                    "expression": "8世紀",   # 表層の単語
                    "lower": "0701-XX-XX",   # 正規化後の下限
                    "opt": "", 
                    "start": 0,              # 開始位置
                    "type": "abstime",       # 数量表現の種類
                    "unit": "none",          # 数量表現の単位
                    "upper": "0800-XX-XX"    # 正規化後の上限
                }
  ],

詳しくは http://www.cl.ecei.tohoku.ac.jp/~katsuma/software/normalizeNumexp/explain.html を参考

このリストのインデックスをKNPの文節*の末尾にタブの後付与している.

共参照解析

KNPから取ってこれる.http://www.lr.pi.titech.ac.jp/~sasano/knp/anaphora.html を参考

  • 同じEIDが同じものを指している,らしい
$ echo "麻生太郎が本を買った.その本は面白かった" | juman | knp -tab -case -anaphora
# S-ID:1 KNP:4.11-CF1.1 DATE:2014/07/02 SCORE:-1018.59992
* 2D <文頭><人名><ガ><助詞><体言><係:ガ格><区切:0-0><格要素><連用要素><正規化代表表記:麻生/あそう?麻生/あさお+太郎/たろう><主辞代表表記:太郎/たろう>
+ 1D <文節内><係:文節内><文頭><人名疑><地名疑><体言><名詞項候補><先行詞候補><正規化代表表記:麻生/あそう?麻生/あさお><照応詞候補:麻生><EID:0>
麻生 あそう 麻生 名詞 6 人名 5 * 0 * 0 "人名:日本:姓:135:0.00166 疑似代表表記 代表表記:麻生/あそう" <人名:日本:姓:135:0.00166><疑似代表表記><代表表記:麻生/あそう><正規化代表表記:麻生/あそう? 麻生/あさお><品曖><ALT-麻生-あさお-麻生-6-4-0-0-"代表表記:麻生/あさお 地名:日本:神奈川県:区"><地名:日本:神奈川県:区><品曖-人名><品曖-地名><原形曖昧><文頭><漢字><かな漢字><名詞相当語><自立><内容語><タグ単位始><文節始><固有キー>
+ 3D <人名><ガ><助詞><体言><係:ガ格><区切:0-0><格要素><連用要素><名詞項候補><先行詞候補><SM-人><SM-主体><正規化代表表記:太郎/たろう><Wikipedia上位語:政治家><Wikipediaエントリ:麻生太郎><照応詞候補:麻生太郎><解析格:ガ><EID:1>
太郎 たろう 太郎 名詞 6 人名 5 * 0 * 0 "人名:日本:名:45:0.00106 疑似代表表記 代表表記:太郎/たろう" <人名:日本:名:45:0.00106><疑似代表表記><代表表記:太郎/たろう><正規化代表表記:太郎/たろう><Wikipedia上位語:政治家:0-1><Wikipediaエントリ:麻生太郎:0-1><漢字><かな漢字><名詞相当語><自立><複合←><内容語><タグ単位始><固有キー><文節主辞>
が が が 助詞 9 格助詞 1 * 0 * 0 NIL <かな漢字><ひらがな><付属>
* 2D <ヲ><助詞><体言><一文字漢字><係:ヲ格><区切:0-0><格要素><連用要素><正規化代表表記:本/ほん><主辞代表表記:本/ほん>
+ 3D <ヲ><助詞><体言><一文字漢字><係:ヲ格><区切:0-0><格要素><連用要素><名詞項候補><先行詞候補><正規化代表表記:本/ほん><照応詞候補:本><解析格:ヲ><COREFER_ID:1><EID:2><述語項構造:本/ほん:名1:ノ/O/麻生太郎/1>
本 ほん 本 名詞 6 普通名詞 1 * 0 * 0 "代表表記:本/ほん 漢字読み:音 カテゴリ:人工物-その他;抽象物" <代表表記:本/ほん><漢字読み:音><カテゴリ:人工物-その他;抽象物><正規化代表表記:本/ほん><漢字><かな漢字><名詞相当語><自立><内容語><タグ単位始><文節始><文節主辞>
を を を 助詞 9 格助詞 1 * 0 * 0 NIL <かな漢字><ひらがな><付属>
* 5D <時制-過去><句点><引用内文末><用言:動><係:文末><レベル:C><区切:5-5><ID:(文末)><提題受:30><格要素><連用要素><動態述語><正規化代表表記:買う/かう><主辞代表表記:買う/かう>
+ 6D <時制-過去><句点><引用内文末><用言:動><係:文末><レベル:C><区切:5-5><ID:(文末)><提題受:30><格要素><連用要素><動態述語><正規化代表表記:買う/かう><用言代表表記:買う/かう><主題格:一人称優 位><格関係1:ガ:太郎><格関係2:ヲ:本><格解析結果:買う/かう:動17:ガ/C/太郎/1/0/1;ヲ/C/本/2/0/1;ニ/U/-/-/-/-;ト/U/-/-/-/-;デ/U/-/-/-/-;カラ/U/-/-/-/-;ヨリ/U/-/-/-/-;マデ/U/-/-/-/-;ヘ/U/-/-/-/-;時間/U/-/-/-/-;外の関係/U/-/-/-/-;修飾/U/-/-/-/-;ノ/U/-/-/-/-;トスル/U/-/-/-/-;ガ2/U/-/-/-/-;ニヨル/U/-/-/-/-;ニツク/U/-/-/-/-;ニナラブ/U/-/-/-/-;ニアワセル/U/-/-/-/-;ニツヅク/U/-/-/-/-><EID:3><述語項構造:買う/かう:動17:ガ/C/麻生太郎/1;ヲ/C/本/2>
買った かった 買う 動詞 2 * 0 子音動詞ワ行 12 タ形 10 "代表表記:買う/かう ドメイン:家庭・暮らし;ビジネス 反義:動詞:売る/うる" <代表表記:買う/かう><ドメイン:家庭・暮らし;ビジネス><反義:動詞:売る/うる><正規化代表表記:買う/かう><かな漢字><活用語><自立><内容語><タグ単位始><文節始><文節主辞>
. . . 特殊 1 句点 1 * 0 * 0 NIL <英記号><記号><付属>
* 4D <引用内文頭><連体修飾><連体詞形態指示詞><係:連体><区切:0-4><正規化代表表記:その/その><主辞代表表記:その/その>
+ 5D <引用内文頭><連体修飾><連体詞形態指示詞><係:連体><区切:0-4><正規化代表表記:その/その><EID:4>
その その その 指示詞 7 連体詞形態指示詞 2 * 0 * 0 "疑似代表表記 代表表記:その/その" <疑似代表表記><代表表記:その/その><正規化代表表記:その/その><かな漢字><ひらがな><自立><内容語><タグ単位始><文節始><文節主辞>
* 5D <ハ><助詞><体言><一文字漢字><係:未格><提題><区切:3-5><主題表現><格要素><連用要素><正規化代表表記:本/ほん><主辞代表表記:本/ほん>
+ 6D <ハ><助詞><体言><一文字漢字><係:未格><提題><区切:3-5><主題表現><格要素><連用要素><名詞項候補><先行詞候補><正規化代表表記:本/ほん><照応詞候補:本><解析格:ガ><C用;【本】;=;0;2;9.99:1(同一文):2文節><共参照><COREFER_ID:1><EID:2>
本 ほん 本 名詞 6 普通名詞 1 * 0 * 0 "代表表記:本/ほん 漢字読み:音 カテゴリ:人工物-その他;抽象物" <代表表記:本/ほん><漢字読み:音><カテゴリ:人工物-その他;抽象物><正規化代表表記:本/ほん><漢字><かな漢字><名詞相当語><自立><内容語><タグ単位始><文節始><文節主辞>
は は は 助詞 9 副助詞 2 * 0 * 0 NIL <かな漢字><ひらがな><付属>
* -1D <文末><時制-過去><用言:形><レベル:C><区切:5-5><ID:(文末)><提題受:30><主節><状態述語><正規化代表表記:面白い/おもしろい><主辞代表表記:面白い/おもしろい>
+ -1D <文末><時制-過去><用言:形><レベル:C><区切:5-5><ID:(文末)><提題受:30><主節><状態述語><正規化代表表記:面白い/おもしろい><用言代表表記:面白い/おもしろい><主題格:一人称優位><格関係5:ガ:本><格解析結果:面白い/おもしろい:形37:ガ/N/本/5/0/1;ニ/U/-/-/-/-;デ/U/-/-/-/-;ヨリ/U/-/-/-/-;マデ/U/-/-/-/-;時間/U/-/-/-/-;外の関係/U/-/-/-/-;修飾/U/-/-/-/-;ノ/U/-/-/-/-;ガ2/U/-/-/-/-;トスル/U/-/-/-/-;ニカンスル/U/-/-/-/-;ニツク/U/-/-/-/-;ニトル/U/-/-/-/-><EID:5><述語項構造:面白い/おもしろい:形1:ガ2/N/本/2;ガ/O/麻生太郎/1>
面白かった おもしろかった 面白い 形容詞 3 * 0 イ形容詞アウオ段 18 タ形 8 "代表表記:面白い/おもしろい 反義:形容詞:つまらない/つまらない" <代表表記:面白い/おもしろい><反義:形容詞:つまらない/つ まらない><正規化代表表記:面白い/おもしろい><文末><表現文末><かな漢字><活用語><自立><内容語><タグ単位始><文節始><文節主辞>
EOS

JSONデータのフォーマット

JSONデータはdata/RITEVAL_JA_training/json/*.(拡張子).jsonにおいているので適当にとってもらってもよい.

拡張子リスト

それぞれベースとなるデータ(順不同)

  • FV/RITE2_JA_dev_examsearch.xml (t2)
  • FV/RITE2_JA_testlabel_examsearch.xml (t2)
  • SV/RITE2_JA_dev_bc.xml (t1, t2)
  • SV/RITE2_JA_dev_unittest.xml (t1, t2)
  • SV/RITE2_JA_testlabel_mc.xml (t1, t2)
  • SV/RITE2_JA_dev_exambc.xml (t1, t2)
  • SV/RITE2_JA_testlabel_bc.xml (t1, t2)
  • SV/RITE2_JA_testlabel_unittest.xml (t1, t2)
  • SV/RITE2_JA_dev_mc.xml (t1, t2)
  • SV/RITE2_JA_testlabel_exambc.xml (t1, t2)
⚠️ **GitHub.com Fallback** ⚠️