議事録 - RITE-VAL/BIUTEE GitHub Wiki

2014/07/29

歴史用語(大内担当)

  • http://ja.wikipedia.org/wiki/Category:%E6%97%A5%E6%9C%AC%E3%81%AE%E6%AD%B4%E5%8F%B2
  • 歴史用語は大きく分けて,(1)政治史,(2)文化史,(3)経済史.
  • 上記のURLを辿って用語集を作成.
  • (1)政治史は,miraiと結構かぶりそう.西暦が重要.
  • (2)文化史は,有名な建物や物が何時代のものかが重要.西暦がわからなくても何時代に属するかという粒度でも良さそう.

2014/07/28

data

出来事、人物、年号、歴史用語に西暦を付与 西暦4桁
e.g.

hoge 1242 1252 
fuga 1300 1300
hogefuga -150000 -145000

n-gram

被覆が最大になるようにtを拡張 {'': [上位、下位、類義、同義]、'': [矛盾]}

word2vec

hに含まれる語とtに含まれる語の中での最大のsimを使う

hとtの比較

tを1文ではなく、1pageで。

2014/07/15

検索

クエリの投げ方
  1. 固有名詞でtitle
  2. 固有名詞でtext
  3. 名詞でtext
todo
  1. 仮説に含まれる名詞と固有名詞のリストを作成
  2. 1のリストからbest-1のページをKNPで解析しSolarに戻す。

素性

一つの仮説を、複数のテキストで含意する場合を考慮して、各素性の対象を、一文対一文、一文対複数文、一文対一ページなどで、関数の値を求めることを考慮する必要がある。(素性ごとにわけてもいいかも...)

2014/06/27

  1. 文書集合Dからテキスト集合(文書)S∈Dを検索
  2. ルールベースで、明らかな誤りを取り除きS*⊆Sを得る
  • 限定表現、数量表現、etc
  1. hとS*の含意関係認識
  2. 前処理
    * すべての文をsimpleな文に分割(元文と短文に分割したものを分けて保存)
    • 共参照の置き換え
    • cabochaの係り受け、ChaPASの述語項構造
    • モダリティ(事実性を述語に付与)zunda
    • 時間表現(Time expression)(normalizeNumexp??)
  3. ルールベースで弾く * 固有表現(時間表現は除く) hが持ってて、すべてのt∈Sがないとき * 数量表現 hが持ってて、すべてのt∈Sがないとき * 限定表現 hが持ってて、すべてのt∈S*がないとき
* 分類器で分類(過去データを利用)SVM   
  * 単語アライメントから類似度を求める(アライメントと類似度のスコア)(http://research.nii.ac.jp/ntcir/workshop/OnlineProceedings10/pdf/NTCIR/RITE/20-NTCIR10-RITE2-AndradeD.pdf)
  * 述語項構造のアライメントから類似度を求める(類似度のスコアのみ)
  * ベーシックな素性
  1. 学習した分類器で今回のデータをアノテーションする。
  2. 自動付与 * True positive, false negative をそれぞれ、正例、負例
  3. 能動学習

2014/06/25

検索関連

検索クエリの投げ方

  1. 固有名詞がタイトルに完全一致するページを取る.
  2. 固有名詞がない場合,idfが高いものを除いた名詞で検索.(AND, ORの順で検索).上位10件くらい.

素性