議事録 - RITE-VAL/BIUTEE GitHub Wiki
2014/07/29
歴史用語(大内担当)
- http://ja.wikipedia.org/wiki/Category:%E6%97%A5%E6%9C%AC%E3%81%AE%E6%AD%B4%E5%8F%B2
- 歴史用語は大きく分けて,(1)政治史,(2)文化史,(3)経済史.
- 上記のURLを辿って用語集を作成.
- (1)政治史は,miraiと結構かぶりそう.西暦が重要.
- (2)文化史は,有名な建物や物が何時代のものかが重要.西暦がわからなくても何時代に属するかという粒度でも良さそう.
2014/07/28
data
出来事、人物、年号、歴史用語に西暦を付与
西暦4桁
e.g.
hoge 1242 1252
fuga 1300 1300
hogefuga -150000 -145000
- 出来事 mirai | http://ja.wikipedia.org/wiki/%E5%B9%B4%E8%A1%A8%E4%B8%80%E8%A6%A7
- 人物 mayo | 教科書から取得
- 歴史用語 ouchi
- 年号 omura | http://ja.wikipedia.org/wiki/%E6%97%A5%E6%9C%AC%E5%8F%B2%E6%99%82%E4%BB%A3%E5%8C%BA%E5%88%86%E8%A1%A8
n-gram
被覆が最大になるようにtを拡張 {'': [上位、下位、類義、同義]、'': [矛盾]}
word2vec
hに含まれる語とtに含まれる語の中での最大のsimを使う
hとtの比較
tを1文ではなく、1pageで。
2014/07/15
検索
クエリの投げ方
- 固有名詞でtitle
- 固有名詞でtext
- 名詞でtext
todo
- 仮説に含まれる名詞と固有名詞のリストを作成
- 1のリストからbest-1のページをKNPで解析しSolarに戻す。
素性
一つの仮説を、複数のテキストで含意する場合を考慮して、各素性の対象を、一文対一文、一文対複数文、一文対一ページなどで、関数の値を求めることを考慮する必要がある。(素性ごとにわけてもいいかも...)
2014/06/27
- 文書集合Dからテキスト集合(文書)S∈Dを検索
- ルールベースで、明らかな誤りを取り除きS*⊆Sを得る
- 限定表現、数量表現、etc
- hとS*の含意関係認識
- 前処理
* すべての文をsimpleな文に分割(元文と短文に分割したものを分けて保存)- 共参照の置き換え
- cabochaの係り受け、ChaPASの述語項構造
- モダリティ(事実性を述語に付与)zunda
- 時間表現(Time expression)(normalizeNumexp??)
- ルールベースで弾く * 固有表現(時間表現は除く) hが持ってて、すべてのt∈Sがないとき * 数量表現 hが持ってて、すべてのt∈Sがないとき * 限定表現 hが持ってて、すべてのt∈S*がないとき
* 分類器で分類(過去データを利用)SVM
* 単語アライメントから類似度を求める(アライメントと類似度のスコア)(http://research.nii.ac.jp/ntcir/workshop/OnlineProceedings10/pdf/NTCIR/RITE/20-NTCIR10-RITE2-AndradeD.pdf)
* 述語項構造のアライメントから類似度を求める(類似度のスコアのみ)
* ベーシックな素性
- 学習した分類器で今回のデータをアノテーションする。
- 自動付与 * True positive, false negative をそれぞれ、正例、負例
- 能動学習
2014/06/25
検索関連
検索クエリの投げ方
- 固有名詞がタイトルに完全一致するページを取る.
- 固有名詞がない場合,idfが高いものを除いた名詞で検索.(AND, ORの順で検索).上位10件くらい.