20201008 - HigashiKed/patent_prior-art_search GitHub Wiki

論文案

東さんの卒論の観点で研究課題を再考しているところですが,multi-partite rank と広田案とも異なる案・観点として,以下のような案はありそう(卒論にするなら取り組みやすそうな部分を切り出す等).
[課題定義] 検索結果のtop-k 件の文書スコアの総和を最大化するようなクエリ q を決定する(これを検索精度と呼ぶ).
[前提]
クエリq はクエリ文書Qに含まれる単語集合(w1,...,wn)から構成する.例えば,q = w1 or w2 and w3 など.
文書スコアは TFiDF(q, d) で計算する(ここは変更する必要があるかもしれないが,一旦はTFiDFを仮定しておく)
[この問題の難しさ]
クエリ文書Q内におけるTFが高く,且つ検索対象の文書集合 D においてiDFが高い単語を2つ選んで(A, B) "A or B" のクエリを作ることを考えると,A のクエリ結果と B のクエリ結果の両方に含まれる文書集合が生じてしまう(つまり,iDF(A)+iDF(B)>iDF(A or B) ).なので,高い検索精度が出せそうな個々の単語を探して or で繋げるだけでは,上手く行かない.この状況は A and B の場合も同様.
[既存技術との関係]
実際に,実務で特許検索を行う場合,クエリ特許内の代表的な単語でまず検索して,ヒット数が多すぎる場合には,適宜他の単語を見つけて,A and B という条件でヒット数を減らすことで,上位 k 件内の精度をヒューリスティックに上げている.なので,正確に iDF を見積もることが重要である.
従来技術において検索条件の diversity を入れている理由は,A のクエリ結果と B のクエリ結果の両方に含まれる文書集合を減らすため,と捉えることはできそう.
[課題に対するアプローチ]
and/or 条件を含んだクエリに対してより正確に iDF を計算する必要がある.ここについては cardinality estimationの技術をそのまま利用可能そう(伊藤君の研究テーマ).但し,cardinality estimation は複雑なクエリの iDF を計算できるが,top-k 番目にヒットする文書のTF値は予測できないため,検索精度の予測はできない.1) 単純な案は,TFiDF ではなくiDFだけによる値でbottom-up 戦略の探索を行う.2) 少し改良した案としては,各単語ごとに全文書集合における平均TFを記録してこれを利用する方法が考えられる.3) ベストな案としては,現在はiDF が予測できるので,拡張すればTFiDF の予測もできる可能性はありそう(明らかに簡単ではないが).
クエリq をクエリ文書Qに含まれる単語集合から構成する必要があり,探索範囲がかなり広大なので greedy に探索する必要がある. 基本的には bottom-up 戦略になりそう.つまり,個々の単語をクエリとする解から探索し,クエリ and/or クエリに合成して,検索精度が上がる方向にクエリ合成を続ける.クエリを合成する際には単語の共起頻度の情報を利用することで,合成の候補を減らすことができる. [制約事項]
解の探索をgreedy に行っているが,よりきちんと探索する方法も考えられそう.
検索スコア(top-k 文書のTFiDFの総和)と正解セットに対するnDCGとは,高い相関があると仮定しているが,実際には正確には分からない.これは,そもそも検索タスクの難しさの原因の1つと思われる.
[補足]
multi-partite rank との関係: 1単語から検索クエリを構成すること,共起情報を活用する点は共通.
広田案との関係: 広田案ではクエリ特許をブロック分割して,複数ブロックにおけるiDFを利用して単語を選択している.提案手法では本来のiDF(検索対象に対するiDF)を利用している.

TFiDF と nDCG の相関はあると言ってよさそうではある.

ここの根拠の論文読んでおく

TFiDF と nDCG の相関示す必要がある.