20201008 - HigashiKed/patent_prior-art_search GitHub Wiki

論文案

東さんの卒論の観点で研究課題を再考しているところですが，multi-partite rank と広田案とも異なる案・観点として，以下のような案はありそう(卒論にするなら取り組みやすそうな部分を切り出す等）．
[課題定義] 検索結果のtop-k 件の文書スコアの総和を最大化するようなクエリ q を決定する（これを検索精度と呼ぶ）．
[前提]
クエリq はクエリ文書Qに含まれる単語集合(w1,...,wn)から構成する．例えば，q = w1 or w2 and w3 など．
文書スコアは TFiDF(q, d) で計算する（ここは変更する必要があるかもしれないが，一旦はTFiDFを仮定しておく)
[この問題の難しさ]
クエリ文書Q内におけるTFが高く，且つ検索対象の文書集合 D においてiDFが高い単語を2つ選んで(A, B) "A or B" のクエリを作ることを考えると，A のクエリ結果と B のクエリ結果の両方に含まれる文書集合が生じてしまう(つまり，iDF(A)+iDF(B)>iDF(A or B) )．なので，高い検索精度が出せそうな個々の単語を探して or で繋げるだけでは，上手く行かない．この状況は A and B の場合も同様．
[既存技術との関係]
実際に，実務で特許検索を行う場合，クエリ特許内の代表的な単語でまず検索して，ヒット数が多すぎる場合には，適宜他の単語を見つけて，A and B という条件でヒット数を減らすことで，上位 k 件内の精度をヒューリスティックに上げている．なので，正確に iDF を見積もることが重要である．
従来技術において検索条件の diversity を入れている理由は，A のクエリ結果と B のクエリ結果の両方に含まれる文書集合を減らすため，と捉えることはできそう．
[課題に対するアプローチ]
and/or 条件を含んだクエリに対してより正確に iDF を計算する必要がある．ここについては cardinality estimationの技術をそのまま利用可能そう(伊藤君の研究テーマ)．但し，cardinality estimation は複雑なクエリの iDF を計算できるが，top-k 番目にヒットする文書のTF値は予測できないため，検索精度の予測はできない．1) 単純な案は，TFiDF ではなくiDFだけによる値でbottom-up 戦略の探索を行う．2) 少し改良した案としては，各単語ごとに全文書集合における平均TFを記録してこれを利用する方法が考えられる．3) ベストな案としては，現在はiDF が予測できるので，拡張すればTFiDF の予測もできる可能性はありそう(明らかに簡単ではないが)．
クエリq をクエリ文書Qに含まれる単語集合から構成する必要があり，探索範囲がかなり広大なので greedy に探索する必要がある．基本的には bottom-up 戦略になりそう．つまり，個々の単語をクエリとする解から探索し，クエリ and/or クエリに合成して，検索精度が上がる方向にクエリ合成を続ける．クエリを合成する際には単語の共起頻度の情報を利用することで，合成の候補を減らすことができる． [制約事項]
解の探索をgreedy に行っているが，よりきちんと探索する方法も考えられそう．
検索スコア（top-k 文書のTFiDFの総和）と正解セットに対するnDCGとは，高い相関があると仮定しているが，実際には正確には分からない．これは，そもそも検索タスクの難しさの原因の1つと思われる．
[補足]
multi-partite rank との関係: 1単語から検索クエリを構成すること，共起情報を活用する点は共通．
広田案との関係: 広田案ではクエリ特許をブロック分割して，複数ブロックにおけるiDFを利用して単語を選択している．提案手法では本来のiDF(検索対象に対するiDF)を利用している．

TFiDF と nDCG の相関はあると言ってよさそうではある．

ここの根拠の論文読んでおく

TFiDF と nDCG の相関示す必要がある.