先輩修論 - HigashiKed/patent_prior-art_search GitHub Wiki

Introduction

特許先行技術検索(先行技術検索)は、特定の特許文書に関連する特許文書を見つけるタスクです。
先行技術の検索は、関連性に従ってドキュメントをランク付けします。 情報検索(たとえば、Web検索)の多くの研究は、トークンの短いクエリシーケンスとコレクションドキュメントの間の関連性の推定に焦点を当てています。ただし、ドキュメント間の関連性の推定に取り組んでいる研究はほとんどありません。
従来技術の検索における課題は、(1)クエリ内の複数のトピックをどのように処理するか、および(2)クエリ結果の品質に寄与するトークンの効果をどのように高めるかです。
論文はこれらの2つの問題に取り組んでいます。

Proposed Method

先行技術の検索は、クエリドキュメントを入力し、関連するドキュメントを出力します。 提案された方法は、クエリドキュメントのパーティション化、各パーティションでのトークンの重み付け、ドキュメントのスコアリング、および各パーティションの関連性スコアの集計の4つの部分で構成されます。

クエリドキュメントをセマンティックユニットに分割するために、提案された方法はTextTiling [1]を採用しています。 TextTilingは、ギャップの前後のセンテンス間の類似性が低いギャップによってセンテンスを分割します。 i番目のギャップの類似度スコアは、Bag-of-Wordsベクトル間のコサイン類似度として定義され、次のように計算されます。
ここで、hはウィンドウパラメータ、siはi番目の文のBag-ofWordsベクトルです。

次のステップはトークンの重み付けです。 私たちの仮定は、そのコンテキストでの予期しないトークンの出現は、トークンの重要性を意味するということです。 提案された方法は、トークンwの重みを1 / Pw(n)として定義します。ここで、Pw(n)は、トークンwがウィンドウにn回出現する可能性です。 ウィンドウサイズはパラメータです

提案された方法は、wがn回出現する確率が1/2の比率で減少することを前提としています。 この比率1/2は、教会の観察から導き出されています[3]。 したがって、Pn(w)は次のように計算されます。

(2)において、p0(w)はトークンwが最初に出現する確率を示します。 提案された方法は、それを次のように計算された逆ドキュメント頻度として定義します。

トークンの逆ドキュメント頻度は、トークンの予期しない程度を示します。 したがって、(2)の尤度関数に逆ドキュメント頻度を組み込むことにより、この関数は、単一ドキュメントレベルに加えて、コレクションレベルで予期しないトークンを検出することができます。

Experiments

提案手法の有効性を評価するために、top-k(k = 5、10、20、30、100)のリコール値を評価します(表1)。 ベースラインは、TFIDFなどのキーワード抽出ベースの方法、Doc2vec(Le etal。2014)、Fuzzy Bag-of-Words(Zhelezniak etal。2019)などのembeddingベースの方法、および階層的ディリクレプロセス潜在的ディリクレ割り当て(HDP -LDA; Wang et al.2011)。 HDP-LDAは、CLEFデータセットで最高のスコア[2]を生成すると報告されました。 アスタリスクの付いたスコアは、HDP LDA(Wilcoxon符号順位検定)よりも統計的に有意な改善を意味します。 図1は、クエリドキュメントの処理の応答時間を示しています。 キーワード抽出ベースの方法(TFIDF、提案された方法)は、埋め込みベースの方法よりも大幅に少ない時間を消費します。 結果は提案手法の高効率を示している。


クエリを分割する。(前後の類似度が低くなったところ=論点が変わったところで分割)
トークンに重要度を与える。1/Pw(n)
Pw(n):同じ分割内でのそのトークンの出現頻度が高いほど小さく、コレクション内のそのトークンを含むドキュメントが多いほど大きい。
コレクション内でもレア、その分割内でもレアなトークンが重要。