Query performance prediction - HigashiKed/patent_prior-art_search GitHub Wiki
IRシステムがパフォーマンスの低いクエリをどのように処理するかを示します。 Cronen-Townsendらによって示されたように。[ 1 ]
クエリのパフォーマンスが低いと、IRシステムの有効性が大幅に低下します。 確かに、この問題はIR研究において重要になっています。 たとえば、2003年以降、TRECは新しいトラック、つまりRobust Trackを実施しました。これは、パフォーマンスの低いクエリの検索パフォーマンスを調査することを目的としています。 さらに、信頼性の高いクエリパフォーマンス予測子の使用は、クエリごとに最適な対応する検索戦略を決定するためのステップです。 たとえば、[ 2 ]では、クエリパフォーマンス予測子を使用することで、クエリ拡張の失敗を回避する選択的な意思決定方法を考案することができました。
この論文では、検索プロセスが行われる前に計算できる一連の予測子について検討します。
検索プロセスとは、IRシステムが反転ファイルをスキャンしてクエリ用語を探し、検索された各ドキュメントに関連性スコアを割り当てるプロセスを指します。実験結果は、提案された予測子のいくつかがクエリのパフォーマンスと有意な相関関係があることを示しています。したがって、これらの予測子は実際のアプリケーションに適用できます。
クエリパフォーマンスの6つの検索前予測子を提案します。Query length / The distribution of informative amount in the query terms / Query scope / Query clarity /Average inverse collection term frequency
ql, γ1, γ2, ω, SCS, AvICTF
Query length クエリの長さ
クエリの長さは、クエリの重要な特性である。 [ 4 ],[ 5 ],[ 6 ]
- ql
クエリの長さ = クエリ内のストップワードを除いた数
The distribution of informative amount in the query terms 有益な量の分布
- γ1 定義1
= Qの項のidfの標準偏差 - γ2 定義2
Query scope
nQ = クエリ用語の少なくとも1つを含むドキュメントの数, N = コレクション全体のドキュメントの数
Query clarity
クエリの明確さは、クエリのあいまいさに反比例
,
qtf: クエリ内のクエリ用語の出現回数, ql: クエリの長さ, tfcoll:コレクション全体でのクエリ用語の出現数, tokencoll:コレクション全体でのトークン
Average inverse collection term frequency
SCSの式で与えられる単純化された明快さスコアの定義。inverse collection term frequency (ICTF)に似ている。
AvICTFの定義は
tfcoll:コレクション全体でのクエリ用語の出現数, tokencoll:コレクション全体でのトークンの数
3
各予測子の線形相関rと実際のクエリパフォーマンス、およびこの相関に関連付けられたp値を測定します
データセット
- 短いクエリ:タイトルのみが使用される
- 通常のクエリ:説明のみが使用される
- 長いクエリ:3つのフィールドすべてが使用される
3.2 結果の議論
- クエリの長さ:クエリの長さは平均精度と非常に弱い相関関係にある.
NormalクエリにPL2を使用する場合を除いて、平均精度との有意な線形相関はない.PL2は、依然として非常に弱い相関によって統計的に有意. - γ1:すべての場合において平均精度と有意な線形相関があります。
=idfは平均精度と相関がある.また、通常のクエリと長いクエリの相関が短いクエリの相関よりも強い. - γ2:平均精度との相関は、すべての場合に重要ではありません。
- ω:クエリスコープ(定義4を参照)は、平均精度との線形相関であり、短いクエリと通常のクエリで重要.
ただし、クエリの長さが長くなると、その効果は低下します。おそらくこれは、クエリが長くなると、クエリスコープが安定する傾向があるためです。図1はこの仮定を裏付けています。通常のクエリと長いクエリの方が、短いクエリよりも明らかに安定していることがわかります。 - SCS:すべての状況で平均精度と有意な線形相関がある.クエリの長さが長くなると、統計的に有意ではありますが、相関は弱くなります。
- AvICTF:SCSと同様のパフォーマンスを実現する.
6.結論
クエリのパフォーマンスについて、6つの検索前予測子を調査しました。予測子は、取得プロセスが実行される前に生成できます。これは、クエリのパフォーマンス予測に対する現在のアプローチよりも実用的です。 予測子の線形相関とノンパラメトリック相関を平均的な精度で測定しました。結果によると、クエリの種類は予測子の有効性に重要な影響を及ぼします。提案された6つの予測子の中で、明快さスコア(SCS)の簡略化された定義と平均逆収集項頻度(AvICTF)は、短いクエリの平均精度と最も強い相関関係があります。 idf()、SCS、およびAvICTFの標準偏差は、通常のクエリと長いクエリの平均精度と最も相関しています。また、クエリモデルを平滑化することでSCSを改善できることも示しました。予測子の生成の複雑さを考慮に入れると、SCS、AvICTFは、実際のアプリケーションに役立ちます。さらに、結果によると、2つの統計的に多様なドキュメントの重み付けモデルを使用しても、提案された予測子の全体的な有効性に影響はありません。