20201013時点での概要 - HigashiKed/patent_prior-art_search GitHub Wiki

やりたいこと

先行特許検索の精度向上
→今までelasticsearchの検索クエリに使うワードを良いものにすれば良いと考えていた
   →特許文書をそのままクエリにするのではなく、要約/キーワード抽出する
   →広田さん:Topic分割してキーワード選ぶ

ただ、最適なクエリを選出する方法を考えていない

問題 先行特許検索システムではクエリは機械的に生成されるため、iDFがどうなるかは未知数である 人手で行う場合、経験からヒット率を調整し何度も試す

課題 iDFを制御する(=クエリのヒット率を上げる)クエリを生成する

データセット

clefデータセット

手順

  1. 文書の中からiDFの高い単語を見つけ、あまりにもiDFが低い/高い単語は除外する(500-1000単語くらいが良いのでは?)
    • クエリを生成
    • iDFを得る
    • 合成
      を繰り返す
  2. クエリの伸び代が無くなったら(笑)終了

1.選出された単語から1つずづandかorで繋ぐ

評価方法

未定

20201013.pdf