20201013時点での概要 - HigashiKed/patent_prior-art_search GitHub Wiki
やりたいこと
先行特許検索の精度向上
→今までelasticsearchの検索クエリに使うワードを良いものにすれば良いと考えていた
→特許文書をそのままクエリにするのではなく、要約/キーワード抽出する
→広田さん:Topic分割してキーワード選ぶ
ただ、最適なクエリを選出する方法を考えていない
問題 先行特許検索システムではクエリは機械的に生成されるため、iDFがどうなるかは未知数である 人手で行う場合、経験からヒット率を調整し何度も試す
課題 iDFを制御する(=クエリのヒット率を上げる)クエリを生成する
データセット
clefデータセット
手順
- 文書の中からiDFの高い単語を見つけ、あまりにもiDFが低い/高い単語は除外する(500-1000単語くらいが良いのでは?)
- クエリを生成
- iDFを得る
- 合成
を繰り返す
- クエリの伸び代が無くなったら(笑)終了
1.選出された単語から1つずづandかorで繋ぐ
評価方法
未定