キーワード抽出 - HigashiKed/patent_prior-art_search GitHub Wiki

query_extraction.py

入力されたtextをstemmingする.
elasticsearchのanalyzerのmax_token_sizeは10000なので、sentenceに分割してから入力する

複数フィールドのTFiDFを求める

idf=log(1+(N-n+0.5)/(n+0.5))  └─ n:文書に含まれるtermの数、N:全文書数

descriontion.pのnd,Nd / abstract.pのna,Nd / claims.claimのnc,Nc

n = nd+na+nc N = max(Nd,Na,Nc)