キーワード抽出 - HigashiKed/patent_prior-art_search GitHub Wiki
query_extraction.py
入力されたtextをstemmingする.
elasticsearchのanalyzerのmax_token_sizeは10000なので、sentenceに分割してから入力する
複数フィールドのTFiDFを求める
idf=log(1+(N-n+0.5)/(n+0.5)) └─ n:文書に含まれるtermの数、N:全文書数
descriontion.pのnd,Nd / abstract.pのna,Nd / claims.claimのnc,Nc
n = nd+na+nc N = max(Nd,Na,Nc)