手法の比較 - HigashiKed/patent_prior-art_search GitHub Wiki
pke
EmbedRank
- ベクトルベース
- Word2VecとDoc2Vecの比較なので単純
- TFやIDFが考慮されていない
- ダイバーシティが低い
- 教師なし
TextRank
- グラフベースの手法
- 相互に関連度の高い語句は重要度が高いという仮定のもと
- 共起回数考慮しない
- ダイバーシティが低い
- 教師なし
SingleRank
PositionRank
TopicRank
- グラフベースの手法
- クエリに出現するwordをTopicに分類する
- 重要Topicの判断可能
- TFIDF考慮されていない
- クラスタリング方法が重要
- 既存のままではjaccard係数で決まる
- TF考慮されている
- Topicレベルの順位付け
- キーワード抽出に不向き
- ダイバーシティが低い
- 教師なし
MultipartiteRank
- グラフベース手法
- 文の最初の方に出現する単語ほど重要という仮定のもと
- ダイバーシティが高い
- Topicの決定方法が重要
- 教師なし
先輩