手法の比較 - HigashiKed/patent_prior-art_search GitHub Wiki

pke

EmbedRank

  • ベクトルベース
  • Word2VecとDoc2Vecの比較なので単純
  • TFやIDFが考慮されていない
  • ダイバーシティが低い
  • 教師なし

TextRank

  • グラフベースの手法
  • 相互に関連度の高い語句は重要度が高いという仮定のもと
  • 共起回数考慮しない
  • ダイバーシティが低い
  • 教師なし

SingleRank

PositionRank

TopicRank

  • グラフベースの手法
  • クエリに出現するwordをTopicに分類する
  • 重要Topicの判断可能
  • TFIDF考慮されていない
  • クラスタリング方法が重要
  • 既存のままではjaccard係数で決まる
  • TF考慮されている
  • Topicレベルの順位付け
  • キーワード抽出に不向き
  • ダイバーシティが低い
  • 教師なし

MultipartiteRank

  • グラフベース手法
  • 文の最初の方に出現する単語ほど重要という仮定のもと
  • ダイバーシティが高い
  • Topicの決定方法が重要
  • 教師なし

先輩

  • クエリを分割する
  • IDF考慮