Результаты выбора лучшего алгоритма на Яндекс Толоке - selivanov-as/ml-text-highlights GitHub Wiki

Мы провели 7 сравнений по олимпийской системе. Перекрытие для четвертьфиналов - 10, для полуфиналов и финала - 15. Из результата отфильтровывались быстрые ответы, ответы непоследовательных пользователей и тех, кто ошибался на контрольных примерах. P-value находили двустороннее по биномиальному распределению с нулевой гипотезой, состоящей в том, что разницы нет (p = 0.5). Результаты в таблице

Стадия Соперники Счет после фильтров p-value победитель Подробнее Пул
¼ random_good – tf_idf_custom 94-138 0.00465 tf_idf_custom link 4657493
¼ embeddings – gensim_sentences 111-93 0.23387 embeddings link 4663821
¼ sumy_lsa – tf_idf_embeddings 95-173 0.00000 tf_idf_embeddings link 4663981
¼ gensim_keywords – tf_idf_wiki 16-140 0.00000 tf_idf_wiki link 4664187
½ embeddings – tf_idf_custom 160-188 0.14769 tf_idf_custom link 4676712
½ tf_idf_embeddings – tf_idf_wiki 174-134 0.02611 tf_idf_embeddings link 4678199
финал tf_idf_custom – tf_idf_embeddings 140-204 0.00066 tf_idf_embeddings link 4679857
-------- -------- -------- -------- -------- -------- --------
финал реванш tf_idf_custom – tf_idf_embeddings; same digits 142-94 0.00215 tf_idf_custom link 4827742
pos or not pos tf_idf_custom – tf_idf_pos 57-135 0.00000 tf_idf_pos link 4835963
tfidf share=? tf_idf_pos - tf_idf_pos_share_02 183-93 0.00000 tf_idf_pos (share=0.3) link 4920042
tfidf share=? tf_idf_pos - tf_idf_pos_share_04 70-242 0.00000 tf_idf_pos_share_04 link 4922170
tfidf share=? tf_idf_pos_share_04 - tf_idf_pos_share_05 37-239 0.00000 tf_idf_pos_share_05 link 5002449
tfidf share=? tf_idf_pos_share_05 - tf_idf_pos_share_06 92-156 0.00006 tf_idf_pos_share_06 link 5005987
tfidf share=? tf_idf_pos_share_06 - tf_idf_pos_share_07 65-127 0.00001 tf_idf_pos_share_07 link 5015650
tfidf share=? tf_idf_pos - tf_idf_pos_share_07 139-113 0.11511 ?(tf_idf_pos) link 5016225