Результаты выбора лучшего алгоритма на Яндекс Толоке - selivanov-as/ml-text-highlights GitHub Wiki
Мы провели 7 сравнений по олимпийской системе. Перекрытие для четвертьфиналов - 10, для полуфиналов и финала - 15. Из результата отфильтровывались быстрые ответы, ответы непоследовательных пользователей и тех, кто ошибался на контрольных примерах. P-value находили двустороннее по биномиальному распределению с нулевой гипотезой, состоящей в том, что разницы нет (p = 0.5). Результаты в таблице
Стадия | Соперники | Счет после фильтров | p-value | победитель | Подробнее | Пул |
---|---|---|---|---|---|---|
¼ | random_good – tf_idf_custom | 94-138 | 0.00465 | tf_idf_custom | link | 4657493 |
¼ | embeddings – gensim_sentences | 111-93 | 0.23387 | embeddings | link | 4663821 |
¼ | sumy_lsa – tf_idf_embeddings | 95-173 | 0.00000 | tf_idf_embeddings | link | 4663981 |
¼ | gensim_keywords – tf_idf_wiki | 16-140 | 0.00000 | tf_idf_wiki | link | 4664187 |
½ | embeddings – tf_idf_custom | 160-188 | 0.14769 | tf_idf_custom | link | 4676712 |
½ | tf_idf_embeddings – tf_idf_wiki | 174-134 | 0.02611 | tf_idf_embeddings | link | 4678199 |
финал | tf_idf_custom – tf_idf_embeddings | 140-204 | 0.00066 | tf_idf_embeddings | link | 4679857 |
-------- | -------- | -------- | -------- | -------- | -------- | -------- |
финал реванш | tf_idf_custom – tf_idf_embeddings; same digits | 142-94 | 0.00215 | tf_idf_custom | link | 4827742 |
pos or not pos | tf_idf_custom – tf_idf_pos | 57-135 | 0.00000 | tf_idf_pos | link | 4835963 |
tfidf share=? | tf_idf_pos - tf_idf_pos_share_02 | 183-93 | 0.00000 | tf_idf_pos (share=0.3) | link | 4920042 |
tfidf share=? | tf_idf_pos - tf_idf_pos_share_04 | 70-242 | 0.00000 | tf_idf_pos_share_04 | link | 4922170 |
tfidf share=? | tf_idf_pos_share_04 - tf_idf_pos_share_05 | 37-239 | 0.00000 | tf_idf_pos_share_05 | link | 5002449 |
tfidf share=? | tf_idf_pos_share_05 - tf_idf_pos_share_06 | 92-156 | 0.00006 | tf_idf_pos_share_06 | link | 5005987 |
tfidf share=? | tf_idf_pos_share_06 - tf_idf_pos_share_07 | 65-127 | 0.00001 | tf_idf_pos_share_07 | link | 5015650 |
tfidf share=? | tf_idf_pos - tf_idf_pos_share_07 | 139-113 | 0.11511 | ?(tf_idf_pos) | link | 5016225 |