Jeudi 23 04 2020 - lmichel/vo-grimoire GitHub Wiki

Jeudi 23/04/2020

Activités réalisées :

  • Etude de l'algorithme jwz
  • Implémentation de l'algorithme jwz
  • Explications des différents modules dans le wiki

Approfondissement Activités :

Etude de l'algorithme jwz :

Cet algorithme, open-source et créé il y'a plus de 10 ans et utilisé par de nombreux logiciels pour reconstruire les threads à partir d'une liste de mail. Il permet notamment de prendre en compte des erreurs tel que des mails qui références des mails inexistants.

Cet algorithme est plutôt complexe mais très rapide, il est donc plus judicieux de l'utiliser plutot que d'utiliser elastic search pour reconstruire les threads

Implémentation de l'algorithme jwz :

Je me suis inspiré de l'algorithme et de travaux existants pour comprendre et faire l'implémentation de cet algorithme J'ai suivi pas par pas les étapes décrites par l'algorithme pour arriver à un résultat fiable Cet algorithme est très rapide, mais sur ma machine virtuelle, il prend environ une minute à se faire. Néanmoins il persiste encore quelques problème dans la construction de ces threads, notamment par certains mail ne respectant pas la règle du Re: dans le Subject, et qui, du coup, sont mal indexés.

Explications des différents modules dans le wiki :

Ajout de pages pour expliquer les modules : downloader,threadingMails,elasticer,percevaler

Commentaire Personnels sur cette journée :

L'implémentation de l'algorithme n'était pas de tout repos, et j'ai mis du temps à comprendre comment implémenter les étapes.

Objectifs pour la suite :

  • Indexer les threads dans elasticSearch