Lundi 20 04 2020 - lmichel/vo-grimoire GitHub Wiki

Lundi 20/04/2020

Activités réalisées :

  • Ajout cohérent d'attributs dans les index ElasticSearch
  • Renseignement sur la constitution de Thread et Discussions à partir de .mbox
  • Commencement de la mise à jour incrémentale

Approfondissement Activités :

Ajout cohérent d'attributs :

Dans l'index, j'ai notamment ajouté la date du mail au format timestamp, le nom du Thread (si il y a), l'index du message dans le Thread, les références du mail, et le body du mail

Renseignement sur la constitution de Threads et Discussions

J'ai recherché comment stocker dans ElasticSearch le principe de Thread, dans chaque mail, un attribut reply-to permet de savoir à qui la personne a répondu avec son mail, ce qui me permettra par la suite de créer un index avec possiblement des liens entre chaques mails pour reconstruire les threads.

Commencement de la mise à jour incrémentale

Pour mettre à jour les index d'elastic search, il est nécessaire de stocker la date de création de chaque mail, ce qui m'a pris du temps sachant que le format n'est pas le même pour toutes les archives. J'ai donc décidé de stocker le timestamp du message, qui est un format universel et facile à récuperer.

Commentaires Personels sur cette journée

Aujourd'hui était plutôt une journée de compréhension d'elasticSearch, effectuer des requêtes et modifier les index pour voir son fonctionnement. J'ai notamment passé beaucoup de temps à comprendre la structure des mails dans le fichier .mbox, où chaque mail n'a pas le même nombre d'attributs

Objectifs pour la suite

  • Continuer la mise à jour incrémentale
  • Rechercher comment construire un index de Threads