resilience - Ataww/SDTD-Mazerunner Wiki

Tolérances aux pannes

Présentation générale

De manière globale, en plus des différents outils utilisés pour la résilience telle que Zookeeper ou HAproxy, cette stack dispose d'un serveur global pour la gestion des pannes. Ce serveur va avoir pour rôle de lancer de manière périodique des vérifications de statuts des différents services deployés. Selon les résultats obtenus, le service pourra être redémarré ou même installé sur une nouvelle machine. De plus pour permettre un suivi facile des erreurs de fonctionnement des statuts, un mail est envoyé dès lors qu'une erreur est détectée. Dans le message du mail est indiqué si l'erreur a pu être résolue de manière automatique.

Infrastructure mise en place

Interface de suivi des statuts

En s'appuyant sur cette outil de gestion de statuts, une interface web a été implémentée. Elle permet de démarrer ou d'arrêter un service au travers de simples boutons (Start et Stop). De plus, il affiche le statut des différents services qui sont actuellement installés.