Analyse_des_risques - FunWarry/Projet-ESEO-css-datacenter GitHub Wiki
Supervision - ESEO Teaching Cloud
1. Analyse des Risques
La mise en œuvre du projet ESEO Teaching Cloud comporte un ensemble de risques, à la fois techniques et financiers, qui doivent être identifiés, évalués et encadrés dès les premières phases de conception et tout au long du cycle de vie du projet. L'objectif est de garantir la robustesse de l'infrastructure et la pérennité du service, tout en maîtrisant les coûts et les délais. Une analyse régulière et dynamique de ces risques permet de prendre des décisions éclairées, de planifier des actions correctives et de minimiser les impacts négatifs potentiels.
1.1 Risques Techniques
1. Panne matérielle
- Description : défaillance soudaine ou progressive d’un composant matériel critique (serveur, routeur, switch).
- Impact potentiel : interruption partielle ou complète de l'accès aux services hébergés, perte temporaire de productivité, dégradation de l'expérience utilisateur.
- Probabilité : Moyenne
- Mesures préventives :
- Implémentation de solutions de redondance matérielle (RAID, alimentation double, bascule automatique).
- Déploiement de procédures de monitoring matériel via Zabbix ou Nagios.
- Tests périodiques de défaillance pour valider la reprise automatique.
- Sauvegardes régulières des machines virtuelles et configurations système.
2. Mauvaise configuration réseau ou VLANs
- Description : erreurs de paramétrage dans la création des VLANs, le routage inter-VLAN, ou les règles NAT/PAT.
- Impact potentiel : indisponibilité des services, fuites de données, mauvaise isolation entre les utilisateurs.
- Probabilité : Moyenne
- Mesures préventives :
- Double vérification des plans d’adressage et topologies réseau.
- Validation croisée entre référents réseau et sécurité.
- Simulation des flux réseau avec des outils comme GNS3 ou Wireshark.
- Documentation exhaustive de la configuration appliquée.
3. Failles de sécurité ou gestion défaillante des accès
- Description : absence ou mauvaise configuration du pare-feu, droits d'accès mal définis, vulnérabilités logicielles.
- Impact potentiel : compromission du système, vol de données sensibles, blocage ou déni de service.
- Probabilité : Moyenne à élevée
- Mesures préventives :
- Mise en œuvre rigoureuse des politiques de sécurité via OPNsense.
- Surveillance continue des journaux d’événements.
- Déploiement d’un système d’authentification centralisé (LDAP, MFA).
- Réalisation d’audits réguliers de sécurité (internes ou externes).
4. Problèmes de compatibilité logicielle
- Description : incompatibilité entre versions d’Ansible, VirtualBox, Vagrant, ou modules Python.
- Impact potentiel : erreurs dans les scripts d’automatisation, services non fonctionnels, perte de temps.
- Probabilité : Moyenne
- Mesures préventives :
- Standardisation des environnements de développement.
- Création de machines de test miroir de l’environnement de production.
- Fixation explicite des versions dans les fichiers de dépendance.
- Utilisation de conteneurs ou machines virtuelles pour les tests.
5. Échec de sauvegarde ou perte de données
- Description : défaillance des scripts de sauvegarde, corruption des fichiers de backup ou oubli de vérification.
- Impact potentiel : perte irréversible de données, indisponibilité prolongée, dégradation de la confiance utilisateur.
- Probabilité : Faible à moyenne
- Mesures préventives :
- Mise en place d’un plan de sauvegarde multicanal (local, distant, cloud si disponible).
- Tests de restauration mensuels pour vérifier l’intégrité des backups.
- Utilisation de snapshots réguliers avec versioning.
- Automatisation des alertes en cas d’échec de sauvegarde.
1.2 Risques Financiers
1. Coûts imprévus liés aux licences logicielles
- Description : nécessité de migrer vers des versions professionnelles payantes (Ansible Tower, VirtualBox Pro) pour des fonctionnalités avancées.
- Impact potentiel : dépassement de budget, gel de certaines fonctionnalités.
- Probabilité : Faible
- Mesures préventives :
- Étude comparative initiale des outils libres vs. payants.
- Priorisation de l’utilisation de versions communautaires éprouvées.
- Réévaluation régulière des besoins fonctionnels en regard des coûts.
2. Coût de remplacement du matériel défectueux
- Description : remplacement d’un composant critique en cas de panne ou d’obsolescence.
- Impact potentiel : interruption de service, alourdissement des dépenses.
- Probabilité : Faible à moyenne
- Mesures préventives :
- Constitution d’un stock minimal de pièces de rechange.
- Suivi de l’état matériel via outils de monitoring et tableaux de bord.
- Budget prévisionnel pour le renouvellement annuel du matériel clé.
3. Coûts de maintenance et gestion opérationnelle
- Description : temps humain et technologique nécessaire à la maintenance, support et documentation.
- Impact potentiel : surcharge des équipes, baisse de productivité sur les tâches pédagogiques.
- Probabilité : Moyenne
- Mesures préventives :
- Automatisation des mises à jour, déploiements et surveillances via Ansible.
- Mise en place d’un référentiel de procédures.
- Transfert de compétences entre membres de l’équipe.
4. Dérapage du planning = augmentation des coûts indirects
- Description : retards dans les livraisons ou dans l’implémentation des étapes.
- Impact potentiel : perte d’usage pédagogique, surcharge des ressources humaines, difficulté à respecter les jalons.
- Probabilité : Moyenne
- Mesures préventives :
- Définition claire des livrables à chaque incrément.
- Suivi rigoureux via le Kanban intégré à Gitea.
- Organisation hebdomadaire de réunions de synchronisation (weekly meeting).
- Utilisation d’indicateurs de performance pour anticiper les dérives.