AWS Resilience Hub
Préparer et protéger vos applications contre les perturbations
Validez et suivez en permanence la résilience des applications pour réduire les pannes.
Évaluez les objectifs de résilience (objectif de délai de reprise et objectif de point de reprise).
Identifiez et résolvez les problèmes avant qu'ils ne se manifestent en production.
Optimisez la continuité des activités tout en réduisant les coûts de récupération.
Fonctionnement

Fonctions
Décrire
Décrivez vos applications comme des collections de ressources, telles que des piles CloudFormation, des fichiers d'état Terraform, des applications AppRegistry ou des groupes de ressources, ou définissez des applications pour les charges de travail Kubernetes gérées sur Amazon EKS. Les applications peuvent également être décrites à l'aide de collections de ressources et de clusters Amazon EKS.
Définir
Définissez les politiques de résilience de vos applications. Ces politiques comprennent les RTO (objectif de délai de reprise) et les RPO (objectif de point de reprise) relatifs aux perturbations au niveau des applications, de l'infrastructure, de la zone de disponibilité et de la région.
Évaluer
L'évaluation d'AWS Resilience Hub utilise les bonnes pratiques AWS Well-Architected Framework pour analyser les composants d'une application et identifier les faiblesses potentielles de la résilience. Celles-ci peuvent provenir d'une configuration incomplète de l'infrastructure, d'erreurs de configuration ou de situations où des améliorations supplémentaires de la configuration sont nécessaires.
Recommander
AWS Resilience Hub fournit des recommandations concrètes pour améliorer la résilience. L'évaluation de la résilience génère également des extraits de code qui permettent de créer des procédures de récupération sous forme de documents AWS Systems Manager pour vos applications [appelés procédures opérationnelles standard (SOP)]. AWS Resilience Hub génère une liste de moniteurs et d'alarmes Amazon CloudWatch recommandés pour que l'opérateur puisse identifier rapidement toute modification de la posture de résilience de l'application une fois celle-ci déployée.
Valider
Une fois l'application et les SOP mises à jour pour intégrer les recommandations de l'évaluation de la résilience, vous pouvez utiliser AWS Resilience Hub pour tester et vérifier que votre application peut atteindre ses objectifs de résilience avant de la mettre en production. AWS Resilience Hub est intégré à AWS Fault Injection Simulator (FIS), un service d'ingénierie du chaos, pour fournir des simulations de pannes réelles par injection d'erreurs, afin de vérifier que l'application reprend ses opérations dans les limites des objectifs de résilience définis. Il peut s'agir d'erreurs de réseau ou d'un trop grand nombre de connexions ouvertes à une base de données. AWS Resilience Hub fournit également des API pour que vous puissiez intégrer son évaluation et ses tests de résilience à vos pipelines CI/CD à des fins de validation en continu de la résilience. L'intégration de la validation de la résilience aux pipelines CI/CD permet de garantir que les modifications apportées à l'infrastructure sous-jacente de l'application ne compromettent pas la résilience.
Afficher et suivre
AWS Resilience Hub offre une vue globale de l'état de résilience de l'ensemble des applications grâce à son tableau de bord. Pour vous permettre de suivre la résilience des applications, AWS Resilience Hub regroupe et organise les événements de résilience (par exemple l'indisponibilité de la base de données ou l'échec de la validation de la résilience), les alertes et les informations émises par les services, tels qu'Amazon CloudWatch et AWS Fault Injection Simulator. AWS Resilience Hub génère également un score de résilience, une échelle qui indique le niveau d'implémentation des recommandations de tests, d'alarmes et de procédures SOP relatifs à la résilience. Ce score peut être utilisé pour mesurer les améliorations de la résilience au fil du temps.
Cas d'utilisation
Découvrir les faiblesses potentielles
Utilise des simulations de pannes réelles par injection d'erreurs pour aider à valider l'efficacité des procédures SOP et des alarmes de récupération.
Protéger les applications stratégiques
Fournit des recommandations concrètes pour améliorer la résilience et permet de créer des procédures de récupération.
Contribuer au respect des exigences contractuelles et règlementaires
Conserve un journal d'activité d'audit des événements survenus pendant les indisponibilités prévues et imprévues, afin de respecter les exigences règlementaires et de conformité.