Le Blog Amazon Web Services

Comment effectuer des tests de récupération après sinistre, et sans interruption avec CloudEndure DR sur AWS

En effectuant fréquemment des tests et des exercices de reprise après sinistre, votre organisation se prépare à des pannes informatiques inattendues causées par des rançongiciels, des erreurs humaines, ou d’autres perturbations. Certaines entreprises sont tentées de ne pas faire les tests de reprise après sinistre, car leurs procédures de test sont chronophages ou coûteuses, ou parce qu’elles ne peuvent pas les tester sans affecter leurs activités quotidiennes. Cela induit qu’elles ne sont pas prêtes à mettre en œuvre leur plan de reprise d’activité (PRA) si une interruption se produit. CloudEndure Disaster Recovery vous offre un mécanisme simple, permettant de récupérer votre environnement, à l’échelle, sans impact sur sa performance. Vous pouvez utiliser le même processus pour tester et récupérer des serveurs physiques, virtuels, ou cloud sur AWS. Contrôler votre plan de reprise d’activité régulièrement vous aidera à vérifier que vous atteignez vos objectifs de reprise dans le cadre d’un sinistre. Dans cet article, nous allons revoir les étapes simples et les bonnes pratiques pour effectuer des tests de récupérations après sinistre en utilisant le service CloudEndure Disaster Recovery.

Comment fonctionnent les tests avec CloudEndure Disaster Recovery ?

En temps normal, CloudEndure Disaster Recovery réplique continuellement les données depuis vos serveurs d’origine vers une zone de transit à bas coût (sous forme de snapshot EBS), situé dans le cloud AWS. Quand vous activez le mécanisme de test ou de restauration, CloudEndure Disaster Recovery déclenche un processus de conversion automatisée de vos machines ainsi qu’un moteur d’orchestration évolutif qui rendent rapidement et simultanément opérationnelles vos machines dans la région AWS que vous avez sélectionnée. La réplication de vos données vers AWS s’effectue au niveau du bloc, et permet à cette solution de fonctionner pour toutes vos applications ou bases de données, sur une large gamme de systèmes d’exploitations compatibles. Si un incident de sécurité, une erreur matérielle ou tout autre évènement entraîne une panne, vous êtes en mesure de restaurer votre environnement avec les mêmes étapes que lors de votre exercice de reprise après sinistre. Les serveurs lancés durant les tests sont opérés comme les serveurs restaurés lors d’une restauration sur AWS.

Implémenter l’approche de reprise après sinistre décrite dans le Well-Architected Framework d’AWS implique de tester et valider votre plan de reprise fréquemment. Lorsque vous lancez vos serveurs dans le cadre d’un test de reprise, vous démarrez une copie de vos serveurs dans la région choisie à partir du point de récupération sélectionné. Les tests effectués sont sécurisés dans un environnement isolé, défini par le plan de restauration créé dans CloudEndure Disaster Recovery, où vous établissez les paramètres et la configuration des instances de tests. Les paramètres du plan permettent d’isoler vos instances dans un sous-réseau séparé ou dans groupe de sécurité différent pour éviter les conflits sur le réseau. Vous pouvez aussi lancer des instances dans un compte séparé pour dissocier vos environnements de production et de test. L’outil va automatiquement provisionner les ressources nécessaires pour lancer vos serveurs sur AWS en conséquence.

CloudEndure Disaster Recovery vous permet de lancer virtuellement autant de tests que vous souhaitez, aussi souvent que nécessaire. Aucuns frais additionnels ne sont dus pour les tests, au-delà du paiement des ressources générées lors de ces tests. Pour optimiser vos coûts, vous pouvez utiliser des instances Amazon EC2 plus petites, plutôt que de provisionner des serveurs à l’échelle de la production.

Lorsque vous déployez CloudEndure Disaster Recovery dans votre environnement, il est conseillé de réaliser vos premiers exercices de reprise après sinistre comme étape de validation finale. Maintenez une préparation aux sinistres pour vos opérations en cours en réalisant des tests à chaque changement de votre écosystème source, par exemple si vous ajoutez de nouveaux serveurs ou changez une configuration.

Les étapes de tests

Vous êtes capable de tester la restauration de vos serveurs après que la synchronisation initiale soit complétée sur la région AWS choisie.

Ouvrez la page Machines sur la console CloudEndure. Vous y trouverez une indication que vos machines sont prêtes à être testées :

  • La colonne DATA REPLICATION PROGRESS précise que la réplication a atteint un état de protection continue (continuous data protection)
  • La colonne DISASTER RECOVERY LIFECYCLE précise que les instances sont prêtes à être testées (Ready for Testing)
  • Les machines non-testées possèdent une icône de drapeau jaune dans la colonne STATUS

Console CloudEndure DR

Vous pouvez effectuer les actions suivantes pour lancer les serveurs sources sur AWS pour vos tests de reprise :

  1. Sélectionner les machines à lancer pour le test. Pour choisir les machines, cocher la case sur la gauche de chaque machine. Le test peut s’effectuer sur la totalité de l’environnement, un groupe de machines ou une machine unique. Puis ouvrir le menu Launch Target Machine et choisir Test Mode
    CloudEndure DR - Ecran console de test
    Les serveurs sélectionnés vont être lancés en fonction de la mise en réseau et des groupes de sécurités définis précédemment dans votre plan de restauration.
  2. Confirmer le lancement. Cliquer sur NEXT dans la fenêtre de confirmation pour lancer le test avec les serveurs sélectionnés. Noter que cette action va supprimer toute machine de test existante pour ce serveur.
    CloudEndure DR - Console Ecran de Test 2
  3. Sélectionner le point de récupération. Vous pouvez sélectionner le dernier point de récupération qui représente l’état actuel de la machine. Ou bien sélectionner une sauvegarde précédente. Tester la restauration depuis le dernier point de récupération vous permet de vous préparer à un arrêt de service. Souvent dû à une corruption de données suite à un rançongiciel, un changement accidentel du système, ou une corruption de la base de données. Vous serez en mesure de récupérer votre environnement sur AWS à partir du point de sauvegarde avant cette corruption. Après avoir sélectionné le point de récupération, cliquer sur CloudEndure DR - Selection du recovery point
  4. Vérifier que la machine cible est lancée. Vous pouvez apercevoir différentes indications sur la page Machines que la machine s’est lancée correctement: le bord gauche de chaque machine source est vert, une icône violette apparaît dans la colonne STATUS indiquant que la machine a bien été lancée pour la source sélectionnée,  l’icône du drapeau orange va aussi disparaître en conséquence de la colonne et la colonne DISASTER RECOVERY LIFECYCLE contient le message « Tested Recently »
    CloudEndure DR - Résultat du test
  5. Valider le bon fonctionnement des instances lancées. Naviguer sur l’onglet TARGET du panneau Machine Details. Vous y trouverez une indication que la machine de test est lancée (Test machine launched) dans la colonne Machine Dashboard :

Connectez-vous sur la Console AWS et ouvrez le tableau de bord Amazon EC2 pour voir vos instances qui ont été démarrées et effectuez toutes les validations nécessaires sur vos applications :

Si nécessaire, modifiez votre configuration et revalidez le test.

Supprimer les ressources après le test

Après votre test de reprise, vous pouvez supprimer les machines associées au travers de la console CloudEndure pour éviter de continuer à payer ces ressources de test. CloudEndure Disaster Recovery retire automatiquement les ressources créées durant les tests lorsque vous lui demandez de le faire, ou au démarrage d’un nouveau test. Vous pouvez empêcher cette suppression en activant la protection contre la résiliation.

Conclusion

En suivant les étapes de cet article avec le service Cloud Endure Disaster Recovery, vous serez en mesure de lancer des tests de reprise d’activités fréquemment, sans impact sur votre activité quotidienne. L’objectif des tests de reprise est de valider que votre organisation peut assurer une continuité de service avec le plus petit temps d’arrêt possible lors d’un arrêt imprévu. Tout problème opérationnel qui survient durant vos tests est une opportunité d’identifier et de résoudre des difficultés qui auraient pu se produire en conditions réelles.

Être familier avec ces processus vous permettra de vérifier que vous pouvez restaurer rapidement vos charges de travail sur AWS au moment opportun. Vous pouvez aussi faciliter vos tests à l’échelle en automatisant vos procédures de tests et de restauration.

Pour en apprendre plus, vous pouvez visiter la page du service CloudEndure Disaster Recovery.

Article original d’ Alex Berkov, Manager de l’équipe d’architecture pour les solutions CloudEndure chez AWS, traduit en français par Baptiste Michaud, Solution Architect dans les équipes AWS France.