Comment résoudre l'erreur « Échec du démarrage du flux de travail en raison d'une erreur interne » dans Amazon EMR ?

Dernière mise à jour: 11-01-2022

Mon cluster Amazon EMR ne parvient pas à démarrer et je reçois le message d'erreur « Échec du démarrage du flux de travail en raison d'une erreur interne ».

Brève description

En règle générale, les erreurs internes se résolvent rapidement. Effectuez une nouvelle demande. Si le problème persiste, vérifiez que les paramètres de mise en réseau et de sécurité du cluster sont configurés correctement.

Solution

Ouvrez la console Amazon EMR et essayez de relancer le cluster. Si vous recevez de nouveau le message « Échec du démarrage du flux de travail en raison d'une erreur interne », vérifiez les points suivants.

Autorisations pour le rôle de service Amazon EMR

Les configurations de sécurité qui cryptent l'appareil racine et les volumes de stockage Amazon Elastic Block Store (Amazon EBS) nécessitent les autorisations appropriées. Pour ces configurations, assurez-vous que le rôle de service Amazon EMR (EMR_DefaultRole) est autorisé à utiliser la clé AWS Key Management Service (AWS KMS) spécifiée.

Le rôle de service a besoin des autorisations suivantes pour lancer correctement les clusters EMR :

{
  "Version": "2012-10-17",
  "Statement": [{
    "Sid": "EmrDiskEncryptionPolicy",
    "Effect": "Allow",
    "Action": [
      "kms:Encrypt",
      "kms:Decrypt",
      "kms:ReEncrypt*",
      "kms:CreateGrant",
      "kms:GenerateDataKeyWithoutPlaintext",
      "kms:DescribeKey"
    ],
    "Resource": [
      "arn:aws:kms:us-west-2:<account-id>:key/<key-id>"
    ]
  }]
}

Si les instances du cluster EMR échouent, vous pouvez rencontrer l'une des erreurs suivantes :

2022-10-17 15:59:24,736 attempt 12/1000: http://repo.eu-west-1.amazonaws.com/2018.03/main/mirror.list
2022-10-17 15:59:34,741 exception: [Errno 12] Timeout on http://repo.eu-west-1.amazonaws.com/2018.03/main/mirror.list: (28, 'Connection timed out after 10001 milliseconds')
2022-10-17 15:59:34,741 attempt 13/1000: http://repo.eu-west-1.amazonaws.com/2018.03/main/mirror.list
2022-10-17 15:59:44,749 exception: [Errno 12] Timeout on http://repo.eu-west-1.amazonaws.com/2018.03/main/mirror.list: (28, 'Connection timed out after 10000 milliseconds')

Pour résoudre ces erreurs, consultez le journal système en suivant les étapes suivantes :

1.    Ouvrez la console Amazon Elastic Compute Cloud (Amazon EC2).

2.    Sélectionnez le nœud EC2 qui s'est arrêté en raison d'une défaillance du cluster.

        Remarque : Le nœud résilié n'est disponible que pendant 1 à 2 heures sur la console EC2.

3.    Sélectionnez la liste déroulante Actions, puis sélectionnez Surveiller.

4.    Sélectionnez Résoudre les problèmes, puis sélectionnez Obtenir le journal système.

Routes de sous-réseau de cloud privé virtuel (VPC)

Assurez-vous que les acheminements de sous-réseau VPC sont configurés correctement pour la source de données utilisée par le cluster. Suivez les étapes de la section Configuration d'un VPC pour héberger des clusters.

Groupes de sécurité

Assurez-vous que les groupes de sécurité principal/de tâche sont configurés correctement pour le sous-réseau. Pour plus d'informations, consultez Utilisation des groupes de sécurité gérés par Amazon EMR.

Toutes les actions requises dans votre cluster EMR doivent également être autorisées dans les rôles Amazon EMR par défaut et le rôle de profil d'instance.

Une fois que les routes du sous-réseau VPC, les groupes de sécurité et les rôles sont configurés, lancez un nouveau cluster.


Cet article vous a-t-il été utile ?


Besoin d'aide pour une question technique ou de facturation ?