¿Cómo puedo solucionar el error «No se ha podido iniciar el flujo de trabajos debido a un error interno» en Amazon EMR?

3 minutos de lectura
0

Mi clúster de Amazon EMR no se lanza y aparece el mensaje de error «No se ha podido iniciar el flujo de trabajos debido a un error interno».

Breve descripción

Los errores internos suelen resolverse rápidamente. Repita la solicitud. Si el problema persiste, confirme que la configuración de la red y la seguridad del clúster sea correcta.

Solución

Abra la consola de Amazon EMR y, a continuación, pruebe a lanzar el clúster de nuevo. Si sigue apareciendo el mensaje «No se ha podido iniciar el flujo de trabajos debido a un error interno», compruebe la siguiente configuración.

Permisos para el rol de servicio de Amazon EMR

Las configuraciones de seguridad que cifran el dispositivo raíz y los volúmenes de almacenamiento de Amazon Elastic Block Store (Amazon EBS) requieren los permisos pertinentes. Para estas configuraciones, asegúrese de que el rol de servicio de Amazon EMR (EMR_DefaultRole) tenga permisos para usar la clave de AWS Key Management Service (AWS KMS) especificada.

El rol de servicio necesita estos permisos para lanzar correctamente los clústeres de EMR:

{
  "Version": "2012-10-17",
  "Statement": [{
    "Sid": "EmrDiskEncryptionPolicy",
    "Effect": "Allow",
    "Action": [
      "kms:Encrypt",
      "kms:Decrypt",
      "kms:ReEncrypt*",
      "kms:CreateGrant",
      "kms:GenerateDataKeyWithoutPlaintext",
      "kms:DescribeKey"
    ],
    "Resource": [
      "arn:aws:kms:us-west-2:<account-id>:key/<key-id>"
    ]
  }]
}

Si las instancias del clúster de EMR fallan, es posible que aparezca alguno de estos errores:

2022-10-17 15:59:24,736 attempt 12/1000: http://repo.eu-west-1.amazonaws.com/2018.03/main/mirror.list
2022-10-17 15:59:34,741 exception: [Errno 12] Timeout on http://repo.eu-west-1.amazonaws.com/2018.03/main/mirror.list: (28, 'Connection timed out after 10001 milliseconds')
2022-10-17 15:59:34,741 attempt 13/1000: http://repo.eu-west-1.amazonaws.com/2018.03/main/mirror.list
2022-10-17 15:59:44,749 exception: [Errno 12] Timeout on http://repo.eu-west-1.amazonaws.com/2018.03/main/mirror.list: (28, 'Connection timed out after 10000 milliseconds')

Con el fin de solucionar estos errores, siga estos pasos para revisar el registro del sistema:

1.    Inicie sesión en la consola de Amazon Elastic Compute Cloud (Amazon EC2).

2.    Seleccione el nodo de EC2 terminado debido a un error del clúster.

        Nota: El nodo terminado solo estará disponible durante 1 o 2 horas en la consola de EC2.

3.    Seleccione la lista desplegable Acciones y, a continuación, elija Monitorizar.

4.    Seleccione Solucionar problemas y, a continuación, Obtener registro del sistema.

Rutas de subred de nube privada virtual (VPC)

Asegúrese de que las rutas de subred de VPC estén configuradas correctamente para el origen de datos que el clúster utiliza. Siga los pasos que se indican en Configuración de una VPC para alojar clústeres.

Grupos de seguridad

Asegúrese de que los grupos de seguridad maestro, principal y de tarea estén configurados correctamente para la subred. Para obtener más información, consulte Trabajo con grupos de seguridad administrados por Amazon EMR.

Todas las acciones necesarias en su clúster de EMR también deben estar permitidas en los roles predeterminados de Amazon EMR y en el rol del perfil de la instancia.

Una vez configuradas las rutas de subred de VPC, los grupos de seguridad y los roles, lance un nuevo clúster.


Información relacionada

Configuración de redes

OFICIAL DE AWS
OFICIAL DE AWSActualizada hace un año