¿Cómo puedo acceder a la interfaz de usuario de Spark en Amazon EMR?

3 minutos de lectura

Quiero ver las interfaces web de Apache Spark alojadas en clústeres de Amazon EMR.

Resolución

El Spark History Server es una interfaz de usuario web en la que puede ver el estado de los trabajos de Spark en ejecución y completados en su clúster de EMR.

Las siguientes son formas comunes de acceder a la interfaz de usuario de Spark alojada en una subred pública y privada:

Interfaces de usuario de aplicaciones persistentes
Interfaces de usuario de aplicaciones en clúster

Interfaces de usuario de aplicaciones persistentes

En su clúster de EMR, el daemon apppusher envía periódicamente los registros de eventos de Spark a los buckets de producción de Amazon EMR. La interfaz de usuario persistente de Spark usa los registros de eventos para mostrar las aplicaciones de Spark.

Esta función trabaja cuando el directorio de registro de eventos de la aplicación está en HDFS. De forma predeterminada, Amazon EMR almacena los registros de eventos en el directorio /var/log/spark/apps de HDFS. Si cambia el directorio predeterminado a un sistema de archivos diferente, como Amazon Simple Storage Service (Amazon S3), esta función no estará disponible. Para obtener más información, consulte Consideraciones y limitaciones.

Puede acceder al historial de aplicaciones y a los archivos de registro pertinentes de los clústeres activos y terminados. Los registros estarán disponibles durante 30 días después de que finalice la aplicación. Para obtener más información, consulte Ver interfaces de usuario de aplicaciones persistentes.

Interfaces de usuario de aplicaciones en clúster

Las interfaces de usuario del clúster se alojan en el nodo principal y requieren una conexión SSH al servidor web.

Para acceder a la interfaz de usuario del clúster, haga lo siguiente:

1. Conéctese al nodo principal mediante SSH.

2. Configure la tunelización SSH con reenvío dinámico de puertos.

3. Configure su navegador de Internet para utilizar un complemento como FoxyProxy para Firefox o SwitchyOmega para Chrome para administrar la configuración de su proxy SOCKS.

Este método filtra automáticamente las URL en función de patrones de texto. Además, este método limita la configuración del proxy a los dominios que coincidan con la forma del nombre DNS del nodo principal.

ssh -i ~/mykeypair.pem -N -L 8157:ec2-###-##-##-###.compute-1.amazonaws.com:18080 hadoop@ec2-###-##-##-###.compute-1.amazonaws.com

Para obtener más información, consulte Opción 1: Configurar un túnel SSH al nodo principal mediante el reenvío de puertos locales.

No se puede acceder directamente a la interfaz de usuario del clúster en una subred privada, a menos que utilice una red local a través de una conexión VPN o AWS Direct Connect. Además, debe configurar la ruta para que la comunicación abarque las redes locales y de AWS.

O bien, puede conectarse a una subred privada mediante un servidor bastión o salto alojado en una subred pública. A continuación, cree un túnel SSH con reenvío dinámico de puertos.

Para obtener más información, consulte Acceder de forma segura a las interfaces web de Amazon EMR iniciadas en una subred privada.

Temas

Análisis

Etiquetas

Amazon EMR

Idioma

Español

OFICIAL DE AWSActualizada hace un año

Contenido relevante

¿Cómo puedo solucionar los problemas mientras visualizo la interfaz de usuario de Spark para trabajos de ETL de AWS Glue?
OFICIAL DE AWSActualizada hace 3 años
¿Cómo puedo acceder a los registros del controlador Spark en un clúster de Amazon EMR?
OFICIAL DE AWSActualizada hace 2 años
¿Por qué no puedo ver el historial de eventos o registros de Apache Spark desde la interfaz de usuario web de Spark en Amazon EMR?
OFICIAL DE AWSActualizada hace un año
¿Por qué la aplicación YARN sigue utilizando recursos una vez finalizado el trabajo de Spark que he ejecutado en Amazon EMR?
OFICIAL DE AWSActualizada hace 3 años