Publicado en: Aug 15, 2023
Amazon EMR sin servidor es una opción sin servidor para Amazon EMR que facilita a los analistas e ingenieros de datos la ejecución de marcos de análisis de macrodatos de código abierto, como Apache Spark y Apache Hive, sin configurar, administrar ni escalar clústeres o servidores. A partir de hoy, puede especificar configuraciones de registros detalladas para los registros de sus controladores y ejecutores, lo que facilita la resolución de problemas de los trabajos de Apache Spark.
Los desarrolladores a menudo necesitan analizar los registros para obtener información detallada sobre sus trabajos y así poder realizar una supervisión y una depuración eficaces. Sin embargo, la configuración de registros predeterminada de Spark puede ser a veces demasiado detallada, lo que dificulta la búsqueda de entradas de registros relevantes. Spark usa Log4j2 para configurar los registros. Con esta característica, puede especificar la configuración personalizada de Log4j2 para los registros del controlador y el ejecutor de Spark para cada ejecución de un trabajo de EMR sin servidor. Por ejemplo, puede configurar el nivel de registro predeterminado de Spark en “ERROR” para obtener un mínimo de registros para Spark, el nivel de registro de su código en “INFO” para obtener registros detallados de su código y el nivel de registro de las bibliotecas que quiere depurar en “DEBUG” para obtener registros aún más detallados. Esto le permitirá analizar mejor los registros para proporcionar información significativa.
Esta característica está disponible para las versiones 6.8.0 y posteriores de EMR en todas las regiones en las que Amazon EMR sin servidor está disponible. Para obtener más información, visite la página Configuración de Log4j2.