Publicado en: Feb 23, 2022
AWS Glue ahora ofrece una función de información sobre la ejecución de trabajos que reduce el tiempo de desarrollo de los trabajos de Apache Spark al ayudar a determinar las fuentes de errores y los cuellos de botella que afectan al rendimiento. AWS Glue es un servicio de integración de datos que permite a los clientes detectar, preparar y combinar datos para el análisis mediante Apache Spark y Python sin servidor. El procesamiento distribuido y el modelo de “ejecución perezosa” de Spark hacen que para los ingenieros de datos resulte difícil y requiera mucho tiempo diagnosticar los errores y ajustar el rendimiento. Con este lanzamiento, AWS Glue ofrece la posibilidad de analizar e interpretar de forma automatizada los errores de los trabajos de Spark para agilizar el proceso.
La información sobre la ejecución de trabajos simplifica el análisis de la causa raíz de los errores en la ejecución de trabajos y simplifica el proceso de aprendizaje tanto para AWS Glue como para Apache Spark. Identifica el número de línea en el código donde se produjo el error y proporciona detalles sobre lo que el motor de AWS Glue hacía cuando se produjo el error. También interpreta los errores por usted y ofrece recomendaciones sobre cómo ajustar los trabajos y el código para solucionar los problemas y mejorar el rendimiento. Esta característica aumenta los registros de la interfaz de usuario de Spark y los registros y métricas de CloudWatch que AWS Glue proporcionaba anteriormente.
Esta característica está disponible en las mismas regiones de AWS que AWS Glue.
Para obtener más información, consulte nuestra documentación o vea la ejecución de un trabajo en el panel de supervisión de trabajos de AWS Glue Studio.