Publicado en: Dec 19, 2022
Los rastreadores de AWS Glue ahora cuentan con una compatibilidad mejorada con las tablas de Delta Lake de Linux Foundation, lo que aumenta la eficiencia operativa para obtener información significativa de servicios de análisis como Amazon Athena, Amazon EMR y AWS Glue. Esta función permite a los servicios de análisis escanear las tablas de Delta Lake sin necesidad de que los rastreadores de Glue creen archivos de manifiesto. Los datos recién catalogados ahora están disponibles rápidamente para su análisis con sus herramientas de análisis y machine learning (ML) preferidas.
Anteriormente, los rastreadores de Glue admitían las tablas de Delta Lake mediante la creación de archivos de manifiesto en Amazon S3 para su uso en diferentes servicios de análisis. Los rastreadores de Glue necesitaban generar archivos de manifiesto de forma periódica para incluir las transacciones más recientes en las tablas de Delta Lake originales, lo que aumentaba los tiempos de procesamiento.
Con el lanzamiento de hoy, puede crear y programar un rastreador de Glue con la opción de crear tablas nativas de Delta Lake, y luego proporcionar una ruta a Amazon S3, donde se encuentran las tablas de Delta Lake. Con cada ejecución de rastreador, el rastreador inspecciona y cataloga la información del esquema y la información de particiones, como las actualizaciones o eliminaciones, en las tablas de Delta Lake del catálogo de datos de Glue.
La compatibilidad del rastreador de AWS Glue con las tablas nativas de Delta Lake está disponible en todas las regiones comerciales en las que está disponible AWS Glue; consulte la tabla de regiones de AWS. La compatibilidad mejorada con Delta Lake está disponible en la versión 3.0 del motor Athena y en la versión 3.0 o posterior de Glue. Para obtener más información, lea el blog y consulte la documentación del rastreador de AWS Glue.