Catálogo de datos integrado

El catálogo de datos de AWS Glue es su almacén de metadatos persistente para todos sus activos de datos, independientemente de dónde se encuentren. El catálogo de datos contiene definiciones de tablas, definiciones de trabajos y otra información de control para ayudarle a administrar su entorno de AWS Glue. Procesa las estadísticas y registra las particiones automáticamente para realizar consultas en sus datos de manera eficaz y rentable. También mantiene un historial de versiones de esquemas exhaustivo para que pueda entender cómo han cambiado sus datos con el tiempo.

Descubrimiento automático de esquemas

Los rastreadores de AWS Glue se conectan con su almacén de datos de origen o de destino, avanzan a lo largo de una lista priorizada de clasificadores para determinar los esquemas para sus datos y crean metadatos en su catálogo de datos de AWS Glue. Los metadatos se almacenan en tablas en su catálogo de datos y se utilizan en el proceso de autoría de sus trabajos ETL. Puede ejecutar rastreadores de acuerdo con un programa, bajo demanda o activarlos en función de un evento para garantizar que los metadatos están actualizados.

Generación de código

AWS Glue genera automáticamente el código para extraer, transformar y cargar sus datos. Simplemente apunte Glue hacia el origen y destino de sus datos, y creará scripts ETL para transformar, acoplar y enriquecer los datos. El código se genera en Scala o Python y se escribe para Apache Spark.

Puntos de enlace de desarrollo

Si elige desarrollar su código ETL interactivamente, Glue proporciona puntos de enlace de desarrollo para que edite y pruebe el código que genera y elimine errores. Puede usar su IDE o bloc de notas preferido. Puede escribir lecturas, escrituras o transformaciones personalizadas e importarlas en sus trabajos de ETL como bibliotecas personalizadas. También puede usar y compartir código con otros desarrolladores en nuestro repositorio GitHub.

Programador de trabajos flexible

Los trabajos de AWS Glue pueden invocarse de acuerdo con un programa, bajo demanda o en función de un evento. Puede comenzar varios trabajos simultáneamente o especificar dependencias entre trabajos para crear canalizaciones ETL complejas. Glue se ocupará de todas las dependencias entre trabajos, filtrará los datos en mal estado y volverá a intentar procesar los trabajos si se produce un error. Todos los registros y notificaciones se envían a Amazon CloudWatch, de modo que puede monitorearlos y obtener alertas desde un servicio central.

Más información sobre precios de AWS Glue

Visite la página de precios
¿Listo para crear?
Comience a utilizar AWS Glue
¿Tiene más preguntas?
Contacte con nosotros