AWS Glue es un servicio de extracción, transformación y carga (ETL) totalmente administrado que puede utilizar para catalogar los datos, limpiarlos, enriquecerlos y moverlos de manera fiable entre almacenes de datos. Con AWS Glue, puede reducir significativamente el costo, la complejidad y el tiempo dedicado a la creación de trabajos ETL. AWS Glue es un servicio sin servidor, por lo que no es necesario configurar ni administrar infraestructura. Solo paga por los recursos utilizados mientras se ejecutan sus trabajos.

¿Está listo para comenzar su trabajo ETL?

Comience con AWS Glue
100x100_benefit_ingergration

El catálogo de datos de AWS es su almacén de metadatos persistente para todos sus activos de datos, independientemente de dónde se encuentren. El catálogo de datos contiene definiciones de tablas, definiciones de trabajos y otra información de control para ayudarle a administrar su entorno de AWS Glue. Procesa las estadísticas y registra las particiones automáticamente para realizar consultas en sus datos de manera eficaz y rentable. También mantiene un historial de versiones de esquemas exhaustivo para que pueda entender cómo han cambiado sus datos con el tiempo.

100x100_benefit_automated

Los rastreadores de AWS Glue se conectan con su almacén de datos de origen o de destino, avanzan a lo largo de una lista priorizada de clasificadores para determinar los esquemas para sus datos y crean metadatos en su catálogo de datos de AWS Glue. Los metadatos se almacenan en tablas en su catálogo de datos y se utilizan en el proceso de autoría de sus trabajos ETL. Puede ejecutar rastreadores de acuerdo con un programa, bajo demanda o activarlos en función de un evento para garantizar que los metadatos están actualizados.

100x100_benefit_code

AWS Glue genera automáticamente el código para extraer, transformar y cargar sus datos. Simplemente apunte Glue hacia el origen y destino de sus datos, y creará scripts ETL para transformar, acoplar y enriquecer los datos. El código se genera en Python y se escribe para el entorno Apache Spark 2.1.

100x100_benefit_tools

Si elige desarrollar su código ETL interactivamente, Glue proporciona puntos de enlace de desarrollo para que edite y pruebe el código que genera y elimine errores. Puede usar su IDE o notebook preferido. Puede escribir lecturas, escrituras o transformaciones personalizadas e importarlas en sus trabajos de ETL como bibliotecas personalizadas. También puede usar y compartir código con otros desarrolladores en nuestro repositorio GitHub.

100x100_benefit_monitoring-logging

Los trabajos de AWS Glue pueden invocarse de acuerdo con un programa, bajo demanda o en función de un evento. Puede comenzar varios trabajos simultáneamente o especificar dependencias entre trabajos para crear canalizaciones ETL complejas. Glue se ocupará de todas las dependencias entre trabajos, filtrará los datos en mal estado y volverá a intentar procesar los trabajos si se produce un error. Todos los registros y notificaciones se envían a Amazon CloudWatch, de modo que puede monitorizarlos y obtener alertas desde un servicio central.

Es muy fácil comenzar a usar AWS Glue. Simplemente inicie sesión en la consola de administración de AWS y vaya a "Glue" dentro de la categoría "Analytics".

¿Está listo para comenzar su proyecto ETL?

Comience con AWS Glue