AWS Glue

Proceso de ETL sencillo, flexible y rentable

AWS Glue es un servicio de extracción, transformación y carga (ETL) completamente administrado que ayuda a los clientes a preparar y cargar los datos para su análisis. Puede crear y ejecutar un trabajo de ETL con tan solo unos clics en la consola de administración de AWS. Simplemente debe apuntar AWS Glue a sus datos almacenados en AWS y AWS Glue encontrará sus datos y almacenará los metadatos asociados (p. ej., esquemas y definiciones de tablas) en el catálogo de datos de AWS Glue. Una vez catalogados, puede realizar búsquedas y consultas inmediatamente en sus datos, que están disponibles para operaciones de ETL.

Introducing AWS Glue (1:47)

Beneficios

Menos complicaciones

AWS Glue se integra en una amplia variedad de servicios de AWS, lo que simplifica el proceso de incorporación. AWS Glue es compatible de manera nativa con datos almacenados en Amazon Aurora y con los demás motores de Amazon RDS, Amazon Redshift y Amazon S3, así como también con los motores de bases de datos comunes y las bases de datos de su nube virtual privada (Amazon VPC) que se ejecutan en Amazon EC2.

Rentabilidad

AWS Glue es un servicio sin servidor. No es necesario aprovisionar ni administrar infraestructura. AWS Glue administra el aprovisionamiento, la configuración y el escalado de los recursos necesarios para ejecutar sus trabajos de ETL en un entorno Apache Spark totalmente administrado y escalable. Solo paga por los recursos utilizados mientras se ejecutan los trabajos.

Mayor eficacia

AWS Glue automatiza gran parte del proceso de creación, mantenimiento y ejecución de trabajos de ETL. AWS Glue rastrea sus orígenes de datos, identifica formatos de datos y sugiere esquemas y transformaciones. AWS Glue genera automáticamente el código para ejecutar sus transformaciones de datos y procesos de carga.

 

 

Funcionamiento

Seleccione un origen y un destino para los datos. AWS Glue generará código ETL en Scala o Python para extraer datos del origen, transformar los datos de manera que se correspondan con los esquemas de destino y cargarlos en el destino. Puede editar y probar el código y depurar errores mediante la consola, en su IDE favorito o en cualquier bloc de notas.

Paso 1: Cree su catálogo de datos
screenshot-glue-step1-data-catalog2b

Primero, use la consola de administración de AWS para registrar sus fuentes de datos. AWS Glue rastreará las fuentes de datos y construirá un catálogo de datos con clasificadores predeterminados para muchos formatos de origen y tipos de datos conocidos, incluidos JSON, CSV, Parquet y más.

Paso 2: Genere y edite transformaciones
screenshot-glue-step2-etl-generation4

A continuación, seleccione un origen y un destino para los datos. AWS Glue generará código ETL en Scala o Python para extraer datos del origen, transformar los datos de manera que se correspondan con los esquemas de destino y cargarlos en el destino. Puede editar y probar el código y depurar errores mediante la consola, en su IDE favorito o en cualquier bloc de notas.

Paso 3: Programe y ejecute los trabajos
screenshot-glue-step3-orchestration2

AWS Glue facilita la programación de trabajos de ETL periódicos, la encadenación de varios trabajos o la invocación de trabajos bajo demanda de otros servicios, como AWS Lambda. AWS Glue administra las dependencias entre trabajos, escala automáticamente los recursos subyacentes y vuelve a intentar ejecutar los trabajos si se produce un error.

Para obtener más información, visite la página de características de AWS Glue o consulte la documentación del producto.

Casos de uso

Consultas en un lago de datos de Amazon S3

Los lagos de datos son una manera cada vez más popular de almacenar y analizar datos estructurados y sin estructurar. Si desea crear su propio lago de datos personalizado de Amazon S3, AWS Glue puede hacer que sus datos estén inmediatamente disponibles para su análisis sin moverlos.

Para crear un lago de datos seguro en cuestión de días, obtenga más información sobre AWS Lake Formation.

product-page-diagram_Glue_Queries-Against-an-Amazo-S3-Data-Lake

Analice datos de registros en su almacén de datos

Prepare su secuencia de clics o procese datos de registros para su análisis mediante tareas de limpieza, normalización y enriquecimiento en los conjuntos de datos con AWS Glue. AWS Glue genera el esquema de sus datos semiestructurados, crea código ETL para transformar, desformatear y enriquecer los datos, y carga su almacén de datos de forma periódica.

product-page-diagram_Glue_Analyze-Log-Data-in-Data-Warehouse

Vista unificada de sus datos en numerosos almacenes de datos

Puede usar el catálogo de datos de AWS Glue para descubrir y buscar con rapidez en numerosos conjuntos de datos de AWS sin mover los datos. Una vez catalogados, puede realizar búsquedas y consultas inmediatamente con Amazon Athena, Amazon EMR y Amazon Redshift Spectrum.

product-page-diagram_Glue_Unified-View-of-Data-Across-Multiple-Data-Stores

Canalizaciones de ETL determinadas por eventos

AWS Glue puede ejecutar sus trabajos de ETL en función de un evento, como la obtención de un nuevo conjunto de datos. Por ejemplo, puede usar una función de AWS Lambda para que active sus trabajos de ETL de manera que se ejecuten en cuanto haya una nueva base de datos disponible en Amazon S3. También puede registrar este nuevo conjunto de datos en el catálogo de datos de AWS Glue como parte de sus trabajos de ETL.

product-page-diagram_Glue_Event-driven-ETL-Pipelines

Introducción a AWS

icon1

Regístrese para obtener una cuenta de AWS

Obtenga acceso instantáneamente a la capa gratuita de AWS.
icon2

Aprenda con tutoriales de 10 minutos

Explore y aprenda con tutoriales sencillos.
icon3

Comience a crear con AWS

Comience a crear soluciones con las guías paso a paso, que lo ayudarán a lanzar un proyecto en AWS.

Más información sobre AWS Glue

Visite la página de características
¿Listo para crear?
Comience a utilizar AWS Glue
¿Tiene más preguntas?
Contacte con nosotros