AWS Glue

Proceso de ETL sencillo, flexible y rentable

AWS Glue es un servicio de extracción, transformación y carga (ETL) completamente administrado que ayuda a los clientes a preparar y cargar los datos para su análisis. Puede crear y ejecutar un trabajo de ETL con tan solo unos clics en la consola de administración de AWS. Simplemente debe apuntar AWS Glue a sus datos almacenados en AWS y AWS Glue encontrará sus datos y almacenará los metadatos asociados (p. ej., esquemas y definiciones de tablas) en el catálogo de datos de AWS Glue. Una vez catalogados, puede realizar búsquedas y consultas inmediatamente en sus datos, que están disponibles para operaciones de ETL.

Introducing AWS Glue (1:47)

Beneficios

Menos complicaciones

AWS Glue se integra en una amplia variedad de servicios de AWS, lo que simplifica el proceso de incorporación. AWS Glue es compatible de manera nativa con datos almacenados en Amazon Aurora y con los demás motores de Amazon RDS, Amazon Redshift y Amazon S3, así como también con los motores de bases de datos comunes y las bases de datos de su nube virtual privada (Amazon VPC) que se ejecutan en Amazon EC2.

Rentabilidad

AWS Glue es un servicio sin servidor. No es necesario aprovisionar ni administrar infraestructura. AWS Glue administra el aprovisionamiento, la configuración y el escalado de los recursos necesarios para ejecutar sus trabajos de ETL en un entorno Apache Spark totalmente administrado y escalable. Solo paga por los recursos utilizados mientras se ejecutan los trabajos.

Mayor eficacia

AWS Glue automatiza gran parte del proceso de creación, mantenimiento y ejecución de trabajos de ETL. AWS Glue rastrea sus orígenes de datos, identifica formatos de datos y sugiere esquemas y transformaciones. AWS Glue genera automáticamente el código para ejecutar sus transformaciones de datos y procesos de carga.

 

 

Funcionamiento

Seleccione un origen y un destino para los datos. AWS Glue generará código ETL en Scala o Python para extraer datos del origen, transformar los datos de manera que se correspondan con los esquemas de destino y cargarlos en el destino. Puede editar y probar el código y depurar errores mediante la consola, en su IDE favorito o en cualquier bloc de notas.

Paso 1: Cree su catálogo de datos
Paso de creación del catálogo de datos

Primero, use la consola de administración de AWS para registrar sus fuentes de datos. AWS Glue rastreará las fuentes de datos y construirá un catálogo de datos con clasificadores predeterminados para muchos formatos de origen y tipos de datos conocidos, incluidos JSON, CSV, Parquet y más.

Paso 2: Genere y edite transformaciones
Paso de generación y edición de transformaciones

A continuación, seleccione un origen y un destino para los datos. AWS Glue generará código ETL en Scala o Python para extraer datos del origen, transformar los datos de manera que se correspondan con los esquemas de destino y cargarlos en el destino. Puede editar y probar el código y depurar errores mediante la consola, en su IDE favorito o en cualquier bloc de notas.

Paso 3: Programe y ejecute los trabajos
Paso de programación ejecución de los trabajos

AWS Glue facilita la programación de trabajos de ETL recurrentes, el encadenamiento de varios trabajos o la invocación de ellos bajo demanda desde otros servicios, como AWS Lambda. AWS Glue administra las dependencias entre trabajos, escala automáticamente los recursos subyacentes y vuelve a intentar ejecutar los trabajos si se produce un error.

Para obtener más información, visite la página de características de AWS Glue o consulte la documentación del producto.

Casos de uso

Consultas en un lago de datos de Amazon S3

Los lagos de datos son una manera cada vez más popular de almacenar y analizar datos estructurados y sin estructurar. Si desea crear su propio lago de datos personalizado de Amazon S3, AWS Glue puede hacer que sus datos estén inmediatamente disponibles para su análisis sin moverlos.

Obtenga más información sobre cómo crear un lago de datos seguro en cuestión de días en AWS Lake Formation.

Consultas sobre un diagrama de lago de datos de Amazon S3

Analice datos de registros en su almacén de datos

Prepare su secuencia de clics o procese datos de registros para su análisis mediante tareas de limpieza, normalización y enriquecimiento en los conjuntos de datos con AWS Glue. AWS Glue genera el esquema de sus datos semiestructurados, crea código ETL para transformar, quitar el formato y enriquecer los datos, y carga su almacén de datos de forma periódica.

Analice los datos de registros en su diagrama del almacén de datos

Vista unificada de sus datos en numerosos almacenes de datos

Puede usar el catálogo de datos de AWS Glue para descubrir y buscar con rapidez en numerosos conjuntos de datos de AWS sin mover los datos. Una vez catalogados, puede realizar búsquedas y consultas inmediatamente con Amazon Athena, Amazon EMR y Amazon Redshift Spectrum.

Vea los datos en el diagrama de almacenes de datos

Canalizaciones de ETL determinadas por eventos

AWS Glue puede ejecutar sus trabajos de ETL en función de un evento, como la obtención de un nuevo conjunto de datos. Por ejemplo, puede usar una función de AWS Lambda para que active sus trabajos de ETL de manera que se ejecuten en cuanto haya una nueva base de datos disponible en Amazon S3. También puede registrar este nuevo conjunto de datos en el catálogo de datos de AWS Glue como parte de sus trabajos de ETL.

Diagrama de canalizaciones de ETL determinadas por eventos
Imagen de la página web
Conozca las características del producto

Obtenga más información sobre las características de AWS Glue.

Más información 
Imagen de registro para cuenta
Regístrese para obtener una cuenta gratuita

Obtenga acceso instantáneo a la capa gratuita de AWS. 

Regístrese 
Imagen del cuadro de herramientas
Comience a crear en la consola

Comience a crear con AWS Glue en la consola de administración de AWS.

Iniciar sesión