AWS Glue
La nube de AWS
Comience a utilizar AWS Glue

AWS Glue es un servicio de extracción, transformación y carga (ETL) totalmente administrado que facilita a los clientes la preparación y carga de sus datos para su análisis. Puede crear y ejecutar un trabajo ETL con tan solo unos clics en la consola de administración de AWS. Simplemente debe apuntar AWS Glue a sus datos almacenados en AWS y AWS Glue descubre sus datos y almacena los metadatos asociados (p. ej., esquemas y definiciones de tablas) en el catálogo de datos de AWS. Una vez catalogados, puede realizar búsquedas y consultas inmediatamente en sus datos, que están disponibles para operaciones de ETL. AWS Glue genera el código para ejecutar sus transformaciones de datos y procesos de carga de datos.

AWS Glue genera código Python personalizable, reutilizable y portátil. Una vez que su trabajo ETL está listo, puede programarlo para que se ejecute en el entorno totalmente administrado y escalable Apache Spark de AWS Glue. AWS Glue proporciona un programador flexible con resolución de dependencias, monitorización de trabajos y alertas.

AWS Glue es un servicio sin servidor, por lo que no es necesario comprar, configurar ni administrar infraestructura. Aprovisiona automáticamente el entorno necesario para completar el trabajo, y los clientes pagan solamente por los recursos informáticos consumidos al ejecutar trabajos ETL. Con AWS Glue, los datos pueden estar disponibles para su análisis en cuestión de minutos.

AWS Glue
1:47
Servicio ETL sin servidor, completamente administrado y optimizado para la nube

¿Listo para comenzar su trabajo ETL?

Comience con AWS Glue


Facilidad

Facilidad

AWS Glue automatiza gran parte del proceso de la creación, el mantenimiento y la ejecución de trabajos ETL. AWS Glue rastrea sus fuentes de datos, identifica formatos de datos y sugiere esquemas y transformaciones. AWS Glue genera automáticamente el código para ejecutar sus transformaciones de datos y procesos de carga.

Integrado

Integrado

AWS Glue se integra con una gran variedad de servicios de AWS. AWS Glue admite de forma nativa los datos almacenados en Amazon Aurora, Amazon RDS for MySQL, Amazon RDS for Oracle, Amazon RDS for PostgreSQL, Amazon RDS for SQL Server, Amazon Redshift y Amazon S3, así como también en bases de datos de MySQL, Oracle, Microsoft SQL Server y PostgreSQL incluidas en su nube virtual privada (Amazon VPC) en ejecución en Amazon EC2. AWS Glue proporciona integración original con Amazon Athena, Amazon EMR, Amazon Redshift Spectrum y cualquier aplicación compatible con Apache Hive Metastore.

Sin servidor

Sin servidor

AWS Glue es un servicio sin servidor. No es necesario aprovisionar ni administrar infraestructura. AWS Glue administra el aprovisionamiento, la configuración y el escalado de los recursos necesarios para ejecutar sus trabajos de ETL en un entorno Apache Spark totalmente administrado y escalable. Solo paga por los recursos utilizados mientras se ejecutan los trabajos.

Idóneo para desarrolladores

Idóneo para desarrolladores

AWS Glue genera código ETL que es personalizable, reutilizable y portátil, con tecnología familiar: Python y Spark. También puede importar lectores, escritores y transformaciones personalizados en su código ETL de Glue. Como el código que AWS Glue genera está basado en marcos abiertos, no hay restricciones. Puede usarlo en cualquier lugar.


Paso 1: Cree su catálogo de datos
Paso 1: Cree su catálogo de datos

Haga clic para agrandar

Primero, use la consola de administración de AWS para registrar sus fuentes de datos. AWS Glue rastreará las fuentes de datos y construirá un catálogo de datos con clasificadores predeterminados para muchos formatos de origen y tipos de datos populares, incluidos JSON, CSV, Parquet y más.

Paso 2: Genere y edite transformaciones
Paso 2: Genere y edite transformaciones

Haga clic para agrandar

A continuación, seleccione un origen y un destino para los datos. AWS Glue generará código ETL en Python para extraer datos de la fuente, transformar los datos de manera que se correspondan con los esquemas de destino y cargarlos en el destino. Puede editar y probar el código y depurar errores mediante la consola, en su IDE favorito o en cualquier notebook.

Paso 3: Programe y ejecute los trabajos
Paso 3: Programe y ejecute los trabajos

Haga clic para agrandar

AWS Glue facilita la programación de trabajos ETL periódicos, la encadenación de varios trabajos o la invocación de trabajos bajo demanda de otros servicios, como AWS Lambda. AWS Glue administra las dependencias entre trabajos, escala automáticamente los recursos subyacentes y vuelve a intentar ejecutar los trabajos si se produce un error.

Para obtener más información, visite la página de detalles del producto de AWS Glue o consulte nuestra documentación del producto.


Prepare su secuencia de clics o procese datos de logs para su análisis limpiando, normalizando y enriqueciendo los conjuntos de datos con AWS Glue. AWS Glue genera el esquema de sus datos semiestructurados, crea código ETL para transformar, desformatear y enriquecer los datos, y carga su almacén de datos de forma periódica.

Prepare y cargue datos para su análisis

Puede usar el catálogo de datos de AWS para descubrir y buscar con rapidez en numerosos conjuntos de datos de AWS sin mover los datos. Una vez catalogados, puede realizar búsquedas y consultas inmediatamente con Amazon Athena, Amazon EMR y Amazon Redshift Spectrum.

Cree una vista unificada de sus datos

Los lagos de datos son una manera cada vez más popular de almacenar y analizar datos estructurados y sin estructurar. Si usa un lago de datos de Amazon, AWS Glue puede hacer que sus datos estén inmediatamente disponibles para su análisis sin moverlos. Los rastreadores de Glue pueden escanear su lago de datos y mantener el catálogo de datos de Glue sincronizado con los datos subyacentes. A continuación, puede realizar una consulta en su lago de datos con Amazon Athena y Amazon Redshift Spectrum. También puede usar el catálogo de datos de Glue como metaalmacén externo de Apache Hive para aplicaciones de big data ejecutadas en Amazon EMR.

Cree una vista unificada de sus datos

AWS Glue puede ejecutar sus trabajos ETL en función de un evento, como la obtención de un nuevo conjunto de datos. Por ejemplo, puede usar una función de AWS Lambda para que active sus trabajos ETL de manera que se ejecuten en cuanto haya una nueva base de datos disponible en Amazon S3. También puede registrar este nuevo conjunto de datos en el catálogo de datos de AWS Glue como parte de sus trabajos de ETL.

Automatice los trabajos ETL cuando aparezcan nuevos datos

Es muy fácil comenzar a usar AWS Glue. Simplemente inicie sesión en la consola de administración de AWS y vaya a "Glue" dentro de la categoría "Analytics".

¿Está listo para comenzar su proyecto ETL?

Comience con AWS Glue