AWS Glue

Proceso de ETL sencillo, flexible y rentable

AWS Glue es un servicio de extracción, transformación y carga (ETL) completamente administrado que ayuda a los clientes a preparar y cargar los datos para su análisis. Puede crear y ejecutar un trabajo de ETL con tan solo unos clics en la consola de administración de AWS. Simplemente debe apuntar AWS Glue a sus datos almacenados en AWS y AWS Glue encontrará sus datos y almacenará los metadatos asociados (p. ej., esquemas y definiciones de tablas) en el catálogo de datos de AWS Glue. Una vez catalogados, puede realizar búsquedas y consultas inmediatamente en sus datos, que están disponibles para operaciones de ETL. AWS Glue genera el código para ejecutar sus transformaciones de datos y procesos de carga de datos.

AWS Glue genera código personalizable, reutilizable y portátil. Una vez que su trabajo de ETL esté listo, podrá programarlo para que se ejecute en el entorno totalmente administrado y escalable Apache Spark de AWS Glue. AWS Glue proporciona un programador flexible con resolución de dependencias, monitoreo de trabajos y alertas.

AWS Glue es un servicio sin servidor, por lo que no es necesario comprar, configurar ni administrar infraestructura. Aprovisiona automáticamente el entorno necesario para completar el trabajo, y los clientes pagan solamente por los recursos informáticos consumidos al ejecutar trabajos de ETL. Con AWS Glue, los datos pueden estar disponibles para su análisis en cuestión de minutos.

Introducing AWS Glue (1:47)

Beneficios

Facilidad

AWS Glue automatiza gran parte del proceso de creación, mantenimiento y ejecución de trabajos de ETL. AWS Glue rastrea sus orígenes de datos, identifica formatos de datos y sugiere esquemas y transformaciones. AWS Glue genera automáticamente el código para ejecutar sus transformaciones de datos y procesos de carga.

Integración

AWS Glue se integra con una amplia variedad de servicios de AWS, lo que simplifica el proceso de incorporación. AWS Glue es compatible de manera nativa con datos almacenados en Amazon Aurora y con los demás motores de Amazon RDS, Amazon Redshift y Amazon S3, así como también con las bases de datos MySQL, Oracle, Microsoft SQL Server y PostgreSQL de su Virtual Private Cloud (Amazon VPC) en ejecución en Amazon EC2. AWS Glue proporciona integración directa con Amazon Athena, Amazon EMR, Amazon Redshift Spectrum y cualquier aplicación compatible con Apache Hive Metastore.

Sin servidor

AWS Glue es un servicio sin servidor. No es necesario aprovisionar ni administrar infraestructura. AWS Glue administra el aprovisionamiento, la configuración y el escalado de los recursos necesarios para ejecutar sus trabajos de ETL en un entorno Apache Spark totalmente administrado y escalable. Solo paga por los recursos utilizados mientras se ejecutan los trabajos.

Idóneo para desarrolladores

AWS Glue genera código ETL personalizable, reutilizable y portátil, con tecnología conocida: Scala, Python y Apache Spark. También puede importar lectores, escritores y transformaciones personalizadas en su código ETL de Glue. Como el código que AWS Glue genera está basado en marcos abiertos, no hay restricciones. Puede usarlo en cualquier lugar.

Funcionamiento

Seleccione un origen y un destino para los datos. AWS Glue generará código ETL en Scala o Python para extraer datos del origen, transformar los datos de manera que se correspondan con los esquemas de destino y cargarlos en el destino. Puede editar y probar el código y depurar errores mediante la consola, en su IDE favorito o en cualquier bloc de notas.

Paso 1: Cree su catálogo de datos
screenshot-glue-step1-data-catalog2b

Primero, use la consola de administración de AWS para registrar sus fuentes de datos. AWS Glue rastreará las fuentes de datos y construirá un catálogo de datos con clasificadores predeterminados para muchos formatos de origen y tipos de datos conocidos, incluidos JSON, CSV, Parquet y más.

Paso 2: Genere y edite transformaciones
screenshot-glue-step2-etl-generation4

A continuación, seleccione un origen y un destino para los datos. AWS Glue generará código ETL en Scala o Python para extraer datos del origen, transformar los datos de manera que se correspondan con los esquemas de destino y cargarlos en el destino. Puede editar y probar el código y depurar errores mediante la consola, en su IDE favorito o en cualquier bloc de notas.

Paso 3: Programe y ejecute los trabajos
screenshot-glue-step3-orchestration2

AWS Glue facilita la programación de trabajos de ETL periódicos, la encadenación de varios trabajos o la invocación de trabajos bajo demanda de otros servicios, como AWS Lambda. AWS Glue administra las dependencias entre trabajos, escala automáticamente los recursos subyacentes y vuelve a intentar ejecutar los trabajos si se produce un error.

Para obtener más información, visite la página de características de AWS Glue o consulte la documentación del producto.

Casos de uso

Consultas en un lago de datos de Amazon S3

Los lagos de datos son una manera cada vez más popular de almacenar y analizar datos estructurados y sin estructurar. Si usa un lago de datos de Amazon S3, AWS Glue puede hacer que sus datos estén inmediatamente disponibles para su análisis sin moverlos.

product-page-diagram_Glue_Queries-Against-an-Amazo-S3-Data-Lake

Analice datos de registros en su almacén de datos

Prepare su secuencia de clics o procese datos de registros para su análisis mediante tareas de limpieza, normalización y enriquecimiento en los conjuntos de datos con AWS Glue. AWS Glue genera el esquema de sus datos semiestructurados, crea código ETL para transformar, desformatear y enriquecer los datos, y carga su almacén de datos de forma periódica.

product-page-diagram_Glue_Analyze-Log-Data-in-Data-Warehouse

Vista unificada de sus datos en numerosos almacenes de datos

Puede usar el catálogo de datos de AWS Glue para descubrir y buscar con rapidez en numerosos conjuntos de datos de AWS sin mover los datos. Una vez catalogados, puede realizar búsquedas y consultas inmediatamente con Amazon Athena, Amazon EMR y Amazon Redshift Spectrum.

product-page-diagram_Glue_Unified-View-of-Data-Across-Multiple-Data-Stores

Canalizaciones de ETL determinadas por eventos

AWS Glue puede ejecutar sus trabajos de ETL en función de un evento, como la obtención de un nuevo conjunto de datos. Por ejemplo, puede usar una función de AWS Lambda para que active sus trabajos de ETL de manera que se ejecuten en cuanto haya una nueva base de datos disponible en Amazon S3. También puede registrar este nuevo conjunto de datos en el catálogo de datos de AWS Glue como parte de sus trabajos de ETL.

product-page-diagram_Glue_Event-driven-ETL-Pipelines

Introducción a AWS

icon1

Regístrese para obtener una cuenta de AWS

Acceda instantáneamente a la capa gratuita de AWS.
icon2

Aprenda con tutoriales de 10 minutos

Explore y aprenda con tutoriales sencillos.
icon3

Comience a crear con AWS

Comience a crear soluciones con las guías paso a paso, que lo ayudarán a lanzar un proyecto en AWS.

Más información sobre AWS Glue

Visite la página de características
¿Listo para crear?
Comience a utilizar AWS Glue
¿Tiene más preguntas?
Contacte con nosotros