AWS Glue
La nube de AWS
Inscribirse para el adelanto

AWS Glue es un servicio ETL totalmente administrado que facilita la transferencia de datos entre sus almacenes de datos. AWS Glue simplifica y automatiza las difíciles y arduas tareas de descubrimiento, conversión y asignación de datos y las tareas de programación de trabajos. AWS Glue le guía a lo largo del proceso de transferencia de datos con una consola de uso sencillo que le ayuda a comprender sus fuentes de datos, preparar los datos para el análisis y cargarlos de manera fiable de fuentes de datos a destinos.

AWS Glue se integra con Amazon S3, Amazon RDSAmazon Redshift, y se puede conectar con cualquier almacén de datos conforme con JDBC. AWS Glue rastrea automáticamente sus fuentes de datos, identifica formatos de datos y, a continuación, sugiere esquemas y transformaciones para que no tenga que dedicar tiempo a codificar manualmente flujos de datos. En caso necesario, puede editar estas transformaciones con las herramientas y tecnologías que ya conoce, como Python, Spark, Git y su entorno de desarrollo integrado (IDE) preferido, y compartirlas con otros usuarios de AWS Glue. AWS Glue programa sus trabajos ETL y aprovisiona y escala toda la infraestructura necesaria para que los trabajos ETL se ejecuten de manera rápida y eficaz a cualquier escala. No es necesario administrar servidores, y solo paga por los recursos consumidos por los trabajos ETL.

Presentación de AWS Glue (2:17)

video-thumbnail-aws-glue-launch-reinvent2016
Presentación de AWS Glue

Para obtener la información más reciente sobre disponibilidad, inscríbase aquí y le mantendremos informado por correo electrónico.

Paso 1. Cree su catálogo de datos

Primero, use la consola de administración de AWS para registrar sus fuentes de datos con AWS Glue. AWS Glue rastrea las fuentes de datos y construye un catálogo de datos con clasificadores predeterminados para muchos formatos de origen y tipos de datos populares, incluidos JSON, CSV, Parquet y más. También puede agregar sus clasificadores o elegir clasificadores de la comunidad de AWS Glue para añadir a sus rastreos.


Paso 1. Cree su catálogo de datos automáticamente
Paso 1. Cree su catálogo de datos automáticamente

Haga clic para ver la imagen más grande


Paso 2. Genere y edite transformaciones

A continuación, seleccione una fuente de datos y un destino, y AWS Glue generará código Python para extraer datos de la fuente, transformar los datos para que se correspondan con el esquema de destino y cargarlos en el destino. El código autogenerado administra casos de errores comunes, como datos erróneos o fallos del hardware. Puede editar el código con su IDE favorito y probarlo con sus propios datos de muestra. También puede buscar código compartido por otros usuarios de AWS Glue y utilizarlo en sus trabajos.


Paso 2. Genere las transformaciones
Paso 2. Genere las transformaciones

Haga clic para ver la imagen más grande


Paso 3. Programe y ejecute los trabajos

Por último, puede utilizar el programador flexible de AWS Glue para ejecutar sus flujos de forma periódica o como respuesta a activadores, o incluso a eventos de AWS Lambda. AWS Glue distribuye automáticamente sus trabajos ETL en nodos de Apache Spark, para que sus tiempos de ejecución ETL se mantengan constantes a medida que el volumen de los datos crece. AWS Glue coordina la ejecución de sus trabajos en la secuencia adecuada y realiza reintentos de los trabajos fallidos de manera automática. AWS Glue escala elásticamente la infraestructura necesaria para completar trabajos a tiempo y minimizar los costos.


Paso 3. Programe y ejecute los trabajos
Paso 3. Programe y ejecute los trabajos

Haga clic para ver la imagen más grande


Listo.

¡Así de sencillo! Una vez que los trabajos ETL están en producción, AWS Glue le ayuda a monitorizar los cambios en los metadatos, como definiciones de esquemas y formatos de datos, para que pueda mantener sus trabajos ETL actualizados.

reinvent-hkt-banner-01

re:Invent de AWS es la mayor reunión mundial de la comunidad de AWS. El congreso permite conocer con mayor profundidad los servicios de AWS y sus prácticas recomendadas. Hemos presentado AWS Glue en re:Invent 2016. Vea las sesiones siguientes para obtener más información sobre AWS Glue y otros análisis relacionados o eche un vistazo a la lista completa de sesiones destacadas de big data.

AWS Glue es un servicio ETL completamente administrado que facilita la comprensión de las fuentes de datos, la preparación de estos y su transferencia fiable a datastores. En esta sesión, presentamos AWS Glue, ofrecemos información general de sus componentes y explicamos cómo puede utilizar el servicio para simplificar y automatizar su proceso ETL. También le informamos sobre cuándo puede probar el servicio y cómo inscribirse para acceder a una vista previa.

Véalo aquí »

 

El análisis rápido y eficaz de big data requiere de un almacén de datos que esté optimizado para manipular y escalar conjuntos de datos de gran tamaño. Amazon Redshift es un almacén rápido de datos a escala de petabytes que hace que resulte sencillo y rentable analizar big data a una fracción del costo de los almacenes de datos tradicionales. En esta sesión, examinamos en profundidad el almacenamiento de datos con Amazon Redshift para el análisis de big data. Repasamos prácticas recomendadas que permiten aprovechar la tecnología columnar de Amazon Redshift y sus capacidades de procesamiento en paralelo para alcanzar una productividad y un rendimiento de consulta altos. También explicamos cómo diseñar esquemas óptimos, cargar datos eficientemente y utilizar la gestión de la carga de trabajo.

Véalo aquí »

 

El mundo produce un volumen y una variedad cada vez mayores de big data a velocidad creciente. Además del clásico procesamiento por lotes, los consumidores y los negocios hoy requieren análisis al segundo (o incluso al milisegundo) de unos datos que se mueven rápido. AWS ofrece muchas tecnologías para resolver los problemas que presentan los big data. Pero ¿qué servicios utilizar, por qué, cuándo y cómo? En esta sesión simplificamos el procesamiento de big data reduciéndolo a un bus que comprende varias fase: ingesta, almacenamiento, procesamiento y visualización. A continuación, explicamos cómo elegir la tecnología adecuada en cada fase en función de criterios como la estructura de los datos, la latencia de las consultas, el costo, el índice de peticiones, el tamaño de los elementos, el volumen de los datos, la durabilidad, etc. Por último, aportamos arquitectura de referencia, patrones de diseño y prácticas recomendadas para conjugar estas tecnologías y resolver sus problemas de big data al costo adecuado.

Véalo aquí »

 

Inscríbase para el programa de adelanto de AWS Glue aquí. Una vez que obtenga aprobación, podrá probar el servicio de manera gratuita.

Inscríbase para el adelanto