AWS Glue

Preparación de datos simple, escalable y sin servidor

AWS Glue es un servicio de preparación de datos sin servidor que facilita a los ingenieros de datos, desarrolladores de extracción, transformación y carga (ETL), analistas de datos y científicos de datos extraer, limpiar, enriquecer, normalizar y cargar datos. AWS Glue reduce de meses a minutos el tiempo que lleva comenzar a analizar los datos.

La preparación de datos es un proceso fundamental pero complejo. A fin de preparar los datos para el análisis, primero extraiga los datos de diferentes fuentes. Luego, límpielos, transfórmelos al formato necesario y cárguelos en bases de datos, almacenes de datos y lagos de datos para analizarlos en detalle. Estas tareas a menudo las realizan diferentes grupos con diferentes herramientas.

AWS Glue proporciona interfaces visuales y basadas en código para facilitar la preparación de datos. Los ingenieros de datos y los desarrolladores de ETL pueden utilizar AWS Glue Studio para crear, ejecutar y monitorear flujos de trabajo de ETL con unos pocos clics. Los analistas y los científicos de datos pueden utilizar AWS Glue DataBrew para limpiar y normalizar visualmente los datos sin escribir código.

Introducing AWS Glue (1:47)

Beneficios

Prepare datos más rápido

AWS Glue ofrece herramientas integradas a todos los usuarios a fin de que puedan simplificar la preparación de los datos para el análisis y aprendizaje automático. Diferentes grupos de su organización pueden trabajar juntos para preparar datos, incluida la extracción, limpieza, normalización, carga y ejecución de flujos de trabajo de ETL escalables. De este modo, reduce de meses a minutos el tiempo que lleva comenzar a analizar los datos.

Automatice a escala

AWS Glue automatiza gran parte del esfuerzo necesario para preparar los datos. AWS Glue rastrea sus orígenes de datos, identifica formatos de datos y sugiere esquemas para almacenar los datos. Genera automáticamente el código para ejecutar sus transformaciones de datos y procesos de carga. Puede usar AWS Glue para ejecutar y administrar fácilmente miles de trabajos de ETL con el fin de preparar de manera eficiente petabytes de datos para análisis y aprendizaje automático.

Olvídese de administrar servidores

AWS Glue ejecuta Apache Spark y Python en un entorno sin servidor. No hay infraestructura que administrar y AWS Glue aprovisiona, configura y escala los recursos necesarios para ejecutar sus trabajos de preparación de datos. Solo paga por los recursos que utilizan los trabajos cuando se ejecutan.

Casos de uso


Vista unificada de los datos en numerosos almacenes de datos

Puede usar el catálogo de datos de AWS Glue para descubrir y buscar con rapidez en numerosos conjuntos de datos de AWS sin mover los datos. Una vez catalogados, puede realizar búsquedas y consultas inmediatamente con Amazon Athena, Amazon EMR y Amazon Redshift Spectrum.

Cree y ejecute trabajos de ELT en AWS Glue

Canalizaciones de ETL determinadas por eventos

AWS Glue puede ejecutar sus trabajos de ETL a medida que llegan los datos. Por ejemplo, puede usar una función de AWS Lambda para que active sus trabajos de ETL de manera que se ejecuten en cuanto haya una nueva base de datos disponible en Amazon S3. También puede registrar este nuevo conjunto de datos en el catálogo de datos de AWS Glue como parte de sus trabajos de ETL.

Diagrama de canalizaciones de ETL determinadas por eventos

ETL de big data sin codificar

AWS Glue Studio facilita la creación, ejecución y monitoreo visual de trabajos de ETL en AWS Glue. Puede componer trabajos de ETL que muevan y transformen datos y ejecutarlos en AWS Glue. Luego, puede utilizar el panel de ejecución de trabajos de AWS Glue Studio para monitorear la ejecución de ETL y asegurarse de que los trabajos funcionen según lo previsto. Más información sobre AWS Glue Studio aquí.

Herramienta visual de ETL para desarrolladores de ETL

Preparación de datos visuales de autoservicio

AWS Glue DataBrew permite explorar y experimentar con datos directamente desde su lago de datos, almacenes de datos y bases de datos, incluidos Amazon S3, Amazon Redshift, AWS Lake Formation, Amazon Aurora y Amazon RDS. Puede elegir entre más de 250 transformaciones prediseñadas en AWS Glue DataBrew para automatizar las tareas de preparación de datos, como filtrar anomalías, estandarizar formatos y corregir valores no válidos. Una vez preparados los datos, puede usarlos de inmediato para análisis y aprendizaje automático. Más información sobre AWS Glue DataBrew aquí.

Limpieza y normalización visual de datos

Novedades

fecha
  • fecha
1
Características de AWS Glue
Consulte las características de AWS Glue

Obtenga más información sobre las características clave de AWS Glue.

Más información 
Regístrese para obtener una cuenta de AWS
Regístrese para obtener una cuenta gratuita

Obtenga acceso instantáneo a la capa gratuita de AWS. 

Regístrese 
Comience a crear en la consola
Comience a crear en AWS Glue

Comience a crear con AWS Glue en la interfaz visual de ETL.

Inicie sesión