Productos›
Análisis›
AWS Glue

1 millón de objetos almacenados de forma gratuita con el nivel gratuito de AWS

AWS Glue

Descubra, prepare e integre todos sus datos a cualquier escala

Comience a utilizar AWS Glue

Obtenga más información sobre la integración de datos de AWS

¿Por qué usar AWS Glue?

El primer paso de un proyecto de análisis o ML consiste en preparar los datos para obtener resultados de calidad. AWS Glue es un servicio de integración de datos sin servidor que vuelve más fácil, rápido y barato el proceso de preparación de datos. Puede detectar y conectarse a más de 70 orígenes de datos distintos, administrar los datos en un catálogo centralizado, además de visualizar, crear, ejecutar y supervisar las canalizaciones de ETL para cargar los datos en los lagos de datos correspondientes.

Introduction to AWS Glue (01:54)

Beneficios de AWS Glue

Todo en uno

Capacidades completas de integración de datos en un servicio sin servidor

Soporte para todas las cargas de trabajo

Soporte flexible para ETL, ELT, lotes, transmisión y más, sin bloqueo

Herramientas personalizadas

Soporte para todos los usuarios de datos, desde desarrolladores hasta usuarios empresariales

Escale bajo demanda

Escala de petabytes, facturación de pago por uso, datos de cualquier tamaño

Funcionamiento

AWS Glue es un servicio de integración de datos sin servidor que facilita la detección, preparación, migración e integración de datos provenientes de varios orígenes para el análisis, machine learning (ML) y desarrollo de aplicaciones.

Opciones de motor de integración de datos
ETL impulsado por eventos
Catálogo de datos de AWS Glue
Trabajos de ETL sin código
Administración y monitoreo de la calidad de la cuenta
Preparación de datos

Opciones de motor de integración de datos
Elija el motor de integración de datos de su preferencia en AWS Glue que sea compatible con sus usuarios y cargas de trabajo.

El diagrama muestra cómo los usuarios de AWS Glue pueden elegir desde las opciones de interfaz hasta la creación de cargas de trabajo usando varios motores de integración de datos. Visualización de cuatro secciones: una a la izquierda, dos en el medio y una a la derecha.

La primera sección que aparece a la izquierda se llama Orígenes de datos. Incluye los siguientes orígenes de datos: Amazon S3, Amazon DynamoDB, Bases de datos ejecutadas en Amazon EC2, Bases de datos y SaaS.

En la primera sección, hay una flecha que apunta hacia la sección del medio, llamada Elección de interfaces, que aparece en la parte superior del diagrama. Esta segunda sección incluye tres elementos: AWS Glue Studio, Cuadernos de Amazon SageMaker y Cuadernos e IDE.

Debajo de esta segunda sección, aparece un texto que dice lo siguiente: “Las interfaces abiertas admiten cargas de trabajo e interactivas”. Este texto incluye una flecha que apunta hacia la segunda sección antes mencionada y que se encuentra por encima, y una flecha apuntando hacia la tercera sección que está debajo.

Esta tercera sección se llama Motores de integración de datos. El texto dice lo siguiente: “Elija el motor de procesamiento de datos escalable y sin servidor de su preferencia con escalado automático y precio de pago por uso”. Esta sección incluye tres nombres de motores: AWS Glue para Ray, AWS Glue para Python y AWS Glue para Apache Spark.

La cuarta sección aparece a la derecha de la segunda sección con una flecha que apunta desde la segunda sección hasta la cuarta. La cuarta sección dice lo siguiente: “Creación y carga de datos en lagos y almacenamientos de datos”. Esta sección también incluye tres elementos: Amazon Redshift, Lagos de datos y Almacenamientos de datos.

Haga clic para agrandar
ETL impulsado por eventos
AWS Glue puede ejecutar sus trabajos de extracción, transformación y carga (ETL) a medida que llegan nuevos datos. Por ejemplo, puede configurar AWS Glue para que los trabajos de ETL se ejecuten en cuanto haya disponibles nuevos datos en Amazon Simple Storage Service (S3).
Catálogo de datos de AWS Glue
Puede usar el catálogo de datos para detectar y buscar con rapidez varios conjuntos de datos de AWS sin mover los datos. Una vez catalogados, puede hacer búsquedas y consultas inmediatamente con Amazon Athena, Amazon EMR y Amazon Redshift Spectrum.
Trabajos de ETL sin código
AWS Glue Studio facilita más la creación, ejecución y supervisión visual de trabajos de ETL en AWS Glue. Puede crear trabajos de ETL que desplazan y transforman datos mediante un editor de arrastrar y soltar, para que AWS Glue genere automáticamente el código.
Administración y monitoreo de la calidad de la cuenta
Calidad de los datos de AWS Glue automatiza la creación, administración y monitoreo de las reglas de calidad de los datos para permitirle garantizar datos de alta calidad en todos los lagos de datos y canalizaciones.

El diagrama muestra cómo se puede usar Calidad de los datos de AWS Glue para crear recomendaciones de reglas, monitorear la calidad de los datos y enviar alertas cuando dicha calidad se deteriore. Se muestran tres secciones de izquierda a derecha.

La primera tiene una ilustración del catálogo de datos de AWS Glue y ETL de AWS Glue. Debajo de Catálogo de datos de AWS Glue, aparece lo siguiente: “Clasificación de todos los conjuntos de datos en los lagos de datos”. Debajo de ETL de AWS Glue, aparece lo siguiente: “Integración y transformación de datos a partir de distintos orígenes de datos”.

La segunda sección tiene el título Calidad de los datos de AWS Glue. Aparecen tres íconos en esta sección. El primero es una lista de comprobación. Debajo de él, aparece la leyenda Recomendaciones de reglas de calidad de datos. Comience a usar recomendaciones automáticas de reglas de calidad de datos. El segundo ícono es un lápiz. Debajo de él, aparece la leyenda Reglas de calidad de datos preconfiguradas. Modifique o agregue recomendaciones con reglas de calidad de datos preconfiguradas. El tercer ícono es una campana. Debajo de él, aparece la leyenda Alertas y medidas. Agregue alertas y medidas a tomar cuando se deteriore la calidad de los datos.

La tercera sección tiene dos íconos apilados. El primero es un gráfico de barras. Debajo de él, aparece la leyenda Métricas. Use las métricas de calidad de los datos para tomar decisiones empresariales con certeza. El segundo ícono es una de advertencia. Debajo de él, aparece la leyenda Alertas. Use las alertas para recibir notificaciones cuando se deteriore la calidad y tomar medidas para arreglar los datos.

Haga clic para agrandar
Preparación de datos
AWS Glue DataBrew permite explorar y experimentar con datos directamente desde lagos de datos, almacenamiento de datos y bases de datos, incluidos Amazon S3, Amazon Redshift, AWS Lake Formation, Amazon Aurora y Amazon Relational Database Service (RDS). Puede elegir entre más de 250 transformaciones prediseñadas en DataBrew para automatizar las tareas de preparación de datos, como filtrar anomalías, estandarizar formatos y corregir valores no válidos.

Casos de uso

Detecte datos de manera efectiva

Quickly identify data across AWS, on premises, and other clouds, and then make it instantly available for querying and transforming.

Obtenga más información sobre el Catálogo de datos de AWS Glue

Explore, experimente y procese los datos de manera interactiva

Using AWS Glue interactive sessions, data engineers can interactively explore and prepare data using the integrated development environment (IDE) or notebook of their choice.

Obtenga más información sobre las sesiones interactivas de AWS Glue

Simplifique el desarrollo de la canalización ETL

Remove infrastructure management with automatic provisioning and worker management, and consolidate all your data integration needs into a single service.

Obtenga más información sobre escalamiento automático de AWS Glue

Novedades

No se encontraron resultados

1 …

…

Explorar más sobre AWS