¿Por qué usar AWS Glue?
El primer paso de un proyecto de análisis o ML consiste en preparar los datos para obtener resultados de calidad. AWS Glue es un servicio de integración de datos sin servidor que vuelve más fácil, rápido y barato el proceso de preparación de datos. Puede detectar y conectarse a más de 70 orígenes de datos distintos, administrar los datos en un catálogo centralizado, además de visualizar, crear, ejecutar y supervisar las canalizaciones de ETL para cargar los datos en los lagos de datos correspondientes.
Introduction to AWS Glue (01:54)

Beneficios de AWS Glue

Capacidades completas de integración de datos en un servicio sin servidor
Soporte flexible para ETL, ELT, lotes, transmisión y más, sin bloqueo
Soporte para todos los usuarios de datos, desde desarrolladores hasta usuarios empresariales
Escala de petabytes, facturación de pago por uso, datos de cualquier tamaño

Funcionamiento

AWS Glue es un servicio de integración de datos sin servidor que facilita la detección, preparación, migración e integración de datos provenientes de varios orígenes para el análisis, machine learning (ML) y desarrollo de aplicaciones.

  • Opciones de motor de integración de datos
  • Elija el motor de integración de datos de su preferencia en AWS Glue que sea compatible con sus usuarios y cargas de trabajo.

    Diagrama que muestra varias opciones de motor de procesamiento de datos para AWS Glue.
  • ETL impulsado por eventos
  • AWS Glue puede ejecutar sus trabajos de extracción, transformación y carga (ETL) a medida que llegan nuevos datos. Por ejemplo, puede configurar AWS Glue para que los trabajos de ETL se ejecuten en cuanto haya disponibles nuevos datos en Amazon Simple Storage Service (S3).

    Diagrama que muestra cómo AWS Glue puede ejecutar los trabajos de ETL a medida que llegan nuevos datos.
  • Catálogo de datos de AWS Glue
  • Puede usar el catálogo de datos para detectar y buscar con rapidez varios conjuntos de datos de AWS sin mover los datos. Una vez catalogados, puede hacer búsquedas y consultas inmediatamente con Amazon Athena, Amazon EMR y Amazon Redshift Spectrum.

    Diagrama que muestra cómo el catálogo de datos detecta y busca conjuntos de datos sin desplazar los datos.
  • Trabajos de ETL sin código
  • AWS Glue Studio facilita más la creación, ejecución y supervisión visual de trabajos de ETL en AWS Glue. Puede crear trabajos de ETL que desplazan y transforman datos mediante un editor de arrastrar y soltar, para que AWS Glue genere automáticamente el código.

    Diagrama que muestra cómo los usuarios pueden componer trabajos de ETL que desplazan y transforman datos mediante un editor de arrastrar y soltar.
  • Administración y monitoreo de la calidad de la cuenta
  • Calidad de los datos de AWS Glue automatiza la creación, administración y monitoreo de las reglas de calidad de los datos para permitirle garantizar datos de alta calidad en todos los lagos de datos y canalizaciones.

    Diagrama que muestra cómo Calidad de los datos de AWS Glue automáticamente mide, monitorea y administra la calidad de los datos en los lagos y canalizaciones de datos.
  • Preparación de datos
  • AWS Glue DataBrew permite explorar y experimentar con datos directamente desde lagos de datos, almacenamiento de datos y bases de datos, incluidos Amazon S3, Amazon Redshift, AWS Lake Formation, Amazon Aurora y Amazon Relational Database Service (RDS). Puede elegir entre más de 250 transformaciones prediseñadas en DataBrew para automatizar las tareas de preparación de datos, como filtrar anomalías, estandarizar formatos y corregir valores no válidos.

    Diagrama que muestra cómo DataBrew automatiza las tareas de preparación de datos para los usuarios.

Casos de uso

Detecte datos de manera efectiva

Quickly identify data across AWS, on premises, and other clouds, and then make it instantly available for querying and transforming.

Explore, experimente y procese los datos de manera interactiva

Using AWS Glue interactive sessions, data engineers can interactively explore and prepare data using the integrated development environment (IDE) or notebook of their choice.

Simplifique el desarrollo de la canalización ETL

Remove infrastructure management with automatic provisioning and worker management, and consolidate all your data integration needs into a single service.

Novedades

  • Fecha (de más reciente a más antigua)
No se encontraron resultados
1

Explorar más sobre AWS