¿Por qué usar AWS Glue?
El primer paso de un proyecto de análisis o ML consiste en preparar los datos para obtener resultados de calidad. AWS Glue es un servicio de integración de datos sin servidor que vuelve más fácil, rápido y barato el proceso de preparación de datos. Puede detectar y conectarse a más de 70 orígenes de datos distintos, administrar los datos en un catálogo centralizado, además de visualizar, crear, ejecutar y supervisar las canalizaciones de ETL para cargar los datos en los lagos de datos correspondientes.
Introduction to AWS Glue (01:54)

Beneficios de AWS Glue

Capacidades completas de integración de datos en un servicio sin servidor
Soporte flexible para ETL, ELT, lotes, transmisión y más, sin bloqueo
Soporte para todos los usuarios de datos, desde desarrolladores hasta usuarios empresariales
Escala de petabytes, facturación de pago por uso, datos de cualquier tamaño

Funcionamiento

AWS Glue es un servicio de integración de datos sin servidor que facilita la detección, preparación, migración e integración de datos provenientes de varios orígenes para el análisis, machine learning (ML) y desarrollo de aplicaciones.

  • Opciones de motor de integración de datos
  • Elija el motor de integración de datos de su preferencia en AWS Glue que sea compatible con sus usuarios y cargas de trabajo.

    Diagrama que muestra varias opciones de motor de procesamiento de datos para AWS Glue.
  • ETL impulsado por eventos
  • AWS Glue puede ejecutar sus trabajos de extracción, transformación y carga (ETL) a medida que llegan nuevos datos. Por ejemplo, puede configurar AWS Glue para que los trabajos de ETL se ejecuten en cuanto haya disponibles nuevos datos en Amazon Simple Storage Service (S3).

    Diagrama que muestra cómo AWS Glue puede ejecutar los trabajos de ETL a medida que llegan nuevos datos.
  • Catálogo de datos de AWS Glue
  • Puede usar el catálogo de datos para detectar y buscar con rapidez varios conjuntos de datos de AWS sin mover los datos. Una vez catalogados, puede hacer búsquedas y consultas inmediatamente con Amazon Athena, Amazon EMR y Amazon Redshift Spectrum.

    Diagrama que muestra cómo el catálogo de datos detecta y busca conjuntos de datos sin desplazar los datos.
  • Trabajos de ETL sin código
  • AWS Glue Studio facilita más la creación, ejecución y supervisión visual de trabajos de ETL en AWS Glue. Puede crear trabajos de ETL que desplazan y transforman datos mediante un editor de arrastrar y soltar, para que AWS Glue genere automáticamente el código.

    Diagrama que muestra cómo los usuarios pueden componer trabajos de ETL que desplazan y transforman datos mediante un editor de arrastrar y soltar.
  • Administración y monitoreo de la calidad de la cuenta
  • Calidad de los datos de AWS Glue automatiza la creación, administración y monitoreo de las reglas de calidad de los datos para permitirle garantizar datos de alta calidad en todos los lagos de datos y canalizaciones.

    Diagrama que muestra cómo Calidad de los datos de AWS Glue automáticamente mide, monitorea y administra la calidad de los datos en los lagos y canalizaciones de datos.
  • Preparación de datos
  • AWS Glue DataBrew permite explorar y experimentar con datos directamente desde lagos de datos, almacenamiento de datos y bases de datos, incluidos Amazon S3, Amazon Redshift, AWS Lake Formation, Amazon Aurora y Amazon Relational Database Service (RDS). Puede elegir entre más de 250 transformaciones prediseñadas en DataBrew para automatizar las tareas de preparación de datos, como filtrar anomalías, estandarizar formatos y corregir valores no válidos.

    Diagrama que muestra cómo DataBrew automatiza las tareas de preparación de datos para los usuarios.

Casos de uso

Detecte datos de manera efectiva

Identifique rápidamente los datos en AWS, en las instalaciones y en otras nubes y, a continuación, pónganlos disponibles al instante para consultarlos y transformarlos.

Respalde varios marcos y cargas de trabajo de procesamiento

Admite más fácilmente varios marcos de procesamiento de datos, como ETL y ELT, y varias cargas de trabajo, como lotes, microlotes y streaming.

Explore, experimente y procese los datos de manera interactiva

Al utilizar las sesiones interactivas de AWS Glue, los ingenieros en datos pueden explorar y preparar datos de manera interactiva utilizando el entorno de desarrollo integrado (IDE) o el bloc de notas de su elección.

Simplifique el desarrollo de la canalización ETL

Elimine la administración de la infraestructura con el aprovisionamiento automático y la administración de los trabajadores, y consolide todas sus necesidades de integración de datos en un solo servicio.

Novedades

  • Fecha (de más reciente a más antigua)
No se encontraron resultados
1

Explorar más sobre AWS