Catálogo de datos integrado

El catálogo de datos de AWS Glue es su almacén de metadatos persistente para todos sus activos de datos, independientemente de dónde se encuentren. El catálogo de datos contiene definiciones de tablas, definiciones de trabajos y otra información de control para ayudarle a administrar su entorno de AWS Glue. Procesa las estadísticas y registra las particiones automáticamente para realizar consultas en sus datos de manera eficaz y rentable. También mantiene un historial de versiones de esquemas exhaustivo para que pueda entender cómo han cambiado sus datos con el tiempo.

Descubrimiento automático de esquemas

Los rastreadores de AWS Glue se conectan con su almacén de datos de origen o de destino, avanzan a lo largo de una lista priorizada de clasificadores para determinar los esquemas para sus datos y crean metadatos en su catálogo de datos de AWS Glue. Los metadatos se almacenan en tablas en su catálogo de datos y se utilizan en el proceso de autoría de sus trabajos ETL. Puede ejecutar rastreadores de acuerdo con un programa, bajo demanda o activarlos en función de un evento para garantizar que los metadatos están actualizados.

Generación de código y ETL visual

AWS Glue Studio le permite crear trabajos de ETL altamente escalables para el procesamiento distribuido sin convertirse en un experto en Apache Spark. Defina su proceso de ETL en el editor de trabajos que permite arrastrar y soltar, y AWS Glue generará automáticamente el código para extraer, transformar y cargar sus datos. El código se genera en Scala o Python y se escribe para Apache Spark.

Limpieza y deduplicación de datos

AWS Glue ayuda a limpiar y preparar sus datos para el análisis sin que usted deba convertirse en un experto en aprendizaje automático. La característica FindMatches deduplica y encuentra registros que no coinciden entre sí. Puede utilizar FindMatches para encontrar registros duplicados en su base de datos de restaurantes, como por ejemplo, cuando un registro dice “Joe's Pizza” en “121 Main St.” y otro muestra “Joseph's Pizzeria” en “121 Main”. FindMatches simplemente le pedirá que etiquete un conjunto de registros como “coincidente” o “no coincidente”. Luego, el sistema aprenderá su criterio para determinar la coincidencia de dos registros y creará un trabajo de ETL que usted puede utilizar para encontrar los registros duplicados dentro de una base de datos o los registros coincidentes entre dos bases de datos.

Puntos de enlace para desarrolladores

Si elige desarrollar su código ETL interactivamente, AWS Glue proporciona puntos de enlace de desarrollo para que edite y pruebe el código que genera y elimine errores. Puede usar su IDE o bloc de notas preferido. Puede escribir lecturas, escrituras o transformaciones personalizadas e importarlas en sus trabajos de ETL de AWS Glue como bibliotecas personalizadas. También puede usar y compartir código con otros desarrolladores en nuestro repositorio GitHub.

Programador de trabajos flexible

Los trabajos de AWS Glue pueden invocarse de acuerdo con un programa, bajo demanda o en función de un evento. Puede comenzar varios trabajos simultáneamente o especificar dependencias entre trabajos para crear canalizaciones ETL complejas. AWS Glue se ocupará de todas las dependencias entre trabajos, filtrará los datos con errores y volverá a intentar procesar los trabajos si se produce un error. Todos los registros y las notificaciones se envían a Amazon CloudWatch, de modo que puede monitorizarlos y recibir alertas desde un servicio central.

Streaming de procesos ETL sin servidor

Los trabajos de streaming de procesos ETL sin servidor de AWS Glue consumen datos constantemente de los orígenes de datos de streaming, incluidos Amazon Kinesis y Amazon MSK, los limpian, los transforman en datos en tránsito y los ponen a disposición para su análisis en segundos en su almacén de datos de destino. Utilice esta característica para procesar datos de eventos como transmisiones de eventos de IoT, secuencias de clics y registros de redes. Los trabajos de transmisiones de procesos ETL de AWS Glue pueden enriquecer y agregar datos, unir fuentes por lotes y de transmisión, además de ejecutar una variedad de complejas operaciones de análisis y aprendizaje automático.

Precios de AWS Glue
Visite la página de precios

Analice las opciones de precios de AWS Glue.

Más información 
Regístrese para obtener una cuenta de AWS
Regístrese para obtener una cuenta gratuita

Obtenga acceso instantáneo a la capa gratuita de AWS. 

Regístrese 
Comience a crear en la consola
Comience a crear en la consola

Comience a crear con AWS Glue en la consola de administración de AWS.

Iniciar sesión