Detección de datos

Detecte y busque en todos sus conjuntos de datos de AWS

El catálogo de datos de AWS Glue es su almacén de metadatos persistente para todos sus activos de datos, independientemente de dónde se encuentren. El catálogo de datos contiene definiciones de tablas, definiciones de trabajos, esquemas y otra información de control para ayudarlo a administrar su entorno de AWS Glue. Procesa las estadísticas y registra las particiones automáticamente para realizar consultas en sus datos de manera eficaz y rentable. También mantiene un historial de versiones de esquemas exhaustivo para que pueda entender cómo han cambiado sus datos con el tiempo.

Descubrimiento automático de esquemas

Los rastreadores de AWS Glue se conectan con su almacén de datos de origen o de destino, avanzan a lo largo de una lista priorizada de clasificadores para determinar los esquemas para sus datos y crean metadatos en su catálogo de datos de AWS Glue. Los metadatos se almacenan en tablas en su catálogo de datos y se utilizan en el proceso de autoría de sus trabajos ETL. Puede ejecutar rastreadores de acuerdo con un programa, bajo demanda o activarlos en función de un evento para garantizar que los metadatos estén actualizados.

Administre y haga cumplir los esquemas de los flujos de datos

El registro de esquemas de AWS Glue es una característica sin servidores de AWS Glue que permite validar y controlar la evolución de los datos de streaming mediante esquemas registrados de Apache Avro sin coste adicional. Mediante los serializadores y deserializadores con licencia de Apache, el registro de esquemas se integra con aplicaciones Java desarrolladas para Apache Kafka, Amazon Managed Streaming for Apache Kafka (MSK), Amazon Kinesis Data Streams, Apache Flink, Amazon Kinesis Data Analytics for Apache Flink y AWS Lambda. Cuando las aplicaciones de streaming de datos se integran con el registro de esquemas, puede mejorar la calidad de los datos y protegerse contra cambios inesperados mediante comprobaciones de compatibilidad que controlan la evolución del esquema. Además, puede crear o actualizar las tablas y particiones de AWS Glue mediante esquemas almacenados en el registro.

Transformación de datos

Transforme visualmente los datos con una interfaz de arrastrar y soltar

AWS Glue Studio le permite crear trabajos de ETL altamente escalables para el procesamiento distribuido sin convertirse en un experto en Apache Spark. Defina su proceso de ETL en el editor de trabajos que permite arrastrar y soltar, y AWS Glue generará automáticamente el código para extraer, transformar y cargar sus datos. El código se genera en Scala o Python y se escribe para Apache Spark.

Cree complejas canalizaciones de ETL con una simple programación de trabajos

Los trabajos de AWS Glue pueden invocarse de acuerdo con un programa, bajo demanda o en función de un evento. Puede comenzar varios trabajos simultáneamente o especificar dependencias entre trabajos para crear canalizaciones ETL complejas. AWS Glue se ocupará de todas las dependencias entre trabajos, filtrará los datos con errores y volverá a intentar procesar los trabajos si se produce un error. Todos los registros y las notificaciones se envían a Amazon CloudWatch, de modo que puede supervisarlos y recibir alertas desde un servicio central.

Limpie y transforme streaming de datos en tránsito

Los trabajos de streaming de procesos ETL sin servidor de AWS Glue consumen datos constantemente de los orígenes de datos de streaming, incluidos Amazon Kinesis y Amazon MSK, los limpian, los transforman en datos en tránsito y los ponen a disposición para su análisis en segundos en su almacén de datos de destino. Utilice esta característica para procesar datos de eventos como transmisiones de eventos de IoT, secuencias de clics y registros de redes. Los trabajos de ETL de streaming de AWS Glue pueden enriquecer y agregar datos, unir orígenes por lotes y streaming, además de ejecutar una variedad de complejas operaciones de análisis y aprendizaje automático.

Replicación de datos

Combine y replique datos en numerosos almacenes de datos con SQL

AWS Glue Elastic Views le permite crear vistas de los datos almacenados en múltiples tipos de almacenes de datos de AWS y materializar las vistas en un almacén de datos de destino de su elección. Puede utilizar AWS Glue Elastic Views para crear vistas materializadas al escribir consultas en PartiQL. PartiQL es un lenguaje de consulta de código abierto compatible con SQL que puede utilizarse para consultar y manipular datos, independientemente de si los datos tienen una estructura tabular o flexible, como un documento. Puede escribir consultas de PartiQL de forma interactiva con el editor de consultas en la consola de administración de AWS o emitir consultas a través de la API o la CLI.

AWS Glue Elastic Views apoya a Amazon DynamoDB como origen (con soporte para Amazon Aurora y Amazon RDS próximamente), y Amazon Redshift, Amazon Elasticsearch Service y Amazon S3 como destinos (compatibilidad con Amazon Aurora, Amazon RDS y Amazon DynamoDB próximamente). Puede acelerar el tiempo de desarrollo si comparte sus puntos de vista materializados con otros usuarios para utilizarlos en sus aplicaciones. AWS Glue Elastic Views supervisa los cambios en los datos de su fuente de datos almacenados continuamente y proporciona actualizaciones a sus datos de destino almacenados automáticamente. Más información sobre AWS Glue Elastic Views.

Preparación de datos

Desduplicar y limpiar los datos con el aprendizaje automático incorporado

AWS Glue ayuda a limpiar y preparar sus datos para el análisis sin que deba convertirse en un experto en aprendizaje automático. La característica FindMatches deduplica y encuentra registros que no coinciden entre sí. Puede utilizar FindMatches para encontrar registros duplicados en su base de datos de restaurantes; por ejemplo, cuando un registro dice “Joe's Pizza” en “121 Main St.” y otro muestra “Joseph's Pizzeria” en “121 Main”. FindMatches simplemente le pedirá que etiquete un conjunto de registros como “coincidente” o “no coincidente”. Luego, el sistema aprenderá su criterio para determinar la coincidencia de dos registros y creará un trabajo de ETL que se puede utilizar para encontrar los registros duplicados dentro de una base de datos o los registros coincidentes entre dos bases de datos.

Edite, depure y pruebe el código ETL con los puntos de enlace del desarrollador

Si elige desarrollar su código ETL interactivamente, AWS Glue proporciona puntos de enlace de desarrollo para que edite y pruebe el código que genera y elimine errores. Puede usar su IDE o bloc de notas preferido. Puede escribir lecturas, escrituras o transformaciones personalizadas e importarlas en sus trabajos de ETL de AWS Glue como bibliotecas personalizadas. También puede usar y compartir código con otros desarrolladores en nuestro repositorio GitHub.

Normalice los datos sin código mediante una interfaz visual

AWS Glue DataBrew proporciona una interfaz visual interactiva en la que se apunta y hace clic para que usuarios como analistas o científicos de datos limpien y normalicen los datos sin escribir código. Puede visualizar, limpiar y normalizar fácilmente los datos directamente desde su lago de datos, almacenes de datos y bases de datos, incluidos Amazon S3, Amazon Redshift, Amazon Aurora y Amazon RDS. Puede elegir entre más de 250 transformaciones integradas para combinar, agrupar y transponer los datos y automatizar las tareas de preparación de datos mediante la aplicación de las transformaciones guardadas directamente en los nuevos datos entrantes.

Precios de AWS Glue
Visite la página de precios

Analice las opciones de precios de AWS Glue.

Más información 
Regístrese para obtener una cuenta de AWS
Regístrese para obtener una cuenta gratuita

Obtenga acceso instantáneo a la capa gratuita de AWS. 

Regístrese 
Comience a crear en la consola
Comience a crear en la consola

Comience a crear con AWS Glue en la consola de administración de AWS.

Iniciar sesión