Detección

Detecte y busque en todos los conjuntos de datos de AWS

El catálogo de datos de AWS Glue es su almacén de metadatos persistente para todos sus activos de datos, independientemente de dónde se encuentren. El catálogo de datos contiene definiciones de tablas, definiciones de trabajos, esquemas y otra información de control para ayudarlo a administrar su entorno de AWS Glue. Procesa las estadísticas y registra las particiones automáticamente para realizar consultas en sus datos de manera eficaz y rentable. También mantiene un historial de versiones de esquemas exhaustivo para que pueda entender cómo han cambiado sus datos con el tiempo.

Descubrimiento automático de esquemas

Los rastreadores de AWS Glue se conectan con su almacén de datos de origen o de destino, avanzan a lo largo de una lista priorizada de clasificadores para determinar los esquemas para sus datos y crean metadatos en su catálogo de datos de AWS Glue. Los metadatos se almacenan en tablas en su catálogo de datos y se utilizan en el proceso de autoría de sus trabajos ETL. Puede ejecutar rastreadores de acuerdo con un programa, bajo demanda o activarlos en función de un evento para garantizar que los metadatos estén actualizados.

Administre y haga cumplir los esquemas de los flujos de datos

El registro de esquemas de AWS Glue es una característica sin servidores de AWS Glue que permite validar y controlar la evolución de los datos de streaming mediante esquemas registrados de Apache Avro sin coste adicional. Mediante los serializadores y deserializadores con licencia de Apache, el registro de esquemas se integra con aplicaciones Java desarrolladas para Apache Kafka, Amazon Managed Streaming for Apache Kafka (MSK), Amazon Kinesis Data Streams, Apache Flink, Amazon Kinesis Data Analytics for Apache Flink y AWS Lambda. Cuando las aplicaciones de streaming de datos se integran con el registro de esquemas, puede mejorar la calidad de los datos y protegerse contra cambios inesperados mediante comprobaciones de compatibilidad que controlan la evolución del esquema. Además, puede crear o actualizar las tablas y particiones de AWS Glue mediante esquemas almacenados en el registro.

Escale automáticamente en función de la carga de trabajo

El escalado automático de AWS Glue, una característica sin servidor de AWS Glue, escala y reduce verticalmente los recursos de manera automática en función de la carga de trabajo. Con el escalado automático, se asignan empleados a un trabajo únicamente cuando es necesario. A medida que el trabajo progresa y atraviesa transformaciones avanzadas, AWS Glue agrega y quita recursos según cuánto pueda dividir la carga de trabajo. Ya no es necesario preocuparse por el exceso de aprovisionamiento de recursos, pasar tiempo optimizando el número de empleados ni pagar por recursos inactivos.

Preparación

Deduplique y borre los datos con aprendizaje automático integrado

AWS Glue ayuda a limpiar y preparar sus datos para el análisis sin que deba convertirse en un experto en aprendizaje automático. La característica FindMatches deduplica y encuentra registros que no coinciden entre sí. Puede utilizar FindMatches para encontrar registros duplicados en su base de datos de restaurantes; por ejemplo, cuando un registro dice “Joe's Pizza” en “121 Main St.” y otro muestra “Joseph's Pizzeria” en “121 Main”. FindMatches simplemente le pedirá que etiquete un conjunto de registros como “coincidente” o “no coincidente”. Luego, el sistema aprenderá su criterio para determinar la coincidencia de dos registros y creará un trabajo de ETL que se puede utilizar para encontrar los registros duplicados dentro de una base de datos o los registros coincidentes entre dos bases de datos.

Edite, depure y pruebe el código ETL con los puntos de enlace del desarrollador

Si elige desarrollar su código ETL interactivamente, AWS Glue proporciona puntos de enlace de desarrollo para que edite y pruebe el código que genera y elimine errores. Puede usar su IDE o bloc de notas preferido. Puede escribir lecturas, escrituras o transformaciones personalizadas e importarlas en sus trabajos de ETL de AWS Glue como bibliotecas personalizadas. También puede usar y compartir código con otros desarrolladores en nuestro repositorio GitHub.

Normalice los datos sin código mediante una interfaz visual

AWS Glue DataBrew proporciona una interfaz visual interactiva en la que se apunta y hace clic para que usuarios como analistas o científicos de datos limpien y normalicen los datos sin escribir código. Puede visualizar, limpiar y normalizar fácilmente los datos directamente desde su lago de datos, almacenes de datos y bases de datos, incluidos Amazon S3, Amazon Redshift, Amazon Aurora y Amazon RDS. Puede elegir entre más de 250 transformaciones integradas para combinar, agrupar e intercambiar los datos, así como automatizar las tareas de preparación de datos mediante la aplicación de las transformaciones guardadas directamente en los nuevos datos entrantes.

Defina, detecte y corrija información confidencial

AWS Glue Sensitive Data Detection le permite definir, identificar y procesar información confidencial en una canalización de datos y lago de datos. Una vez identificada la información confidencial, para corregirla, puede ocultar, sustituir o denunciar los datos de información de identificación personal (PII) u otros tipos de datos que se consideren confidenciales. La detección de datos confidenciales de AWS Glue simplifica la identificación y enmascaramiento de información confidencial, incluida la información de identificación personal (PII, por sus siglas en inglés), como el nombre, el número de seguridad social, la dirección,el correo electrónico y el carné de conducir.

Escalado del código Python existente con Ray (vista previa)

A los desarrolladores les gusta Python por su facilidad de uso y su amplia colección de bibliotecas de procesamiento de datos incorporadas. Quieren usar un tipo primitivo de Python que les es familiar para procesar grandes conjuntos de datos. AWS Glue para Ray ayuda a los ingenieros de datos a procesar grandes conjuntos de datos mediante Python y sus bibliotecas populares. AWS Glue para Ray usa Ray.io, un marco de computación unificado de código abierto que permite escalar las cargas de trabajo de Python desde un solo nodo hasta cientos de ellos. AWS Glue para Ray es un servicio sin servidor, por lo que no hay que administrar infraestructura.

Creación de transformaciones visuales personalizadas

AWS Glue ayuda a crear transformaciones visuales personalizadas para que pueda definir, volver a usar o compartir la lógica ETL. Con las transformaciones visuales personalizadas de AWS Glue, los ingenieros de datos pueden escribir y compartir una lógica de Apache Spark que sea específicamente empresarial, reducir la dependencia en los desarrolladores de Spark y simplificar la actualización de los trabajos de ETL. Estas transformaciones están disponibles para todos los trabajos de la cuenta de AWS, ya sean visuales o basados en código.

Integración

Simplifique el desarrollo de trabajos de integración de datos

AWS Glue Interactive Sessions, una característica sin servidor para el desarrollo de trabajos, simplifica el desarrollo de trabajos de integración de datos. AWS Glue Interactive Sessions permite a los ingenieros de datos explorar y preparar los datos de forma interactiva. Los ingenieros pueden explorar y procesar datos, así como experimentar con ellos, de manera interactiva mediante el IDE o cuaderno de su elección.

Job Notebooks integrado

AWS Glue Studio Job Notebooks ofrece cuadernos sin servidor con una configuración mínima en AWS Glue Studio para que los desarrolladores puedan comenzar rápidamente. Glue Studio Job Notebooks proporciona una interfaz integrada para AWS Glue Interactive Sessions que permite a los usuarios guardar y programar el código de los cuadernos como trabajos de AWS Glue.

Cree canalizaciones de ETL complejas con una simple programación de trabajos

Los trabajos de AWS Glue pueden invocarse de acuerdo con un programa, bajo demanda o en función de un evento. Puede comenzar varios trabajos simultáneamente o especificar dependencias entre trabajos para crear canalizaciones ETL complejas. AWS Glue se ocupará de todas las dependencias entre trabajos, filtrará los datos con errores y volverá a intentar procesar los trabajos si se produce un error. Todos los registros y las notificaciones se envían a Amazon CloudWatch, de modo que pueda monitorizarlos y recibir alertas desde un servicio central.

Aplicar e implementar las prácticas recomendadas de DevOps con la integración de Git

AWS Glue se integra con Git, el tan usado sistema de control de versiones de código abierto. Puede usar GitHub y AWS CodeCommit para mantener un historial de cambios de sus trabajos de AWS Glue y aplicar prácticas de DevOps existentes para implementarlos. La integración con Git en AWS Glue funciona para todos los tipos de trabajo de AWS Glue, ya sean visuales o basados en código. Incluye la integración con GitHub y AWS CodeCommit, además de que simplifica el uso de herramientas de automatización, como Jenkins y AWS CodeDeploy para implementar trabajos de AWS Glue.

Reduzca los costos para cargas de trabajo no urgentes con ejecución de trabajos flexible

AWS Glue Flex es una clase de trabajo de ejecución flexible que le permite reducir el costo de sus cargas de trabajo de integración de datos no urgentes (por ejemplo, trabajos de preproducción, pruebas, cargas de datos, etc.) hasta un 35 %. Glue ahora tiene dos clases de ejecución de trabajos: estándar y flexible. La clase de ejecución estándar es ideal para cargas de trabajo sensibles al tiempo que requieren un inicio rápido del trabajo y recursos dedicados. Glue Flex es adecuada para trabajos que no sean urgentes y cuyos tiempos de inicio y finalización pueden variar.

Lea, inserte, actualice y elimine archivos del lago de datos

AWS Glue admite de forma nativa tres marcos de código abierto, como Apache Hudi, Apache Iceberg y Linux Foundation Delta Lake. Estos marcos ayudan a administrar los datos de manera coherente desde un punto de vista transaccional para usarlos en el lago de datos basado en Amazon Simple Storage Service (Amazon S3).

Provea datos de alta calidad en las canalizaciones y los lagos de datos (vista preliminar)

La calidad de los datos de AWS Glue le permite mejorar la calidad de sus datos y su confianza. De forma automática, mide, monitorea y administra la calidad de los datos en sus canalizaciones y lagos de datos. Además, automáticamente procesa estadísticas, sugiere reglas de calidad, monitorea y emite alertas cuando la calidad disminuye, lo que facilita el hallazgo de los datos faltantes, obsoletos o incorrectos antes de que afecten su negocio.

Transformación

Transforme visualmente los datos con una interfaz de arrastrar y soltar

AWS Glue Studio le permite crear trabajos de ETL altamente escalables para el procesamiento distribuido sin convertirse en un experto en Apache Spark. Defina su proceso de ETL en el editor de trabajos que permite arrastrar y soltar, y AWS Glue generará automáticamente el código para extraer, transformar y cargar sus datos. El código se genera en Scala o Python y se escribe para Apache Spark.

Limpie y transforme datos de streaming en tránsito

Los trabajos de streaming de procesos ETL sin servidor de AWS Glue consumen datos constantemente de los orígenes de datos de streaming, incluidos Amazon Kinesis y Amazon MSK, los limpian, los transforman en datos en tránsito y los ponen a disposición para su análisis en segundos en su almacén de datos de destino. Utilice esta característica para procesar datos de eventos como transmisiones de eventos de IoT, secuencias de clics y registros de redes. Los trabajos de ETL de streaming de AWS Glue pueden enriquecer y agregar datos, unir orígenes por lotes y streaming, además de poner en marcha una variedad de operaciones complejas de análisis y machine learning.

Precios de AWS Glue
Visite la página de precios

Analice las opciones de precios de AWS Glue.

Más información 
Regístrese para obtener una cuenta de AWS
Regístrese para obtener una cuenta gratuita

Obtenga acceso instantáneo a la capa gratuita de AWS. 

Registrarse 
Comience a crear en la consola
Comience a crear en la consola

Comience a crear con AWS Glue en la consola de administración de AWS.

Iniciar sesión