Preguntas frecuentes sobre AWS Glue

Aspectos generales

P: ¿Qué es AWS Glue?

AWS Glue es un servicio de integración de datos sin servidores que facilita la detección, preparación y combinación de datos para análisis, machine learning y desarrollo de aplicaciones. AWS Glue proporciona todas las capacidades que se necesitan para la integración de datos, para que pueda comenzar a analizarlos y usarlos en minutos en vez de meses. AWS Glue proporciona interfaces visuales y basadas en código para facilitar la integración de datos. Los usuarios pueden encontrar datos y acceder a ellos fácilmente con el catálogo de datos de AWS Glue. Los ingenieros de datos y los desarrolladores de ETL (extracción, trasformación y carga) pueden utilizar AWS Glue Studio para crear, ejecutar y supervisar visualmente flujos de trabajo con unos pocos clics. Los analistas y los científicos de datos pueden utilizar AWS Glue DataBrew para completar, limpiar y normalizar visualmente los datos sin escribir código.

P: ¿Cómo puedo comenzar a utilizar AWS Glue?

Para empezar a usar AWS Glue, simplemente inicie sesión en la consola de administración de AWS y vaya a "Glue" dentro de la categoría "Analytics" (Análisis). Puede utilizar uno de nuestros tutoriales guiados, que le mostrará paso a paso un caso de uso de AWS Glue de ejemplo. También puede encontrar el código ETL de muestra en nuestro repositorio de GitHub, en los laboratorios de AWS.

P: ¿Cuáles son los componentes principales de AWS Glue?

AWS Glue consiste en un catálogo de datos que es un repositorio de metadatos central; un motor ETL que puede generar automáticamente código Scala o Python; un programador flexible que gestiona resolución de dependencias, supervisión de trabajos y reintentos y AWS Glue DataBrew para limpiar y normalizar datos con una interfaz visual. En combinación, estos elementos automatizan la mayoría de las arduas tareas que conllevan la búsqueda, la categorización, la limpieza, el enriquecimiento y el traslado de datos, de modo que puede dedicar más tiempo a analizarlos.

P: ¿Cuándo debería usar AWS Glue?

Debería utilizar AWS Glue para detectar las propiedades de los datos que posee, transformarlos y prepararlos para su análisis. Glue puede detectar automáticamente datos estructurados y semiestructurados almacenados en su lago de datos de Amazon S3, almacenamiento de datos en Amazon Redshift y diversas bases de datos ejecutadas en AWS. Proporciona una vista unificada de los datos mediante el catálogo de datos de Glue disponible para ETL, consultas e informes mediante servicios como Amazon Athena, Amazon EMR y Amazon Redshift Spectrum. Glue genera automáticamente código Scala o Python para sus trabajos ETL que puede personalizar aún más mediante el uso de las herramientas que ya conoce. Puede utilizar AWS Glue DataBrew para limpiar y normalizar visualmente los datos sin escribir código.

P: ¿Con qué orígenes de datos es compatible AWS Glue?

AWS Glue es compatible de forma nativa con los datos almacenados en Amazon Aurora, Amazon RDS for MySQL, Amazon RDS for Oracle, Amazon RDS for PostgreSQL, Amazon RDS for SQL Server, Amazon Redshift, DynamoDB y Amazon S3, así como también en bases de datos de MySQL, Oracle, Microsoft SQL Server y PostgreSQL en su nube virtual privada (Amazon VPC) en ejecución en Amazon EC2. AWS Glue también es compatible con transmisiones de datos de Amazon MSK, Amazon Kinesis Data Streams y Apache Kafka.

También puede escribir código Scala o Python personalizado e importar bibliotecas personalizadas y archivos Jar en sus trabajos de ETL de AWS Glue para acceder a orígenes de datos no compatibles de forma nativa con AWS Glue. Para obtener más información sobre la importación de bibliotecas personalizadas, consulte nuestra documentación.

P: ¿Cómo se relaciona AWS Glue con AWS Lake Formation?

R: AWS Lake Formation aprovecha una infraestructura compartida con AWS Glue, incluidos los controles de consola, la creación de código ETL y la supervisión de trabajos, un catálogo de datos común y una arquitectura sin servidores. Mientras que AWS Glue sigue enfocado en este tipo de funciones, AWS Lake Formation abarca las características de AWS Glue Y además proporciona capacidades adicionales diseñadas para ayudar a crear, asegurar y administrar un lago de datos. Consulte las páginas de AWS Lake Formation para obtener más detalles.

Catálogo de datos de AWS Glue

P: ¿Qué es el catálogo de datos de AWS Glue?

El catálogo de datos de AWS Glue es un repositorio central que almacena metadatos estructurales y operativos para sus recursos de datos. Para un conjunto de datos determinado, puede almacenar la definición de la tabla y la ubicación física, agregar atributos relevantes para la empresa y realizar un seguimiento de cómo los datos han cambiado con el tiempo.

El catálogo de datos de AWS Glue es compatible con Apache Hive Metastore y un sustituto de transferencia rápida de Apache Hive Metastore para aplicaciones de big data ejecutadas en Amazon EMR. Para obtener más información sobre cómo configurar su clúster de EMR para que use el catálogo de datos de AWS Glue como Apache Hive Metastore, haga clic aquí.

El catálogo de datos de AWS Glue también se integra de serie con Amazon Athena, Amazon EMR y Amazon Redshift Spectrum. Una vez que agregue las definiciones de tablas al catálogo de datos de Glue, estarán disponibles para ETL y también para consultas en Amazon Athena, Amazon EMR y Amazon Redshift Spectrum, de modo que dispondrá de una vista común de los datos entre estos servicios.

P: ¿Cómo puedo incluir mis metadatos en el catálogo de datos de AWS Glue?

AWS Glue proporciona varias maneras de enviar metadatos al catálogo de datos de AWS Glue. Los rastreadores de Glue escanean varios almacenes de datos que posee para deducir automáticamente esquemas y la estructura de particiones y rellenar el catálogo de datos de Glue con las estadísticas y definiciones de tablas correspondientes. Puede programar rastreadores para que se ejecuten de manera periódica, de modo que los metadatos siempre estén actualizados y sincronizados con los datos subyacentes. Opcionalmente, puede agregar y actualizar los datos de la tabla manualmente a través de la consola de AWS Glue o mediante una llamada a la API. También puede ejecutar enunciados DDL de Hive mediante la consola de Amazon Athena o un cliente Hive de un clúster de Amazon EMR. Por último, si ya tiene un Apache Hive Metastore persistente, puede realizar una importación masiva de los metadatos al catálogo de datos de AWS Glue con nuestra secuencia de comandos de importación.

P: ¿Qué son los rastreadores de AWS Glue?

Un rastreador de AWS Glue se conecta con un almacén de datos, avanza a través de una lista priorizada de clasificadores para extraer los esquemas de sus datos y otras estadísticas, y rellena el catálogo de datos de Glue con estos metadatos. Los rastreadores pueden ejecutarse de manera periódica para detectar la disponibilidad de nuevos datos, así como cambios en los datos existentes, incluidos cambios en la definición de una tabla. Los rastreadores añaden nuevas tablas, nuevas particiones a tablas existentes y nuevas versiones de las definiciones de tablas de manera automática. Puede personalizar los rastreadores de Glue para que clasifiquen sus propios tipos de archivos.

P: ¿Cómo puedo importar datos desde mi Apache Hive Metastore al catálogo de datos de AWS Glue?

Simplemente tiene que ejecutar un trabajo ETL que lea desde su Apache Hive Metastore, exporte los datos en un formato intermedio en Amazon S3 y, a continuación, importe los datos al catálogo de datos de AWS Glue.

P: ¿Tengo que mantener el Apache Hive Metastore si almaceno los metadatos en el catálogo de datos de AWS Glue?

No. El catálogo de datos de AWS Glue es compatible con Apache Hive Metastore. Puede apuntar al punto de enlace del catálogo de datos de Glue y usarlo como sustituto de Apache Hive Metastore. Para obtener más información sobre cómo configurar su clúster para que use el catálogo de datos de AWS Glue como Apache Hive Metastore, consulte nuestra documentación aquí.

P: Si ya utilizo Amazon Athena o Amazon Redshift Spectrum y tengo datos en el catálogo de datos interno de Amazon Athena, ¿cómo puedo comenzar a usar el catálogo de datos de AWS Glue como repositorio de metadatos común?

Antes de que pueda comenzar a usar el catálogo de datos de AWS Glue como repositorio de datos común entre Amazon Athena, Amazon Redshift Spectrum y AWS Glue, debe actualizar el catálogo de datos de Amazon Athena al catálogo de datos de AWS Glue. Aquí encontrará los pasos detallados necesarios para la actualización.

P: ¿Qué servicios de análisis utiliza el catálogo de datos de AWS Glue?

Puede obtener acceso fácilmente a los metadatos almacenados en el catálogo de datos de AWS Glue desde Glue ETL, Amazon Athena, Amazon EMR, Amazon Redshift Spectrum y servicios de terceros.

Registro de esquemas de AWS Glue

P: ¿Qué es el registro de esquemas de AWS Glue?

El registro de esquemas de AWS Glue, una característica sin servidores de AWS Glue, le permite validar y controlar la evolución del flujo de datos mediante esquemas registrados con los formatos de datos Apache Avro y esquema JSON, sin costo adicional. Mediante los serializadores y deserializadores con licencia de Apache, este registro de esquemas se integra con aplicaciones Java desarrolladas para Apache Kafka, Amazon Managed Streaming for Apache Kafka (MSK), Amazon Kinesis Data Streams, Apache Flink, Amazon Kinesis Data Analytics for Apache Flink y AWS Lambda. Cuando las aplicaciones de flujo de datos se integran con el registro de esquemas, puede mejorar la calidad de los datos y protegerse contra cambios inesperados mediante verificaciones de compatibilidad que controlan la evolución del esquema. Además, puede crear o actualizar las tablas y particiones de AWS Glue mediante esquemas de Apache Avro almacenados en el registro.

P: ¿Por qué debería usar el registro de esquemas de AWS Glue?

Con el registro de esquemas de AWS Glue puede:

Validar esquemas. Cuando las aplicaciones de transmisión de datos están integradas con el registro de esquemas de AWS Glue, los esquemas usados para producir datos se validan con respecto a esquemas dentro de un registro central, lo que le permite controlar la calidad de los datos de forma centralizada.
Proteger la evolución de esquemas. Puede establecer reglas sobre cómo los esquemas pueden o no evolucionar mediante uno de los ocho modos de compatibilidad.
Mejorar la calidad de los datos. Los serializadores validan esquemas utilizados por productores de datos con aquellos almacenados en el registro, lo que mejora la calidad de los datos cuando se originan y reduce problemas posteriores de desviaciones inesperadas de esquemas.
Ahorrar costes. Los serializadores convierten datos a un formato binario y pueden comprimirlos antes de que se entreguen, lo que reduce los costes de transferencia y almacenamiento de datos.
Mejorar la eficiencia de procesamiento. En muchos casos, un flujo de datos contiene registros de varios esquemas. El registro de esquemas permite que aplicaciones que leen desde flujos de datos procesen selectivamente cada registro basado en el esquema sin tener que analizar sus contenidos, lo que aumenta la eficiencia de procesamiento.

P: ¿Qué formato de datos, idioma del cliente e integraciones son compatibles con el esquema de datos de AWS Glue?

El registro de esquemas es compatible con los formatos de datos Apache Avro y esquema JSON, así como con las aplicaciones cliente de JAVA. Tenemos previsto ampliar la compatibilidad con otros formatos de datos y clientes que no sean de Java. El registro de esquemas se integra con aplicaciones Java desarrolladas para Apache Kafka, Amazon Managed Streaming for Apache Kafka (MSK), Amazon Kinesis Data Streams, Apache Flink, Amazon Kinesis Data Analytics for Apache Flink y AWS Lambda.

P: ¿Qué tipos de reglas de evolución admite el registro de esquemas de AWS Glue?

Están disponibles los siguientes modos de compatibilidad para que gestione su evolución de esquemas: hacia atrás, hacia atrás todo, hacia adelante, hacia adelante todo, completa, completa todo, ninguna y deshabilitada. Consulte la documentación del usuario del registro de esquemas para obtener más información sobre reglas de compatibilidad.

P: ¿Cómo mantiene el registro de esquemas de AWS Glue la alta disponibilidad para mis aplicaciones?

El almacenamiento y plano de control del registro de esquemas está diseñado para una alta disponibilidad y respaldado por el acuerdo de nivel de servicios (SLA) de AWS Glue; asimismo, los serializadores y deserializadores aprovechan las técnicas de almacenamiento en caché recomendadas para maximizar la disponibilidad del esquema en los clientes.

P: ¿El registro de esquemas de AWS Glue es de código abierto?

El almacenamiento del registro de esquemas de AWS Glue es un servicio de AWS, mientras que los serializadores y deserializadores son componentes de código abierto con licencia de Apache.

P: ¿El registro de esquemas de AWS Glue proporciona cifrado en reposo y en tránsito?

Sí, sus clientes se comunican con el registro de esquemas mediante llamadas API que cifran datos en tránsito con cifrado TLS mediante HTTPS. Los esquemas almacenados en el registro de esquemas están cifrados en reposo con una clave de KMS administrada por servicios.

P: ¿Cómo puedo conectarme de manera privada al registro de esquemas de AWS Glue?

Puede utilizar AWS PrivateLink para conectar la VPC de su productor de datos a AWS Glue al definir un punto de enlace de la VPC para AWS Glue. Cuando utiliza un punto de enlace de interfaz para VPC, las comunicaciones entre su VPC y AWS Glue se llevan a cabo completamente dentro de la red de AWS. Para obtener más información, consulte la documentación del usuario.

P: ¿Cómo puedo supervisar el uso del registro de esquemas de AWS Glue?

Las métricas de AWS CloudWatch están disponibles como parte de la capa gratuita de CloudWatch. Puede acceder a estas métricas en la consola de CloudWatch. Para más información, consulte la documentación del usuario del registro de esquemas de AWS Glue.

P: ¿El registro de esquemas de AWS Glue proporciona herramientas para gestionar la autorización de usuarios?

Sí, el registro de esquemas admite permisos a nivel de recursos y políticas de IAM basadas en identidad.

P: ¿Cómo puedo migrar de un registro de esquemas existente al registro de esquemas de AWS Glue?

Los pasos para migrar de un registro de esquemas de terceros al registro de esquemas de AWS Glue están disponibles en la documentación del usuario.

Extracción, transformación y carga (ETL)

P: ¿AWS Glue tiene una interfaz sin código para ETL visual?

Sí. AWS Glue Studio ofrece una interfaz gráfica para la creación de trabajos de Glue con el fin de procesar los datos. Después de definir el flujo de sus orígenes de datos, transformaciones y objetivos en la interfaz visual, AWS Glue Studio generará el código de Apache Spark por usted.

P: ¿Qué lenguajes de programación puedo utilizar para escribir mi código ETL para AWS Glue?

Puede utilizar Scala o Python.

P: ¿Cómo puedo personalizar el código ETL generado por AWS Glue?

El sistema de recomendaciones de secuencias de comandos de ETL de AWS Glue genera código Scala o Python. Utiliza la biblioteca ETL personalizada de Glue para simplificar el acceso a orígenes de datos, así como también para administrar la ejecución de trabajos. Puede encontrar más información sobre la biblioteca en nuestra documentación. Puede escribir código ETL con la biblioteca personalizada de AWS Glue o escribir código arbitrario en Scala o Python mediante la edición entre líneas con el editor de secuencias de comandos de la consola de AWS Glue, la descarga del código autogenerado y su edición en un IDE propio. También puede comenzar con una de las numerosas muestras que encontrará en nuestro repositorio de GitHub y personalizar el código.

P: ¿Puedo importar bibliotecas personalizadas como parte de mi secuencia de comandos de ETL?

Sí. Puede importar bibliotecas de Python y archivos de Jar en su trabajo de ETL de AWS Glue. Para obtener más detalles, consulte nuestra documentación aquí.

P: ¿Puedo utilizar mi propio código?

Sí. Puede escribir su propio código con la biblioteca ETL de AWS Glue o escribir su propio código en Scala o Python y cargarlo en un trabajo de ETL de Glue. Para obtener más detalles, consulte nuestra documentación aquí.

P: ¿Cómo puedo desarrollar mi código ETL con mi propio IDE?

Puede crearlo y conectarse con puntos de enlace de desarrollo que ofrezcan maneras de conectar sus blocs de notas e IDE.

P: ¿Cómo puedo crear una carga de trabajo de ETL de punto a punto con varios trabajos en AWS Glue?

Además de la biblioteca ETL y la generación de código, AWS Glue proporciona un conjunto sólido de características de orquestación que le permiten administrar las dependencias entre varios trabajos para crear flujos de trabajo de ETL de punto a punto. Los trabajos de ETL de AWS Glue se pueden activar de acuerdo con un cronograma o cuando se produzca un evento de finalización de trabajo. Pueden activarse varios trabajos de manera simultánea o secuencial si los activa en un evento de finalización de trabajo. También puede activar uno o más trabajos de Glue desde un origen externo, como una función de AWS Lambda.

P: ¿Cómo monitoriza AWS Glue las dependencias?

AWS Glue monitorea dependencias entre dos o más trabajos o dependencias en eventos externos mediante activadores. Los activadores pueden observar o invocar uno o más trabajos. Puede disponer de un activador programado que invoque los trabajos de manera periódica, un activador bajo demanda o un activador de finalización de trabajo.

P: ¿Cómo resuelve los errores de ETL de AWS Glue?

AWS Glue supervisar las métricas y los errores en los eventos de trabajo y envía todas las notificaciones a Amazon CloudWatch. Con Amazon CloudWatch, puede configurar una variedad de acciones que pueden activarse en función de determinadas notificaciones de AWS Glue. Por ejemplo, si aparece una notificación de evento de error o evento correcto de Glue, puede activar una función de AWS Lambda. Glue también ofrece un comportamiento de intentos adicionales por defecto que volverá a intentar reproducir cualquier operación fallida tres veces antes de enviar una notificación de error.

P: ¿Puedo ejecutar mis trabajos de ETL existentes con AWS Glue?

Sí. Puede ejecutar su código en Scala o Python existente en AWS Glue. Simplemente cargue el código en Amazon S3 y cree uno o más trabajos que usen dicho código. Puede volver a utilizar el mismo código en varios trabajos si los apunta a la misma ubicación del código en Amazon S3.

P: ¿Cómo puedo usar AWS Glue para someter a ETL los datos de transmisiones?

AWS Glue es compatible con ETL en transmisiones desde Amazon Kinesis Data Streams, Apache Kafka y Amazon MSK. Agregue la transmisión al catálogo de datos de Glue y luego selecciónela como origen de datos cuando configure su trabajo en AWS Glue.

P: ¿Tengo que usar el catálogo de datos de AWS Glue y la ETL de Glue para poder utilizar el servicio?

No. Si bien creemos que usar el catálogo de datos y la ETL de AWS Glue proporciona una experiencia de ETL completa, puede usar uno de los dos independientemente, sin usar el otro.

P: ¿Cuándo debería utilizar AWS Glue y cuándo Amazon Kinesis Data Analytics?

Tanto AWS Glue como Amazon Kinesis Data Analytics se pueden utilizar para procesar datos de transmisiones. AWS Glue se recomienda cuando los casos de uso son principalmente ETL y cuando se desea ejecutar los trabajos en una plataforma sin servidor basada en Apache Spark. Amazon Kinesis Data Analytics se recomienda cuando los casos de uso son principalmente analíticos y cuando se desea ejecutar los trabajos en una plataforma sin servidor basada en Apache Flink.

La transmisión de ETL en AWS Glue permite un proceso ETL avanzado en la transmisión de datos utilizando la misma plataforma sin servidor y de pago por uso que se utiliza actualmente para sus trabajos por lotes. AWS Glue genera un código ETL personalizable para preparar sus datos en movimiento y tiene incorporada la funcionalidad de procesar datos de transmisiones semiestructurados o con un esquema evolutivo. Use Glue para aplicar sus transformaciones incorporadas y nativas de Spark a los datos de transmisiones y cárguelos en su lago de datos o almacén de datos.

Amazon Kinesis Data Analytics permite construir sofisticadas aplicaciones de transmisión para analizar datos de transmisiones en tiempo real. Proporciona un tiempo de ejecución sin servidor de Apache Flink que se escala automáticamente sin servidores y guarda de forma duradera el estado de las aplicaciones. Utilice Amazon Kinesis Data Analytics para realizar un análisis en tiempo real y un procesamiento de datos de transmisiones más general.

P: ¿Cuándo debería utilizar AWS Glue y cuándo Amazon Kinesis Data Firehose?

Tanto AWS Glue como Amazon Kinesis Data Firehose se pueden utilizar para la transmisión de ETL. Se recomienda utilizar AWS Glue para procesos de ETL complejos, como la unión de transmisiones o la partición de la salida en Amazon S3 según el contenido de los datos. Se recomienda utilizar Amazon Kinesis Data Firehose cuando los casos de uso se centran en la entrega de datos y la preparación de los datos para procesarlos después de su entrega.

La transmisión de ETL en AWS Glue permite un proceso ETL avanzado en la transmisión de datos utilizando la misma plataforma sin servidor y de pago por uso que se utiliza actualmente para sus trabajos por lotes. AWS Glue genera un código ETL personalizable para preparar sus datos en movimiento y tiene incorporada la funcionalidad de procesar datos de transmisiones semiestructurados o con un esquema evolutivo. Utilice Glue para aplicar transformaciones complejas a las transmisiones de datos, completar los registros con información de otras transmisiones y almacenes de datos persistentes, así como cargar los registros en su lago de datos o almacén de datos.

La transmisión de ETL en Amazon Kinesis Data Firehose permite capturar, transformar y entregar fácilmente datos de transmisiones. Amazon Kinesis Data Firehose proporciona características de procesos de ETL como la transformación de datos sin servidor a través de AWS Lambda y la conversión de formato de JSON a Parquet. Incluye características de ETL diseñadas para facilitar el procesamiento de los datos después de la entrega, pero no incluye las características de ETL avanzadas que admite AWS Glue.

Deduplicación de datos

P: ¿Qué tipo de problemas resuelve una transformación de ML de FindMatches?

FindMatches por lo general resuelve problemas de vinculación de registros y deduplicación de datos. La deduplicación es lo que debe hacer cuando se intenta identificar registros en una base de datos, los cuales son conceptualmente “iguales”, pero para los cuales se tienen registros separados. Este problema es trivial si los registros duplicados pueden identificarse mediante una clave única (por ejemplo, si los productos pueden identificarse de manera exclusiva mediante un código UPC), pero se vuelve muy complejo cuando tiene que hacer una búsqueda de “coincidencia parcial”.

La vinculación de registros es básicamente el mismo problema que la deduplicación de datos exhaustiva. Pero este término generalmente significa que está haciendo una “combinación parcial” de dos bases de datos que no comparten una clave única, en lugar de deduplicar una sola base de datos. Como ejemplo, considere el problema de combinar una gran base de datos de clientes con una pequeña base de datos de estafadores conocidos. Se puede utilizar FindMatches tanto en problemas de vinculación de registros como de deduplicación.

Por ejemplo, una transformación de ML de FindMatches de AWS Glue puede ayudarlo con los siguientes problemas:

La vinculación de registros de pacientes entre hospitales para que los médicos tengan más antecedentes y puedan tratar mejor a los pacientes utilizando FindMatches en bases de datos separadas que contienen campos comunes como nombre, fecha de nacimiento, domicilio, número de teléfono, etc.

La deduplicación de una base de datos de películas que tiene columnas como “título”, “sinopsis de la trama”, “año de lanzamiento”, “duración” y “reparto”. Por ejemplo, la misma película podría identificarse de diversas maneras como “Star Wars”, “Star Wars: Una nueva esperanza” y “Star Wars: Episodio IV: Una nueva esperanza (Edición especial)”.

La agrupación automática de todos los productos relacionados en su tienda mediante la identificación de artículos equivalentes en un catálogo de productos de indumentaria donde desee definir “equivalentes” para significar que son los mismos productos, sin tener en cuenta las diferencias de tamaño y color. Por lo tanto, “Levi 501 Blue Jeans, talle 34x34” se define como igual a “Levi 501 Jeans - negro, talle 32x31”.

P: ¿De qué manera AWS Glue deduplica mis datos?

La transformación de ML de FindMatches de AWS Glue facilita la búsqueda y el enlace de registros que se refieren a la misma entidad, pero no comparten un identificador fiable. Antes de FindMatches, los desarrolladores solían resolver problemas de coincidencia de datos de manera determinista, escribiendo una gran cantidad de reglas que se ajustan manualmente. FindMatches utiliza algoritmos de aprendizaje automático en segundo plano para aprender a combinar los registros de acuerdo con los criterios comerciales de cada desarrollador. FindMatches primero identifica los registros para que el cliente etiquete si coinciden o no, y luego utiliza el aprendizaje automático para crear una transformación de ML. Los clientes pueden ejecutar esta transformación en su base de datos para buscar registros coincidentes o pueden solicitar a FindMatches que les proporcione registros adicionales para etiquetar y llevar su transformación de ML a niveles más altos de precisión.

P: ¿Qué son las transformaciones de ML?

Las transformaciones de ML proporcionan un destino para crear y administrar transformaciones aprendidas automáticamente. Una vez creadas y entrenadas, estas transformaciones de ML pueden ejecutarse en scripts estándar de AWS Glue. Los clientes seleccionan un algoritmo particular (por ejemplo, FindMatches ML Transform) e ingresan conjuntos de datos y ejemplos de entrenamiento, y los parámetros de ajuste necesarios para ese algoritmo. AWS Glue utiliza esas entradas para crear una transformación de ML que se puede incorporar a un flujo de trabajo normal de ETL.

P: ¿Cómo funcionan las transformaciones de ML?

AWS Glue incluye algoritmos especializados de transformación de conjuntos de datos basados en ML que los clientes pueden usar para crear sus propias transformaciones de ML. Estos incluyen la deduplicación de registros y la búsqueda de coincidencias.

Los clientes comienzan por navegar a la pestaña ML Transforms (Transformaciones de ML) en la consola (o utiliza los puntos de enlace del servicio Transformaciones de ML o acceden al entrenamiento de Transformaciones de ML a través de la CLI) para crear su primer modelo de transformaciones de ML. La pestaña ML Transforms (Transformaciones de ML) ofrece una vista fácil de usar para la administración de las transformaciones de usuarios. Las transformaciones de ML tienen requisitos de flujo de trabajo distintos de otras transformaciones. Necesitan entrenamiento, ajuste de parámetros y flujos de trabajo de ejecución diferentes, además de la estimación de las métricas de calidad de las transformaciones generadas, y de la administración y recopilación de etiquetas de precisión adicionales para el entrenamiento y el aprendizaje activo.

Para crear una transformación de ML a través de la consola, los clientes primero seleccionan el tipo de transformación (como Record Deduplication [Deduplicación de registros] o Record Matching [Coincidencia de registros]) y controlan los orígenes de datos encontrados previamente en el Catálogo de datos. Dependiendo de la transformación, se les puede pedir a los clientes que proporcionen datos de etiquetas de precisión para entrenamiento o parámetros adicionales. Los clientes pueden monitorizar el estado de sus trabajos de entrenamiento y ver métricas de calidad para cada transformación. (Las métricas de calidad se informan utilizando un conjunto de resistencia con datos de etiquetas proporcionadas por el cliente).

Una vez satisfechos con el rendimiento, los clientes pueden promover los modelos de transformación de ML para su uso en la producción. Las transformaciones de ML se pueden usar durante los flujos de trabajo de ETL, tanto en el código generado automáticamente por el servicio como en los scripts definidos por el usuario que se envían con otros trabajos, de forma similar a las transformaciones predefinidas que se ofrecen en otras bibliotecas de AWS Glue.

P: ¿Puedo ver una presentación sobre el uso de AWS Glue (y AWS Lake Formation) para encontrar coincidencias y deduplicar registros?

R: Puede ver la presentación técnica completa de AWS en línea, “Fuzzy Matching and Deduplicating Data with ML Transforms for AWS Lake Formation” (Concordancia aproximada y datos deduplicados con transformaciones de ML para AWS Lake Formation) aquí.

AWS Glue DataBrew

P: ¿Qué es AWS Glue DataBrew?

AWS Glue DataBrew es una herramienta de preparación de datos visual que facilita a los analistas y científicos de datos la preparación de datos con una interfaz visual interactiva de apuntar y hacer clic sin la necesidad de escribir código. Con Glue DataBrew, puede visualizar, limpiar y normalizar fácilmente terabytes e incluso petabytes de datos directamente desde su lago de datos, almacenes de datos y bases de datos, incluidos Amazon S3, Amazon Redshift, Amazon Aurora y Amazon RDS. AWS Glue DataBrew está disponible de manera general a partir de hoy en las regiones EE. UU. Este (Norte de Virginia), EE. UU. Este (Ohio), EE. UU. Oeste (Oregón), UE (Irlanda), UE (Fráncfort), Asia-Pacífico (Sídney) y Asia-Pacífico (Tokio).

P: ¿Quién puede usar AWS Glue DataBrew?

AWS Glue DataBrew está diseñado para usuarios que necesitan limpiar y normalizar datos para análisis y aprendizaje automático. Los analistas y los científicos de datos son los principales usuarios. Para los analistas de datos, ejemplos de funciones laborales son los analistas de inteligencia empresarial, de operaciones, de inteligencia de mercado, legales, financieros, economistas, cuánticos o contadores. Para los científicos de datos, ejemplos de funciones laborales son los científicos de materiales, los científicos bioanalíticos y los investigadores científicos.

P: ¿Qué tipos de transformaciones admite AWS Glue DataBrew?

Puede elegir entre más de 250 transformaciones integradas para combinar, agrupar y transponer los datos sin escribir código. AWS Glue DataBrew también recomienda transformaciones automáticas como filtrar anomalías, corregir datos no válidos, clasificados incorrectamente o duplicados, normalizar datos a valores estándar de fecha y hora o generar agregados para análisis. Para las transformaciones complejas, como convertir palabras en una palabra base o raíz común, Glue DataBrew proporciona transformaciones que utilizan técnicas avanzadas de aprendizaje automático como el procesamiento de lenguaje natural (NLP). Puede agrupar varias transformaciones, guardarlas como recetas y aplicar las recetas directamente a los nuevos datos entrantes.

P: ¿Qué formatos de archivo admite AWS Glue DataBrew?

Para los datos de entrada, AWS Glue DataBrew admite formatos de archivo de uso común, como valores separados por comas (.csv), JSON y JSON anidado, Apache Parquet y Apache Parquet anidado y hojas de Excel. Para los datos de salida, AWS Glue DataBrew admite valores separados por comas (.csv), JSON, Apache Parquet, Apache Avro, Apache ORC y XML.

P: ¿Puedo probar AWS Glue DataBrew sin costo?

Sí. Regístrese para obtener una cuenta de capa gratuita de AWS, luego consulte la consola de administración de AWS Glue DataBrew y comience de inmediato de forma gratuita. Si es la primera vez que usa Glue DataBrew, las primeras 40 sesiones interactivas son gratuitas. Para más información, consulte la página de precios de AWS Glue.

P: ¿Para utilizar AWS Glue DataBrew necesito usar AWS Glue Data Catalog o AWS Lake Formation?

No. Puede usar AWS Glue DataBrew sin usar AWS Glue Data Catalog ni AWS Lake Formation. Sin embargo, si utiliza el catálogo de datos de AWS Glue o AWS Lake Formation, los usuarios de DataBrew pueden seleccionar los conjuntos de datos disponibles en su catálogo de datos centralizado.

P: ¿Puedo conservar un registro de todos los cambios de mis datos?

Sí. En la consola de administración de AWS Glue DataBrew puede ver todos los cambios realizados en sus datos. La vista gráfica facilita el seguimiento de los cambios realizados y las relaciones de los conjuntos de datos, proyectos y recetas y todos los demás trabajos asociados. Además, Glue DataBrew mantiene todas las actividades contables, como los registros en AWS CloudTrail.

Trabajos flexibles de AWS Glue

P: ¿Qué es Glue Flex?

AWS Glue Flex es una clase de trabajo de ejecución flexible que le permite reducir el costo de sus cargas de trabajo de integración de datos no urgentes (por ejemplo, trabajos de preproducción, pruebas, cargas de datos, etc.) hasta un 35 %. Glue tiene dos clases de ejecución de trabajos: estándar y flexible. La clase de ejecución estándar es ideal para cargas de trabajo sensibles al tiempo que requieren un inicio rápido del trabajo y recursos dedicados. La clase de ejecución flexible es apropiada para trabajos que no sean urgentes cuyos tiempos de inicio y finalización pueden variar. AWS Glue Flex puede reducir el costo de sus cargas de trabajo no sensibles al tiempo (por ejemplo, trabajos ETL nocturnos por lotes, trabajos de fin de semana, trabajos de ingesta de datos masivos de una vez, etc.).

P: ¿Qué diferencias hay entre las clases de ejecución AWS Glue estándar y flexibles?

Las clases de ejecución estándar y flexibles de AWS Glue tienen diferentes propiedades de ejecución. Con la clase de ejecución estándar, los trabajos se ejecutan inmediatamente y disponen de recursos dedicados para su ejecución. Los trabajos de ejecución flexible se ejecutan en recursos informáticos no dedicados a AWS que pueden reclamarse mientras se ejecuta un trabajo y sus tiempos de inicio y finalización varían. Como resultado, ambos tipos de ejecución son apropiados para diferentes cargas de trabajo. La clase de ejecución estándar es ideal para cargas de trabajo sensibles al tiempo que requieren un inicio rápido del trabajo y recursos dedicados. La clase de ejecución flexible es menos costosa y más apropiada para trabajos no urgentes en los que la variación en los tiempos de inicio y finalización es aceptable.

P: ¿Cómo puedo comenzar a utilizar trabajos de clase de ejecución flexible de AWS Glue Flex?

La clase de ejecución flexible está disponible para trabajos de Glue Spark. Para utilizar la clase de ejecución flexible, basta con cambiar la configuración por defecto del parámetro de la clase de ejecución de «STANDARD» (estándar) a «FLEX» (flexible). Puede hacerlo a través de Glue Studio o CLI. Para más información, consulte la _user documentation_ (documentación del usuario) de AWS Glue.

P: ¿Qué tipos de integración de datos y cargas de trabajo ETL no son apropiadas para la clase de ejecución flexible de AWS Glue Flex?

La clase de ejecución flexible de AWS Glue Flex no es apropiada para cargas de trabajo sensibles al tiempo que requieren tiempos de inicio y ejecución de trabajos consistentes o para trabajos que deben completar su ejecución a una hora específica. Tampoco se recomienda AWS Glue Flex para cargas de trabajo de integración de datos de larga ejecución porque son más propensas a sufrir interrupciones que resulten en frecuentes cancelaciones.

P: ¿Cada cuánto debería esperar que se interrumpan los trabajos ejecutados con AWS Glue Flex de clase de ejecución flexible?

La disponibilidad y la frecuencia de interrupción de AWS Glue Flex depende de diferentes factores, incluidos la región y la zona de disponibilidad (AZ), la hora y el día de la semana. La disponibilidad de recursos determina si los trabajos de Glue Flex se inician. Mientras que la tasa de interrupción puede estar entre 5-10 % durante las horas punta, se espera que la de los trabajos Glue Flex esté en torno al 5 % o que la tasa de fallo por interrupción se mantenga por debajo del 5 %.

P: ¿La clase de ejecución flexible está siempre disponible?

Sí, siempre puede elegir la clase de ejecución flexible para ejecutar sus trabajos Glue. Sin embargo, la capacidad de AWS Glue para ejecutar estos trabajos está basada en la disponibilidad de la capacidad no dedicada a AWS y ele número de trabajadores que seleccione para su trabajo. Es posible que, durante las horas puntas, Glue no cuente con una capacidad apropiada para su trabajo. En ese caso, su trabajo no puede iniciarse. Puede indicar un valor de tiempo de espera después del cual Glue cancela el trabajo. Cuanto más prolongado sea el tiempo de espera, más posibilidades tiene de que su trabajo se ejecute.

P: ¿Qué ocurre si un trabajo AWS Glue Flex se interrumpe en medio de una ejecución?

Si un trabajo Glue Flex se ve interrumpido porque no hay más trabajadores suficientes para completar el trabajo basado en el número de trabajadores especificado, el trabajo se cancela. Glue recupera los trabajos fallidos hasta un número máximo específico de reintentos especificado en la definición del trabajo antes de cancelarlo. No debería usar la clase de ejecución flexible para ningún trabajo que tenga una dependencia posterior con otros sistemas o procesos.

P: ¿Qué tipo de trabajos de AWS Glue son compatibles con la clase de ejecución flexible?

La clase de ejecución flexible está disponible solo para trabajos de Glue Spark. El shell de Python y el streaming no son compatibles. AWS Glue Flex es compatible con la versión 3.0 de Glue y posteriores. La ejecución flexible no admite actualmente cargas de trabajo de streaming.

Integraciones de productos de AWS

P: ¿Cuándo debería usar AWS Glue en vez de AWS Data Pipeline?

AWS Glue proporciona un servicio de ETL administrado que se ejecuta en un entorno Apache Spark sin servidor. Eso le permite concentrarse en su trabajo de ETL y no preocuparse por tener que configurar y administrar los recursos informáticos subyacentes. AWS Glue sigue un enfoque centrado en los datos y le permite concentrarse en las propiedades de los datos y la manipulación de estos para transformarlos en un formato del que pueda extraer información empresarial. Proporciona un catálogo de datos integrado que hace que los metadatos se encuentren disponibles para ETL, así como consultas a través de Amazon Athena y Amazon Redshift Spectrum.

AWS Data Pipeline proporciona un servicio de orquestación administrado que le aporta mayor flexibilidad en cuanto al entorno de ejecución, el acceso y el control de los recursos informáticos que ejecutan su código, así como el mismo código que se encarga del procesamiento de datos. AWS Data Pipeline implementa recursos informáticos en su cuenta, lo que le brinda acceso directo a las instancias de Amazon EC2 o clústeres de Amazon EMR.

Además, los trabajos de ETL de AWS Glue están basados en Scala o Python. Si su caso de uso requiere que utilice un motor que no sea Apache Spark o si desea ejecutar un conjunto heterogéneo de trabajos en diversos motores, como Hive, Pig, etc., AWS Data Pipeline sería una mejor elección.

P: ¿Cuándo debería usar AWS Glue en vez de Amazon EMR?

AWS Glue funciona sobre el entorno Apache Spark para proporcionar un entorno de ejecución escalable para sus trabajos de transformación de datos. AWS Glue deduce, evoluciona y monitorea sus trabajos de ETL para simplificar en gran medida el proceso de creación y mantenimiento de trabajos. Amazon EMR le proporciona acceso directo a su entorno Hadoop, lo que le brinda acceso de nivel inferior y mayor flexibilidad en el uso de herramientas que no sean Spark.

P: ¿Cuándo debería utilizar AWS Glue en lugar de AWS Database Migration Service?

AWS Database Migration Service (DMS) ayuda a migrar las bases de datos a AWS de manera fácil y segura. Para casos de uso que requieren una migración de bases de datos en las instalaciones a AWS o la replicación de bases de datos entre orígenes locales y orígenes en AWS, recomendamos que utilice AWS DMS. Una vez que sus datos estén en AWS, puede utilizar AWS Glue para trasladar, combinar, replicar y transformar datos desde su origen de datos a otra base o almacén de datos, como Amazon Redshift.

P: ¿Cuándo debería utilizar AWS Glue en lugar de AWS Batch?

AWS Batch le permite ejecutar de manera sencilla y eficaz cualquier trabajo de informática por lotes en AWS independientemente de su naturaleza. AWS Batch crea y administra los recursos informáticos en su cuenta de AWS, lo que le suministra control y visibilidad absolutos de los recursos utilizados. AWS Glue es un servicio de ETL completamente administrado que le proporciona un entorno Apache Spark para ejecutar sus trabajos de ETL. Para sus casos de uso de ETL, le recomendamos que considere utilizar AWS Glue. Para casos de uso orientados a lotes de otro tipo, incluidos algunos casos de uso de ETL, AWS Batch podría ser una opción mejor.

Precios y facturación

P: ¿Cómo se cobra el uso de AWS Glue?

Pagará una cuota mensual sencilla, cuando supere los valores de la capa gratuita de AWS Glue, por el almacenamiento de los metadatos en el catálogo de datos de AWS Glue y el acceso a ellos. Pagará una tarifa por hora, facturada por segundo, por la ejecución del rastreador con un mínimo de 10 minutos. Si elige usar un punto de enlace de desarrollo para desarrollar de manera interactiva su código de ETL, pagará una tarifa por hora, facturada por segundo, por el tiempo que aprovisione su punto de enlace de desarrollo, con un mínimo de 10 minutos. Además, pagará una tarifa por hora, facturada por segundo, por el trabajo ETL con un mínimo de 1 minuto o 10 minutos según la versión de Glue que seleccione. Para obtener más información, consulte nuestra página de precios.

P: ¿Cuándo comienza y finaliza la facturación de mis trabajos de AWS Glue?

La facturación comenzará en cuanto el trabajo se programe para su ejecución y continuará hasta que el trabajo completo finalice. Con AWS Glue, solo paga por el tiempo durante el que se ejecute su trabajo y no por el tiempo de aprovisionamiento o eliminación del entorno.

Seguridad y disponibilidad

P: ¿Cómo protege los datos AWS Glue?

Proporcionamos cifrado del lado del servidor para datos en reposo y SSL para los datos en movimiento.

P: ¿Cuáles son los Service Limits asociados con AWS Glue?

Para obtener más información sobre los límites del servicio, consulte nuestra documentación.

P: ¿En qué regiones se encuentra disponible AWS Glue?

Consulte la tabla de regiones de AWS para obtener más información sobre la disponibilidad del servicio AWS Glue por región.

P: ¿Cuántas DPU (unidades de procesamiento de datos) se asignan al punto de enlace de desarrollo?

De manera predeterminada, un punto de enlace de desarrollo se aprovisiona con 5 DPU. Puede configurar un punto de enlace de desarrollo con un mínimo de 2 DPU y un máximo de 5 DPU.

P: ¿Cómo puedo ajustar el tamaño y el nivel de rendimiento de mis trabajos de ETL de AWS Glue?

Simplemente puede especificar la cantidad de DPU (unidades de procesamiento de datos) que desea asignar a su trabajo de ETL. Un trabajo de ETL de Glue requiere un mínimo de 2 DPU. Por defecto, AWS Glue asigna 10 DPU a cada trabajo de ETL.

P: ¿Cómo puedo supervisar la ejecución de mis trabajos de AWS Glue?

AWS Glue proporciona el estado de cada trabajo y envía todas las notificaciones a Amazon CloudWatch. Puede configurar notificaciones SNS a través de acciones CloudWatch para que se le informe cuando un trabajo se complete o falle.

Acuerdo de nivel de servicios

P: ¿Qué se garantiza con el acuerdo de nivel de servicios (SLA) de AWS Glue?

Con el SLA de AWS Glue se garantiza un porcentaje de tiempo de actividad mensual de al menos 99,9 % para AWS Glue.

P: ¿Cómo sé si reúno los requisitos para recibir un crédito para servicio del SLA?

Reúne los requisitos para un crédito del SLA para AWS Glue conforme con el SLA de AWS Glue si más de una zona de disponibilidad en la que ejecuta una tarea, dentro de la misma región, tiene un porcentaje de tiempo de actividad mensual inferior al 99,9 % durante cualquier ciclo de facturación mensual.

Para obtener información completa sobre los términos y las condiciones del SLA, así como los detalles sobre cómo enviar una reclamación, consulte la página de detalles del SLA para AWS Glue.

Visite la página de precios

Analice las opciones de precios de AWS Glue.

Más información

Regístrese para obtener una cuenta gratuita

Obtenga acceso instantáneo a la capa gratuita de AWS.

Registrarse

Comience a crear en la consola

Comience a crear con AWS Glue en la consola de administración de AWS.

Iniciar sesión