<p><a href="https://aws.amazon.com/glue/" style="color:#0563c1; text-decoration:underline">AWS Glue</a> es un servicio de integración de datos sin servidor que facilita a los usuarios de análisis la detección, preparación, migración e integración de datos provenientes de varios orígenes para el análisis, machine learning y desarrollo de aplicaciones.</p> <ul> <li>Puede descubrir y conectarse a más de 80 almacenes de datos diferentes.</li> <li>Puede administrar sus datos en un <a href="https://aws.amazon.com/glue/features/">catálogo de datos</a> centralizado.</li> <li>Los ingenieros de datos, desarrolladores de extracción, transformación y carga (ETL), analistas de datos y usuarios empresariales pueden utilizar <a href="https://aws.amazon.com/glue/features/">AWS Glue Studio</a> para crear, ejecutar y monitorear canalizaciones de ETL para cargar datos en lagos de datos.</li> <li>AWS Glue Studio ofrece interfaces <a href="https://aws.amazon.com/glue/features/">visuales de ETL, de cuaderno y de editor de código</a>, para que los usuarios dispongan de herramientas adecuadas a sus habilidades.</li> <li>Con las <a href="https://aws.amazon.com/glue/features/">sesiones interactivas</a>, los ingenieros de datos pueden explorar datos, así como crear y probar trabajos mediante su IDE o cuaderno preferido.</li> <li>AWS Glue es sin servidor y se escala automáticamente bajo demanda, por lo que puede centrarse en obtener información de datos a escala de petabytes sin administrar la infraestructura.</li> </ul> <p>Cree una <a href="https://portal.aws.amazon.com/gp/aws/developer/registration/index.html?nc2=h_ct&src=header_signup" style="color:#0563c1; text-decoration:underline">cuenta de AWS</a> para comenzar a usar AWS Glue.</p>

¿Qué es ETL? - Explicación de extracción, transformación y carga (ETL)

¿Qué es ETL?

Extracción, transformación y carga (ETL) es el proceso consistente en combinar datos de diferentes orígenes un gran repositorio central llamado almacenamiento de datos. ETL utiliza un conjunto de reglas comerciales para limpiar y organizar datos en bruto y prepararlos para el almacenamiento, el análisis de datos y el machine learning (ML). Puede abordar necesidades de inteligencia empresarial específicas mediante análisis de datos (como la predicción del resultado de decisiones empresariales, la generación de informes y paneles, la reducción de la ineficacia operativa y más).

¿Por qué es importante ETL?

Las organizaciones de hoy tienen datos estructurados y no estructurados de varias fuentes, que incluyen:

Datos de clientes de pagos en línea y sistemas de administración de la relación con el cliente (CRM)
Datos de inventario y operaciones de sistemas de proveedores
Datos de sensores de dispositivos de Internet de las cosas (IoT)
Datos de marketing de las redes sociales y comentarios de los clientes
Datos de los empleados de los sistemas internos de recursos humanos

Al aplicar el proceso de extracción, transformación y carga (ETL), los conjuntos de datos en bruto individuales se pueden preparar en un formato y una estructura que son más consumibles para fines analíticos, lo que da como resultado información más significativa. Por ejemplo, los minoristas en línea pueden analizar los datos de los puntos de venta para pronosticar la demanda y administrar el inventario. Los equipos de marketing pueden integrar los datos de CRM con los comentarios de los clientes en las redes sociales para estudiar el comportamiento del consumidor.

¿Cómo beneficia ETL a la inteligencia empresarial?

La extracción, transformación y carga (ETL) mejora la inteligencia comercial y el análisis al hacer que el proceso sea más fiable, preciso, detallado y eficiente.

Contexto histórico

ETL brinda un contexto histórico profundo a los datos de la organización. Una empresa puede combinar datos heredados con datos de nuevas plataformas y aplicaciones. Puede ver conjuntos de datos más antiguos junto con información más reciente, lo que le brinda una vista a largo plazo de los datos.

Vista de datos consolidada

ETL proporciona una vista consolidada de los datos para análisis e informes en profundidad. La administración de varios conjuntos de datos exige tiempo y coordinación, y puede provocar ineficacias y retrasos. ETL combina bases de datos y varias formas de datos en una sola vista unificada. El proceso de integración de datos mejora la calidad de los datos y ahorra el tiempo necesario para mover, categorizar o estandarizar datos. Esto facilita el análisis, la visualización y el sentido de grandes conjuntos de datos.

Análisis de datos preciso

ETL brinda un análisis de datos más preciso para cumplir con los estándares regulatorios y de conformidad. Puede integrar herramientas ETL con herramientas de calidad de datos para perfilar, auditar y limpiar datos, asegurando que los datos sean confiables.

Automatización de tareas

ETL automatiza las tareas de procesamiento de datos repetibles para un análisis eficiente. Las herramientas ETL automatizan el proceso de migración de datos y pueden configurarlas para integrar cambios de datos periódicamente o incluso en tiempo de ejecución. Como resultado, los ingenieros de datos pueden dedicar más tiempo a innovar y menos tiempo a administrar tareas tediosas como mover y formatear datos.

¿Cómo ha evolucionado ETL?

La extracción, transformación y carga (ETL) se originó con la aparición de bases de datos relacionales que almacenaban datos en forma de tablas para su análisis. Las primeras herramientas ETL intentaron convertir datos de formatos de datos transaccionales a formatos de datos relacionales para su análisis.

ETL tradicional

Los datos en bruto generalmente se almacenaban en bases de datos transaccionales que admitían muchas solicitudes de lectura y escritura, pero no se prestaban bien para el análisis. Puede pensar en ello como una fila en una hoja de cálculo. Por ejemplo, en un sistema de comercio electrónico, la base de datos transaccional almacenó el artículo comprado, los detalles del cliente y los detalles del pedido en una sola transacción. Durante el año, contenía una larga lista de transacciones con entradas repetidas para el mismo cliente que compró varios artículos durante el año. Dada la duplicación de datos, se volvió engorroso analizar los artículos más populares o las tendencias de compra en ese año.

Para superar este problema, las herramientas ETL convirtieron automáticamente estos datos transaccionales en datos relacionales con tablas interconectadas. Los analistas podrían usar consultas para identificar relaciones entre las tablas, además de patrones y tendencias.

ETL moderno

A medida que evolucionó la tecnología ETL, tanto los tipos de datos como los orígenes datos aumentaron exponencialmente. La tecnología de la nube surgió para crear vastas bases de datos (también llamadas sumideros de datos). Dichos sumideros de datos pueden recibir datos de múltiples fuentes y tener recursos de hardware subyacentes que pueden escalar con el tiempo. Las herramientas ETL también se han vuelto más sofisticadas y pueden funcionar con sumideros de datos modernos. Pueden convertir datos de formatos de datos heredados a formatos de datos modernos. A continuación se muestran ejemplos de bases de datos modernas.

Almacenamientos de datos

Un almacenamiento de datos es un repositorio central que puede almacenar múltiples bases de datos. Dentro de cada base de datos, puede organizar sus datos en tablas y columnas que describen los tipos de datos en la tabla. El software de almacenamiento de datos funciona en varios tipos de hardware de almacenamiento, como unidades de estado sólido (SSD), discos duros y otro almacenamiento en la nube, para optimizar su procesamiento de datos.

Lagos de datos

Con un lago de datos, puede almacenar sus datos estructurados y no estructurados en un repositorio centralizado y a cualquier escala. Puede almacenar datos tal como están sin tener que estructurarlos primero en función de las preguntas que pueda tener en el futuro. Los lagos de datos también le permiten ejecutar diferentes tipos de análisis en sus datos, como consultas SQL, análisis de macrodatos, búsqueda de texto completo, análisis en tiempo real y machine learning (ML) para guiar mejores decisiones.

¿Cómo funciona la ETL?

La extracción, transformación y carga (ETL) funciona moviendo datos del sistema de origen al sistema de destino a intervalos periódicos. El proceso ETL funciona en tres pasos:

Extracción de los datos relevantes de la base de datos de origen.
Transformación de los datos para que sean más adecuados para el análisis.
Carga de los datos en la base de datos de destino.

¿Qué es extracción de datos?

Las herramientas de extracción, extracción, transformación y carga (ETL) de datos extraen o copian datos en bruto de múltiples fuentes y los almacenan en un área de ensayo. Un área de ensayo (o zona de aterrizaje) es un área de almacenamiento intermedio para almacenar temporalmente los datos extraídos. Las áreas de ensayo de datos suelen ser transitorias, lo que significa que su contenido se borra una vez que se completa la extracción de datos. Sin embargo, el área de ensayo también puede conservar un archivo de datos para fines de resolución de problemas.

La frecuencia con la que el sistema envía datos desde el origen de datos al almacenamiento de datos de destino depende del mecanismo subyacente de captura de datos modificados. La extracción de datos comúnmente ocurre en una de las tres formas siguientes.

Notificación de actualización

En la notificación de actualización, el sistema de origen le notifica cuando cambia un registro de datos. A continuación, puede ejecutar el proceso de extracción para ese cambio. La mayoría de las bases de datos y aplicaciones web proporcionan mecanismos de actualización para admitir este método de integración de datos.

Extracción progresiva

Algunos orígenes de datos no pueden proporcionar notificaciones de actualización, pero pueden identificar y extraer datos que se han modificado durante un período de tiempo determinado. En este caso, el sistema busca cambios a intervalos periódicos, como una vez a la semana, una vez al mes o al final de una campaña. Sólo necesita extraer los datos que han cambiado.

Extracción completa

Algunos sistemas no pueden identificar los cambios de datos ni enviar notificaciones, por lo que recargar todos los datos es la única opción. Este método de extracción requiere que conserve una copia del último extracto para verificar qué registros son nuevos. Debido a que este enfoque implica grandes volúmenes de transferencia de datos, le recomendamos que lo use solo para tablas pequeñas.

¿Qué es la transformación de datos?

En la transformación de datos, las herramientas de extracción, transformación y carga (ETL) transforman y consolidan los datos en bruto en el área de preparación para prepararlos para el almacenamiento de datos de destino. La fase de transformación de datos puede implicar los siguientes tipos de cambios de datos.

Transformación básica de datos

Las transformaciones básicas mejoran la calidad de los datos eliminando errores, vaciando campos de datos o simplificando datos. A continuación se muestran ejemplos de estas transformaciones.

Limpieza de datos

La limpieza de datos elimina errores y asigna datos de origen al formato de datos de destino. Por ejemplo, puede asignar campos de datos vacíos al número 0, asignar el valor de datos “Principal” a “P” o asignar “Secundario” a “S”.

Deduplicación de datos

La deduplicación en la limpieza de datos identifica y elimina los registros duplicados.

Revisión del formato de datos

La revisión de formato convierte datos, como conjuntos de caracteres, unidades de medida y valores de fecha/hora, en un formato coherente. Por ejemplo, una empresa de alimentos puede tener diferentes bases de datos de recetas con ingredientes medidos en kilogramos y libras. ETL convertirá todo a libras.

Transformación avanzada de datos

Las transformaciones avanzadas utilizan reglas comerciales para optimizar los datos y facilitar el análisis. A continuación se muestran ejemplos de estas transformaciones.

Derivación

La derivación aplica reglas comerciales a sus datos para calcular nuevos valores a partir de valores existentes. Por ejemplo, puede convertir los ingresos en ganancias restando los gastos o calculando el costo total de una compra multiplicando el precio de cada artículo por la cantidad de artículos pedidos.

Vinculación

En la preparación de datos, la vinculación conecta los mismos datos de diferentes orígenes de datos. Por ejemplo, puede encontrar el costo total de compra de un artículo sumando el valor de compra de diferentes proveedores y almacenando solo el total final en el sistema de destino.

División

Puede dividir una columna o un atributo de datos en varias columnas en el sistema de destino. Por ejemplo, si el origen de datos guarda el nombre del cliente como “María Isabel Pérez”, puede dividirlo en nombre, segundo nombre y apellido.

Integración

La integración mejora la calidad de los datos al reducir una gran cantidad de valores de datos en un conjunto de datos más pequeño. Por ejemplo, los valores de las facturas de los pedidos de los clientes pueden tener muchos importes pequeños diferentes. Puede integrar los datos sumándolos durante un período determinado para crear una métrica de valor de vida útil del cliente (CLV).

Cifrado

Puede proteger los datos confidenciales para cumplir con las leyes de datos o la privacidad de los datos agregando cifrado antes de que los datos se transmitan a la base de datos de destino.

¿Qué es la carga de datos?

En la carga de datos, las herramientas de extracción, transformación y carga (ETL) mueven los datos transformados desde el área de ensayo al almacenamiento de datos de destino. Para la mayoría de las organizaciones que usan ETL, el proceso está automatizado, bien definido, continuo y por lotes. A continuación se presentan dos métodos para cargar datos:

Carga completa

En LA carga completa, todos los datos de la fuente se transforman y se mueven al almacenamiento de datos. La carga completa suele tener lugar la primera vez que carga datos de un sistema de origen en el almacenamiento de datos.

Carga progresiva

En la carga progresiva, la herramienta ETL carga el delta (o la diferencia) entre los sistemas de origen y destino a intervalos regulares. Almacena la fecha del último extracto para que sólo se carguen los registros agregados después de esta fecha. Hay dos formas de implementar la carga progresiva.

Transmisión de carga progresiva

Si tiene volúmenes de datos pequeños, puede transmitir cambios continuos mediante canales de datos al almacenamiento de datos de destino. Cuando la velocidad de los datos aumenta a millones de eventos por segundo, puede usar el procesamiento de flujo de eventos para monitorear y procesar las secuencias de datos para tomar decisiones más oportunas.

Carga progresiva por lotes

Si tiene grandes volúmenes de datos, puede recopilar cambios de datos de carga en lotes periódicamente. Durante este período de tiempo establecido, no se pueden realizar acciones ni en el sistema de origen ni en el de destino a medida que se sincronizan los datos.

¿Qué es ELT?

La extracción, carga y transformación (ELT) es una extensión de la extracción, transformación y carga (ETL) que invierte el orden de las operaciones. Puede cargar datos directamente en el sistema de destino antes de procesarlos. El área de preparación intermedia no es necesaria porque el almacenamiento de datos de destino tiene capacidades de asignación de datos dentro de él. ELT se ha vuelto más popular con la adopción de la infraestructura en la nube, que brinda a las bases de datos de destino la potencia de procesamiento que necesitan para las transformaciones.

ETL en comparación con ELT

ELT funciona bien para conjuntos de datos no estructurados de gran volumen que requieren carga frecuente. También es ideal para los macrodatos, porque la planificación del análisis se puede realizar después de la extracción y el almacenamiento de datos. Deja la mayor parte de las transformaciones para la etapa de análisis y se enfoca en cargar datos en bruto mínimamente procesados en el almacenamiento de datos.

El proceso ETL requiere más definición al principio. El análisis debe participar desde el principio para definir los tipos de datos de destino, las estructuras y las relaciones. Los científicos de datos utilizan principalmente ETL para cargar bases de datos heredadas en el almacén, y ELT se ha convertido en la norma en la actualidad.

¿Qué es la virtualización de datos?

La virtualización de datos utiliza una capa de abstracción de software para crear una vista de datos integrada sin extraer, transformar o cargar físicamente los datos. Las organizaciones utilizan esta funcionalidad como un repositorio de datos virtual unificado sin el gasto y la complejidad de crear y administrar plataformas separadas para el origen y el destino. Si bien puede usar la virtualización de datos junto con la extracción, transformación y carga (ETL), se considera cada vez más como una alternativa a ETL y otros métodos de integración de datos físicos. Por ejemplo, puede utilizar AWS Glue Elastic Views para crear de forma rápida una tabla virtual, una vista materializada, a partir de varios almacenes de datos de origen diferentes.

¿Qué es AWS Glue?

AWS Glue es un servicio de integración de datos sin servidor que facilita a los usuarios de análisis la detección, preparación, migración e integración de datos provenientes de varios orígenes para el análisis, machine learning y desarrollo de aplicaciones.

Puede descubrir y conectarse a más de 80 almacenes de datos diferentes.
Puede administrar sus datos en un catálogo de datos centralizado.
Los ingenieros de datos, desarrolladores de extracción, transformación y carga (ETL), analistas de datos y usuarios empresariales pueden utilizar AWS Glue Studio para crear, ejecutar y monitorear canalizaciones de ETL para cargar datos en lagos de datos.
AWS Glue Studio ofrece interfaces visuales de ETL, de cuaderno y de editor de código, para que los usuarios dispongan de herramientas adecuadas a sus habilidades.
Con las sesiones interactivas, los ingenieros de datos pueden explorar datos, así como crear y probar trabajos mediante su IDE o cuaderno preferido.
AWS Glue es sin servidor y se escala automáticamente bajo demanda, por lo que puede centrarse en obtener información de datos a escala de petabytes sin administrar la infraestructura.

Cree una cuenta de AWS para comenzar a usar AWS Glue.

¿Qué es extracción, transformación y carga (ETL)?

¿Qué es ETL?

¿Por qué es importante ETL?