¿Qué es un lakehouse de datos?
¿Qué es un lakehouse de datos?
Un lakehouse de datos es un sistema de administración de datos que ofrece un almacenamiento flexible y rentable a escala, a la vez que proporciona capacidades de análisis como la estructuración, la gobernanza y la generación de informes. Le permite almacenar datos sin procesar en una variedad de formatos de miles o incluso cientos de miles de fuentes de manera más rentable en una ubicación central. Los datos también se pueden utilizar con herramientas de análisis para entrenar modelos de IA y generar informes y paneles. Un lakehouse de datos proporciona muchas capacidades que le permiten procesar los datos crudos que contenga para su posterior análisis.
¿Cuál es la diferencia entre un lago de datos, un almacén de datos y un lakehouse de datos?
La arquitectura de lakehouse de datos surgió al combinar los puntos fuertes de dos espacios de guardado de datos centralizados tradicionales: el almacén de datos y el lago de datos.
Almacén de datos
Un almacén de datos es un sistema de almacenamiento de datos que guarda datos estructurados en función de esquemas de datos estándar. Los esquemas son planos predefinidos que determinan el formato de los datos, la relación y la estructura de la información en una base de datos relacional.
Las organizaciones utilizan sistemas de almacenes de datos para acceder rápidamente al procesamiento de datos, el análisis de inteligencia empresarial y los informes empresariales. El almacenamiento de datos proporciona acceso a herramientas de análisis avanzadas, una gobernanza de datos sólida y facilidad de uso para usuarios sin conocimientos técnicos. Por ejemplo, puede recuperar los informes de rendimiento de marketing mediante un panel del almacén de datos.
Sin embargo, el almacenamiento de datos introduce pasos adicionales en el ciclo de vida de los datos. Para obtener información lista para el análisis, los datos se someten a varios procesos de extracción, transformación y carga (ETL) antes de guardarse en un almacén de datos. Además, un almacén de datos no puede gestionar datos no estructurados y semiestructurados, que necesitan las cargas de trabajo de inteligencia artificial y machine learning. En la configuración de un almacén de datos, el almacenamiento y la potencia de procesamiento están estrechamente relacionados, lo que aumenta los costos de escalamiento de la infraestructura.
Lago de datos
Un lago de datos es un sistema de almacenamiento que conserva los datos en su formato original. Los científicos de datos lo utilizan para almacenar datos estructurados, no estructurados y semiestructurados. El almacenamiento de datos en un lago de datos es rápido porque la información no pasa por una canalización de ETL. En su lugar, los datos sin procesar se almacenan tal como están. Por lo tanto, un lago de datos puede almacenar enormes volúmenes de información a un ritmo elevado, incluidas las secuencias de datos en tiempo real.
Debido al volumen de los datos, los lagos de datos en la nube son ideales para la exploración de datos, el machine learning y otras aplicaciones de ciencia de datos. Un lago de datos también es más asequible de escalar debido a su alojamiento de almacenamiento de bajo costo.
A diferencia de un almacén de datos, el acceso a los datos almacenados en un lago requiere experiencia técnica, lo que limita su uso a un grupo más pequeño de usuarios. Esto significa que solo los usuarios que dominan la ciencia de datos pueden extraer, manipular y analizar los datos sin procesar para obtener información empresarial. Además, un lago de datos no administrado puede provocar pantanos de datos. Los pantanos de datos son un estado de datos desorganizados que dificulta la extracción de información significativa.
Lakehouse de datos
Un lakehouse de datos es una arquitectura de datos unificada que combina las ventajas de un almacén de datos y un lago de datos. Proporciona un espacio de almacenamiento de alto rendimiento, asequible y fácil de gestionar para varios tipos de datos.
A diferencia de un almacén, un lakehouse puede almacenar datos semiestructurados y no estructurados con fines de machine learning. Además, la arquitectura de lakehouse de datos consiste en herramientas de análisis de SQL que los administradores empresariales utilizan para informar y extraer información procesable.
¿Cuáles son las características principales de un lakehouse de datos?
Los lakehouses de datos proporcionan características de administración de datos para que las organizaciones creen centros de procesamiento de datos escalables, complejos y de baja latencia. A continuación, compartimos algunas características clave de un lakehouse de datos.
Compatibilidad con diversos tipos de datos y cargas de trabajo
Los lakehouses de datos pueden almacenar diversos tipos de datos, incluidos archivos de texto, imágenes, videos y audio, sin pasos de transformación adicionales ni un esquema rígido. Esto permite una rápida ingesta de datos, lo que garantiza la actualización de los datos para las aplicaciones conectadas.
Para respaldar la diversidad de datos, un lakehouse almacena los datos sin procesar en un almacenamiento basado en objetos. El almacenamiento basado en objetos es un tipo de arquitectura de almacenamiento de datos optimizada para gestionar grandes volúmenes de datos no estructurados.
Compatibilidad con transacciones
Un lakehouse de datos proporciona características de administración de datos para almacenar transacciones compatibles con ACID, similares a las que se encuentran en las bases de datos convencionales. ACID representa las palabras atomicidad, coherencia, aislamiento y durabilidad.
- Mediante la atomicidad, se tratan todas las transacciones de datos como una sola unidad, lo que significa que se implementan correctamente o no.
- La coherencia se refiere al comportamiento predecible de la base de datos que se produce al actualizar una tabla de datos específica. Cada actualización sigue reglas predefinidas que garantizan la coherencia de los datos.
- El aislamiento permite que se realicen múltiples transacciones sin interferir entre sí. Incluso si varios usuarios actualizan la base de datos simultáneamente, cada operación se ejecuta de forma independiente, lo que significa que una transacción finaliza antes de que comience la siguiente.
- La durabilidad es la capacidad de la base de datos para retener y guardar los cambios incluso si el sistema falla.
Como conjunto de conceptos, ACID garantiza la integridad de los datos, lo que permite que los equipos de software creen aplicaciones que se basan en un almacenamiento confiable de datos transaccionales.
Ingesta de transmisión
Las secuencias de datos son un flujo continuo de información que proviene de orígenes de datos como los dispositivos de internet de las cosas (IoT), las transacciones financieras y los servicios de aplicaciones.
Algunas aplicaciones requieren la transmisión de datos para reflejar y visualizar los cambios en los datos casi en tiempo real. La arquitectura de lakehouse de datos puede ingerir secuencias de datos y ponerlos a disposición de las aplicaciones orientadas al usuario. Además, los científicos de datos pueden crear herramientas de análisis sobre las secuencias de datos y visualizarlas con cuadros, tablas y gráficos.
Integraciones Zero ETL
Zero ETL es un proceso de datos que evita las complejas canalizaciones de transformación de datos al moverlos. Una infraestructura de lakehouse de datos permite una integración Zero ETL.
Convencionalmente, las organizaciones construyen sus cargas de trabajo en un almacén de datos y en un lago de datos. Estas configuraciones de datos requieren canalizaciones ETL adicionales para consultar y transformar los datos. Con la integración Zero ETL, los científicos de datos pueden consultar diferentes silos de datos sin crear canalizaciones adicionales.
Cuando un lakehouse ingiere datos, los transforma automáticamente en formatos que se alinean con los requisitos de análisis empresarial. Por ejemplo, Amazon Redshift admite la integración Zero ETL con Amazon Aurora. Redshift es un almacén de datos, mientras que Aurora es un sistema de administración de bases de datos relacionales. Cuando se integran, los datos que Aurora ingiere se replican automáticamente en Redshift en cuestión de segundos. De esta manera, las organizaciones pueden aumentar el tiempo de obtención de información y, al mismo tiempo, mantener una infraestructura de datos simple y rentable.
Análisis unificado
Un lakehouse de datos proporciona una plataforma unificada para acceder a todos los datos almacenados. Ayuda a los arquitectos de datos a superar la duplicación, la incoherencia y la fragmentación de los datos en varios sistemas.
Otro beneficio clave del análisis centralizado es evitar movimientos de datos innecesarios entre el almacenamiento en la nube. En lugar de consultar datos en silos, los equipos de datos almacenan, analizan y comparten datos desde una única interfaz que se conecta al lakehouse. Por ejemplo, puede recuperar datos no estructurados para una carga de trabajo de machine learning y generar informes de rendimiento de marketing a partir de una única copia de los datos.
Editor de consultas
Los analistas de datos, los ingenieros de machine learning y los usuarios de datos pueden acceder fácilmente a los datos de un lakehouse mediante un editor de consultas SQL. Pueden crear comandos SQL para el análisis y la visualización de datos, explorar datos históricos, crear esquemas de bases de datos y mucho más. Un editor de consultas también mejora la colaboración al permitir a los ingenieros de datos compartir fácilmente las consultas que crean.
Compatibilidad con ML/IA
Los lakehouses de datos están diseñados para crear, probar y escalar cargas de trabajo de inteligencia artificial y machine learning (IA/ML). Además de proporcionar acceso directo a datos no estructurados, muchos proveedores de lakehouses de datos ofrecen bibliotecas, herramientas y análisis de machine learning que simplifican el desarrollo de la IA.
Por ejemplo, Amazon SageMaker Lakehouse se integra perfectamente con Amazon SageMaker Unified Studio y proporciona acceso a herramientas y análisis para acelerar los flujos de trabajo de IA/ML.
¿Cómo funciona un lakehouse de datos?
Un lakehouse de datos combina las capacidades analíticas avanzadas de los almacenes de datos con la flexibilidad de los lagos de datos para proporcionar una plataforma de datos escalable, asequible y potente. En lugar de mantener lagos de datos e infraestructuras de almacenes de datos separados, las organizaciones eligen un lakehouse de datos para obtener información empresarial con mayor rapidez.
El lakehouse de datos ingiere datos de varios recursos, los organiza internamente y los entrega a varios usuarios en diferentes formatos. Además, la computación de un lakehouse de datos está separada del almacenamiento. Con almacenamiento y computación separados, puede escalar estas funciones de forma independiente para maximizar el ahorro de costos.
A continuación, compartimos las capas de datos que forman un lakehouse.
Capa de ingesta
La capa de ingesta conecta el lakehouse de datos con varios tipos de orígenes de datos, incluidos los registros de aplicaciones, las bases de datos y las fuentes de redes sociales. En esta capa, los datos se conservan en el formato original.
Capa de almacenamiento
La capa de almacenamiento recibe los datos sin procesar entrantes y los almacena de manera escalable y de bajo costo. En una configuración de lakehouse de datos, esta capa a menudo se vincula a un almacenamiento de objetos en la nube. Este admite diversos tipos de datos, incluidos datos estructurados, semiestructurados y no estructurados.
Según los casos de uso, algunos datos se transforman después del almacenamiento en el almacenamiento de objetos. Por ejemplo, si desea entrenar un modelo de machine learning con los datos ingeridos, el lakehouse de datos transformará y almacenará los datos en formato Parquet. Parquet es un formato de archivo abierto diseñado para almacenar y procesar datos estructurados de manera eficiente segregándolos en columnas.
Capa de preparación
La capa de preparación, o de metadatos, proporciona soporte de esquemas para gobernar, organizar y optimizar los datos almacenados en el lakehouse. Esta capa le permite definir políticas para garantizar la calidad de los datos y crear pistas de auditoría con fines de cumplimiento. Además, los equipos de datos pueden crear flujos de trabajo de datos confiables mediante transacciones ACID, indexación de archivos, control de versiones de datos y almacenamiento en caché, similares a los que se encuentran en un almacén de datos tradicional.
Capa de API
La capa de interfaz de programación de aplicaciones (API) permite que los desarrolladores de software y aplicaciones consulten los datos almacenados en el lakehouse. Proporciona un acceso detallado a los datos que permite crear análisis más avanzados de forma programática a partir de ellos. Por ejemplo, los equipos de software pueden realizar llamadas a la API para recuperar flujos de datos en tiempo real y así impulsar el panel de control de una aplicación de inversión.
Capa semántica
La capa semántica es la capa superior del lakehouse de datos. También conocida como capa de consumo de datos, se compone de herramientas y aplicaciones de análisis de datos que proporcionan acceso a los datos y esquemas almacenados. Los usuarios empresariales pueden generar informes, crear gráficos, consultar información y realizar otros análisis de datos con las herramientas que encuentran en esta capa.
¿Cómo puede AWS cumplir con sus requisitos de lakehouse de datos?
Amazon SageMaker Lakehouse es un lakehouse de datos que las organizaciones utilizan para procesar exabytes de datos para obtener información empresarial y potenciar las cargas de trabajo de IA. Amazon SageMaker Lakehouse está perfectamente integrado con los servicios de almacenamiento de datos, análisis y machine learning de AWS para ayudarlo en lo siguiente:
- Acceder a los datos en el lugar para realizar análisis casi en tiempo real.
- Crear modelos de inteligencia artificial y machine learning en un único centro de datos.
- Acceder a los datos, combinarlos y compartirlos de forma segura con un mínimo de movimiento o copia.
Con una arquitectura que separa el procesamiento y el almacenamiento para un escalado eficiente, Amazon SageMaker Lakehouse ofrece una mejor relación precio-rendimiento que otros lakehouses de datos en la nube.
Amazon SageMaker Lakehouse se integra con los lakehouses de datos y lagos de datos de AWS:
- Amazon Redshift es una solución de almacén de datos que ofrece una relación precio-rendimiento inigualable a escala con SQL para su lakehouse de datos.
- Amazon S3 es un lago de datos para el almacenamiento de objetos creado para recuperar cualquier volumen de datos desde cualquier ubicación.
Para comenzar a usar lakehouses de datos en AWS, cree una cuenta gratuita hoy mismo.