Data Lakes vs. Data Mesh: navegando por el futuro de las estrategias de datos organizacionales

Por Matthias Patzak

Durante más de una década, las organizaciones han adoptado los data lakes (lagos de datos) para superar las limitaciones técnicas de los data warehouses (almacenes de datos) y evolucionar para convertirse en entidades más centradas en los datos. Si bien muchas organizaciones han utilizado los data lakes para explorar nuevos casos de uso de los datos y mejorar sus enfoques basados en los datos, a otras les ha resultado difícil conseguir los beneficios prometidos. Como resultado, la eficacia y el ROI de muchas iniciativas de data lakes están ahora bajo escrutinio.

**Superando las dificultades: cuando los Data lakes se convierten en “Pantanos de Datos”**

La visión de la comunidad tecnológica sobre los data lakes ha evolucionado a medida que algunas organizaciones se enfrentan al desafío de gestionar enormes almacenes de datos y evitar los «pantanos de datos», en los que los datos se almacenan pero no se utilizan. Estos “pantanos de datos” son enormes repositorios en los que los datos se descargan de forma indiscriminada, lo que genera problemas de visibilidad y usabilidad. La centralización puede crear cuellos de botella que ralentizan el acceso y el análisis, y sin una gobernanza rigurosa, la calidad de los datos puede deteriorarse rápidamente. Además, el enfoque “one-size-fits-all”, en español de “talla única”, de los data lakes no aborda las necesidades específicas de los distintos ámbitos empresariales. El potencial de los data lakes a menudo permanece sin explotar porque los usuarios tienen dificultades para extraer valor debido a la falta de las herramientas adecuadas o a la complejidad de los datos en sí mismos.

Data lakes bien implementados	Data lakes mal implementados
Fuente única de verdad	Silos de datos a los que es difícil acceder
Almacenamiento rentable	Se almacenan muchos datos innecesarios («Los datos son el nuevo petróleo»)
Democratización de los datos	Habilidades especializadas necesarias para acceder a los datos
Flexibilidad en los formatos de datos	Mala calidad de los datos e inconsistencia
Analítica avanzada y machine learning	Dificultades para obtener valor a partir de grandes volúmenes de datos no estructurados
Información más rápida	Comunicación prolongada y falta de herramientas, interfaces y habilidades
Gestión de datos simplificada	La administración se vuelve engorrosa a medida que el data lake crece

Los productores de datos frente a los consumidores: el abismo organizacional

La causa fundamental de estos problemas es la interacción organizacional entre los productores y consumidores de datos, por un lado, y el equipo central del data lake, por otro. Los productores de datos suelen estar más motivados para desarrollar nuevas funciones de aplicación que para hacer que los datos estén disponibles para casos de uso analíticos. Al centrarse en las cargas de trabajo transaccionales más que en las analíticas, los datos que comparten pueden ser de mala calidad. Además, carecen de una conexión con los consumidores de sus datos, lo que provoca falta de alineación entre lo que se produce y lo que se necesita.

Los equipos de data lake tienen sus propios problemas: están abrumados por las fuentes de datos, tienen que realizar un mantenimiento técnico complejo y hacer malabares constantemente a medida que cambian las prioridades. Los consumidores, impactados por sus limitadas capacidades analíticas y por su desconexión con los productores de datos, se sienten frustrados por la falta de transparencia, la falta de claridad del valor y la escasa priorización de sus necesidades. Los consumidores y productores de datos no suelen interactuar directamente; esta comunicación está bloqueada por la organización proxy del data lake, donde todos los datos se almacenan de forma centralizada.

**Capacitar a los equipos con Data Mesh: el camino hacia un ecosistema de datos distribuidos**

El debate en la comunidad tecnológica se ha desplazado hacia una estrategia de datos más matizada y adaptable llamada data mesh. Su objetivo es superar algunas limitaciones de los data lakes centralizados mediante la promoción de un enfoque de gestión de datos más distribuido, centrado en las personas y de contexto específico.

El data mesh es un enfoque alternativo a los problemas de centralización. Asigna la responsabilidad de los datos analíticos a los equipos de dominios específicos que crean y ejecutan aplicaciones y producen datos transaccionales, como los equipos de comercio electrónico, y a los que consumen datos y los utilizan para obtener información. Por ejemplo, el equipo propietario de la página de pago de una tienda web y que almacena los datos de ventas en una base de datos transaccional también es responsable de hacer que esos datos de ventas estén disponibles para fines de análisis, elaboración de informes y casos de uso de inteligencia artificial y aprendizaje automático, como marketing o finanzas. El data mesh facilita y simplifica a los consumidores el uso de estos datos analíticos.

No se trata simplemente de otra interfaz implementada; los datos están disponibles como un producto de datos independiente que proporciona un beneficio específico a un consumidor real. Este producto de datos consta de los datos específicos y sus metadatos, el código fuente necesario para preparar y entregar los datos, la infraestructura de prueba y producción necesaria (como IaC) y su configuración.

Fomento del Data Literacy: Introducción de nuevos roles en los equipos de Data Mesh

Los equipos que crean y utilizan datos, como el equipo de pago de comercio electrónico y el departamento de marketing, en mi ejemplo, suelen carecer de la experiencia necesaria para desarrollar y gestionar datos con fines analíticos. Sin embargo, su profundo conocimiento del contexto empresarial de sus datos tiene un valor incalculable. En un marco de data mesh, es esencial aprovechar este conocimiento capacitando a estos equipos para implementar casos de uso analíticos. Esto incluye proporcionar una amplia formación a los miembros actuales y crear funciones especializadas adicionales. Dos roles clave son fundamentales: un data product owner, que guíe la dirección estratégica de los datos, y un data engineer, que se encargue de los aspectos técnicos de la creación y la gestión de estos productos de datos.

El data product owner es una persona de datos orientada a los negocios que conoce muy bien el dominio empresarial desde una perspectiva transaccional y analítica. Se comunican directamente con los consumidores del producto de datos y definen el producto, su estrategia y su hoja de ruta.

Un data engineer es un especialista en ingeniería y ciencia de datos con amplia experiencia en un área relacionada con los datos que necesita la empresa. Esta persona crea los productos de datos reales y es el punto de contacto para las preguntas técnicas de otros equipos.

Creando una base para el éxito: la plataforma Data Mesh

Para aprovechar todo el potencial del data mesh, recomiendo integrar ambas funciones directamente en los equipos de producción y consumo. Una variante válida pero subóptima, porque reintroduce un equipo de representación, consiste en establecer un equipo de data mesh independiente para cada ámbito empresarial (por ejemplo, el comercio electrónico). Una plataforma de data mesh apoya a productores y consumidores, haciendo que su trabajo sea más fácil y eficiente. Los equipos de la plataforma de data mesh no crean productos de datos ni almacenan ni procesan datos.

La plataforma de data mesh tiene tres funciones: (1) proporcionar herramientas e infraestructura, como un catálogo de datos, control de acceso, canalización de CI/CD, monitoreo y entornos preparatorios de desarrollo y prueba; (2) capacitar y asesorar a productores y consumidores y, si es necesario, apoyarlos con capacidad de desarrollo adicional; y (3) moderar los estándares y procedimientos comunes en un enfoque federado que debe respetarse en toda la organización. La misión de la plataforma de data mesh es hacer que la vida sea sencilla, eficiente y sin estrés para los productores y los consumidores.

Desafortunadamente, administrar una plataforma de manera exitosa y sostenible no es tan fácil como sugieren algunos miembros de la comunidad tecnológica. He resumido mis experiencias en la entrada de mi blog sobre cómo configurar una plataforma que apoye eficazmente a tus equipos de desarrollo.

Cuando se hace correctamente, el modelo de data mesh promueve un enfoque proactivo para mantener la calidad, la relevancia y la accesibilidad de los datos, así como para adaptar los productos de datos para satisfacer las necesidades únicas de las diferentes unidades de negocio. Al alinear estrechamente los datos analíticos con su contexto operativo, un data mesh facilita un uso y un intercambio más efectivos de los datos en toda la organización. Aprovecha los principios de la arquitectura distribuida moderna, como los derivados de las arquitecturas de microservicios, no solo para almacenar los datos de manera más eficiente, sino también para ponerlos a disposición del consumo, lo que genera información procesable estrechamente alineada con los objetivos empresariales.

Si desea ver un buen ejemplo de un data mesh, consulte la presentación de Travis Muhlestein, director de datos y análisis de GoDaddy, sobre la creación de arquitecturas de data mesh en AWS a partir de re:Invent 2022. — Matthias

Blog original: Native backup and restore with Amazon S3 integration on Amazon RDS Custom for SQL Server 2022

Enlaces:
AWS: ¿Qué es un data mesh?
AWS: Diseñe una arquitectura de data mesh con AWS Lake Formation y AWS Glue
AWS: Let’s Architect! Diseñar un data mesh

ETIQUETAS: Análisis, mejores prácticas, estrategia de datos, cultura basada en datos

Matthias Patzak
Matthias se unió al equipo de Enterprise Strategist a principios de 2023 después de un período como Principal Advisor en arquitectura de soluciones de AWS. En este puesto, Matthias trabaja con equipos ejecutivos sobre cómo la nube puede ayudar a aumentar la velocidad de la innovación, la eficiencia de TI y el valor empresarial que genera la tecnología desde una perspectiva de personas, procesos y tecnología. Antes de unirse a AWS, Matthias fue vicepresidente de TI en AutoScout24 y director general de Home Shopping Europe. En ambas empresas, introdujo modelos operativos ágiles y eficientes a escala y lideró transformaciones exitosas en la nube, lo que resultó en tiempos de entrega más cortos, mayor valor de negocio y valoraciones más altas de las empresas.

Georgette Martínez

Georgette es FSI Customer Solutions Manager en AWS de clientes globales de la industria de servicios financieros en México. Tiene más de 9 años de experiencia en el sector Tecnológico liderando programas de adopción de la nube. Adicionalmente, experiencia en el sector de Telecomunicaciones e investigación.

Nelson Rojas

Nelson es Senior Customer Solutions Manager en AWS para clientes de Telecomunicaciones en Latin America. Cuenta con más de 25 años de experiencia en la industria de tecnologia informatica, entre sus temas de profundizacion estan Analítica de Datos, Inteligencia Artificial y Ciberseguridad, asi como su aplicación en la transformación digital empresarial.

Blog de Amazon Web Services (AWS)

Data Lakes vs. Data Mesh: navegando por el futuro de las estrategias de datos organizacionales

**Superando las dificultades: cuando los Data lakes se convierten en “Pantanos de Datos”**

Los productores de datos frente a los consumidores: el abismo organizacional

**Capacitar a los equipos con Data Mesh: el camino hacia un ecosistema de datos distribuidos**

Fomento del Data Literacy: Introducción de nuevos roles en los equipos de Data Mesh

Creando una base para el éxito: la plataforma Data Mesh

Aprender

Recursos

Desarrolladores

Ayuda