¿Qué es una malla de datos?
Una malla de datos es un marco de arquitectura que resuelve desafíos complejos en materia de seguridad de datos por medio de un enfoque de propiedad distribuida y descentralizada. Las organizaciones disponen de múltiples orígenes de datos procedentes de diferentes líneas de negocio que se deben integrar para llevar a cabo análisis. Una arquitectura de malla de datos une eficazmente los orígenes de datos dispares y los vincula entre sí a través de directrices de uso compartido y gobernanza de datos administradas de forma centralizada. Las funciones empresariales consiguen mantener el control sobre cómo se accede a los datos compartidos, quién accede a estos y en qué formatos. Una malla de datos aumenta la complejidad de la arquitectura, pero también aporta eficacia al mejorar el acceso a los datos, la seguridad y la escalabilidad.
¿Qué desafíos resuelve una malla de datos?
A pesar de que las organizaciones tienen acceso a un volumen de datos cada vez mayor, tienen que clasificar, filtrar, procesar y analizar los datos para lograr beneficios prácticos. Las organizaciones suelen usar un equipo central de ingenieros y científicos para administrar los datos. El equipo usa una plataforma de datos centralizada para los siguientes propósitos:
- Ingerir los datos de todas las diferentes unidades empresariales (o dominios empresariales).
- Transformar los datos en un formato coherente, confiable y útil. Por ejemplo, el equipo puede asegurarse de que todas las fechas de un sistema estén en un formato común o resumir informes diarios.
- Preparar los datos para los consumidores de datos, por ejemplo, generando informes para humanos o preparando archivos XML para aplicaciones. Más información sobre XML »
A medida que crece el volumen de datos, las organizaciones se enfrentan a costos cada vez mayores para mantener la misma agilidad de siempre. El sistema monolítico es difícil de escalar por los siguientes motivos:
Equipo de datos en silos
El equipo de datos central tiene científicos e ingenieros de datos especialistas con conocimientos empresariales y del dominio limitados. Sin embargo, siguen teniendo que ofrecer datos para un conjunto diverso de necesidades analíticas y operativas sin una motivación clara.
Respuesta lenta al cambio
Los ingenieros de datos suelen implementar canalizaciones que ingieren los datos y los transforman a lo largo de varios pasos antes de almacenarlos en un lago de datos central. Cualquier cambio solicitado requiere modificaciones en toda la canalización. El equipo central tiene que hacer estos cambios al mismo tiempo que gestiona prioridades incompatibles y con un conocimiento empresarial y del dominio limitado.
Precisión reducida
Las unidades empresariales están desconectadas de los consumidores de datos y los equipos de datos centrales. Como resultado, carecen del incentivo para ofrecer datos útiles, correctos y significativos.
¿Qué beneficios ofrece una malla de datos?
Con el tiempo, una arquitectura de plataforma de datos podría dar lugar a consumidores de datos frustrados, productores de datos desconectados y un equipo de administración de datos sobrecargado. Para tratar de resolver estos desafíos, la arquitectura de malla de datos ofrece a las unidades empresariales las herramientas para que tengan una alta autonomía y asuman la responsabilidad de su dominio de datos. A continuación, se muestran los beneficios de la arquitectura de malla de datos:
Procesamiento de datos democrático
Una malla de datos transfiere el control de datos a los expertos del dominio que crean productos de datos significativos dentro de un marco de gobernanza descentralizado. Los consumidores de datos también solicitan acceso a los productos de datos y buscan aprobaciones o cambios directamente de los propietarios de datos. Como resultado, todo el mundo obtiene acceso más rápido a los datos relevantes, y un acceso más rápido mejora la agilidad de la empresa.
Mayor flexibilidad
Una infraestructura de datos centralizada es más compleja y requiere colaboración para poder mantenerse y cambiarse. En su lugar, la malla de datos reorganiza la implementación técnica del sistema central a los dominios empresariales. Esto elimina las canalizaciones de datos y reduce los cuellos de botella operativos, así como también la sobrecarga técnica del sistema.
Rentabilidad
Una arquitectura de datos distribuidos no es como el procesamiento por lotes, pues, en su lugar, fomenta la adopción de flujos de datos en tiempo real. Ofrece una mejor visualización de la asignación de recursos y los costos de almacenamiento, lo que da lugar a mejores presupuestos y costos reducidos.
Detección de datos mejorada
Un modelo de malla de datos previene que los silos de datos se formen alrededor de equipos de ingeniería centrales. También reduce el riesgo de que los activos de datos acaben bloqueados en distintos sistemas de dominios empresariales. En su lugar, el marco de administración de datos central gestiona y registra los datos disponibles en la organización. Por ejemplo, los equipos de dominio registran automáticamente sus datos en un registro central.
Seguridad y conformidad reforzadas
Las arquitecturas de mallas de datos refuerzan las políticas de seguridad de datos tanto dentro como entre dominios. Ofrecen supervisión centralizada y auditoría del proceso del uso compartido de datos. Por ejemplo, puede reforzar los requisitos de registro y rastreo de los datos en todos los dominios. Los auditores pueden observar el uso y la frecuencia del acceso a los datos.
¿Cuáles son los casos de uso de una malla de datos?
Una malla de datos puede respaldar todos los tipos de casos de uso de macrodatos. A continuación, presentamos algunos ejemplos.
Análisis de datos
Diversas funciones empresariales aprovisionan datos de confianza y alta calidad para las cargas de trabajo de análisis de datos. Los equipos pueden usar los datos para crear paneles de inteligencia empresarial personalizados para mostrar el rendimiento del proyecto, los resultados de marketing y los datos operativos. Los científicos de datos pueden acelerar los proyectos de machine learning para aprovechar al máximo la automatización.
Atención al cliente
Una malla de datos ofrece una vista completa de los clientes a los equipos de marketing y atención al cliente. Por ejemplo, los equipos de atención al cliente pueden obtener datos relevantes y reducir el tiempo medio de gestión. Por su parte, los equipos de marketing pueden estar seguros de que segmentan la demografía de clientes adecuada en sus campañas.
Informes normativos
La necesidad de volumen, puntualidad y precisión en datos que cumplen los objetivos normativos supone un desafío tanto para las firmas reguladoras como reguladas. Todas las partes pueden beneficiarse de la aplicación de tecnologías de malla de datos. Por ejemplo, las organizaciones pueden introducir los datos de informes en una malla de datos gobernada centralmente por los cuerpos reguladores.
Datos de terceros
Puede aplicar la tecnología de malla de datos a los casos de uso que requieran conjuntos de datos públicos o de terceros. Puede tratar los datos externos como si fueran un dominio independiente e implementarlos en la malla para garantizar la consistencia con los conjuntos de datos internos.
¿Cuáles son los principios de la arquitectura de malla de datos?
Su organización debe implementar los siguientes cuatro principios para adoptar el paradigma de malla de datos.
Arquitectura basada en dominios distribuidos
La estrategia de malla de datos propone que la responsabilidad de administrar los datos se organice en torno a las funciones o dominios empresariales. Los equipos de dominio son responsables de recopilar, transformar y ofrecer datos relacionados con sus funciones empresariales o creados por estas. En lugar de un flujo de datos de dominios que vaya desde los orígenes de datos hasta una plataforma de datos central, un equipo específico aloja y ofrece sus conjuntos de datos de una forma que facilita el consumo. Por ejemplo, un vendedor minorista podría tener un dominio de ropa con datos sobre sus prendas y un dominio de comportamiento del sitio web que contenga un análisis del comportamiento de los visitantes al sitio.
Datos como producto
Para que la implementación de una malla de datos sea exitosa, cada equipo de dominio tiene que aplicar el pensamiento del producto a los conjuntos de datos que ofrecen. Deben imaginar que sus activos de datos son sus productos y, los otros equipos empresariales y de datos de la organización, sus clientes.
Para obtener la mejor experiencia del usuario posible, los productos de datos del dominio deberían tener las siguientes cualidades básicas.
Facilidad de detección
Cada producto de datos se registra a sí mismo en un catálogo de datos centralizado para una detección fácil.
Direccionabilidad
Cada producto de datos debería tener una dirección única que ayude a los consumidores de datos a acceder a este de forma programática. La dirección suele seguir los estándares de nomenclatura decididos de forma central dentro de la organización.
Fiabilidad
Los productos de datos definen objetivos de servicio según el grado de precisión con el que los datos reflejan la realidad de los eventos que documentan. Por ejemplo, el dominio de pedidos podría publicar datos tras verificar la dirección y el número de teléfono de un cliente.
Autodescriptividad
Todos los productos de datos cuentan con una semántica y sintaxis bien descrita que sigue las convenciones de nomenclatura estándar determinadas por la organización.
Infraestructura de datos de autoservicio
Una arquitectura de datos distribuida requiere que cada dominio configure su propia canalización de datos para limpiar, filtrar y cargar sus propios productos de datos. Una malla de datos introduce el concepto de una plataforma de datos de autoservicio para evitar la duplicación de los esfuerzos. Los ingenieros de datos configuran tecnologías para que todas las unidades empresariales puedan procesar y almacenar sus productos de datos. Así pues, una infraestructura de autoservicio permite una división de responsabilidad. Los equipos de ingeniería de datos administran la tecnología mientras los equipos empresariales administran los datos.
Gobernanza de datos federada
Las arquitecturas de malla de datos implementan la seguridad como una responsabilidad compartida dentro de la organización. El liderazgo determina los estándares y las políticas globales que puede aplicar en todos los dominios. Al mismo tiempo, la arquitectura de datos descentralizada permite un alto grado de autonomía en lo que respecta a la implementación de políticas y estándares dentro del dominio.
¿Cómo puede crear una malla de datos en su organización?
La malla de datos es un concepto emergente que empezó a ganar terreno tras la pandemia. Las organizaciones están experimentando con diferentes tecnologías a medida que tratan de crear una malla de datos para casos de uso específicos. Sin embargo, que toda la organización adopte la malla de datos empresarial es algo que sigue siendo raro. No hay una ruta clara en lo que respecta a la implementación de la malla de datos, pero le ofrecemos algunas sugerencias a continuación:
Analice sus datos existentes
Antes de crear una malla de datos, debe catalogar sus datos existentes e identificar los dominios empresariales relevantes. Seguir ciertas reglas de armonización es la clave para una correlación efectiva de datos entre dominios. Por ejemplo, tendrá que definir los estándares globales para el formato del tipo de campo, los campos de metadatos y las convenciones para la dirección del producto de datos.
Implemente políticas de gobernanza de datos globales
La gobernanza de datos federados requiere que su equipo de TI central identifique los estándares para los informes, la autenticación y la conformidad. También puede definir controles de acceso detallados que los propietarios de productos de datos apliquen cuando alojen sus conjuntos de datos. Mientras que los productores de datos definen y miden la calidad de sus datos, las políticas de gobernanza centrales ayudan a guiar sus decisiones.
Desarrolle su plataforma de datos de autoservicio
Su plataforma de datos de autoservicio debería ser genérica, así todo el mundo puede crear nuevos productos de datos de dominio en ella. También debería ocultar la complejidad técnica subyacente y ofrecer componentes de infraestructura a modo de autoservicio. A continuación, se muestran algunas capacidades que puede incluir:
- Cifrado de datos
- Esquema de productos de datos
- Control de acceso y gobernanza
- Detección de productos de datos, como la publicación o el registro de catálogos
- Registro y supervisión de productos de datos
- Almacenamiento en memoria caché para un mejor rendimiento
También puede crear automatización, con configuraciones y scripts, por ejemplo, para reducir el tiempo de espera para crear productos de datos.
Elija las tecnologías adecuadas
Sus sistemas de almacenamiento tradicionales existentes, como el almacenamiento de datos y los lagos de datos, también pueden reforzar su malla de datos. Tan solo tiene que cambiar su uso de sistemas monolíticos a varios repositorios de datos descentralizados. Una malla de datos también permite la adopción de plataformas de nube y tecnologías centradas en la nube. La infraestructura de nube reduce los costos operativos y el esfuerzo que requiere desarrollar una malla de datos. Debe elegir un proveedor de nube con servicios de administración de datos enriquecidos para respaldar la arquitectura de malla de datos. También tendrá que tener en cuenta los requisitos de integración de datos con sistemas heredados.
Inicie un cambio cultural en toda la organización
Actualmente, tenemos la tecnología y las herramientas necesarias para desarrollar fácilmente una malla de datos con varios productos de datos. El cambio hacia la unificación de los lotes y los flujos ahora es más fácil que nunca gracias a herramientas como Amazon EMR. Sin embargo, escalar su malla de datos más allá de pequeños proyectos requiere un cambio de paradigma que deje atrás las arquitecturas de datos centralizadas del pasado. Requiere un nuevo lenguaje que enfatice lo siguiente:
- Detección y uso de datos antes que extracción y carga
- Procesamiento de datos en tiempo real antes que procesamiento de lotes de gran volumen más tarde
- Propiedad de los productos de datos distribuidos antes que una arquitectura de plataforma de datos central
Actualmente, la tecnología de datos suele impulsar decisiones de arquitectura. Una malla de datos revierte este flujo y pone los productos de datos de dominio en el centro para que impulsen las decisiones tecnológicas en su lugar.
¿Qué diferencia hay entre una malla de datos y un lago de datos?
Un lago de datos es un repositorio en el que puede almacenar todos sus datos con y sin estructura sin preprocesamiento y a cualquier escala. En las plataformas de datos centralizadas, el lago de datos es la tecnología básica para almacenar datos de todos los orígenes posibles.
Una malla de datos es un paradigma de administración de datos que usa lagos de datos de forma diferente. Un lago de datos ya no es la parte central de toda la arquitectura. En su lugar, puede usarlo para implementar productos de datos o como parte de la infraestructura de autoservicio.
¿Qué diferencia hay entre una malla de datos y un tejido de datos?
Un tejido de datos es otra arquitectura moderna que usa el machine learning y la automatización para una integración completa de varios entornos de la nube y canalizaciones de datos. Sería como una capa de tecnología sobre la infraestructura subyacente que integra de forma cohesiva y presenta los datos a usuarios no técnicos. Por ejemplo, los responsables de la toma de decisiones usan el tejido de datos para ver todos sus datos en un único lugar y conectar conjuntos de datos dispares.
Tanto la malla como el tejido de datos tienen objetivos similares: una administración de datos unificada y efectiva. Por ejemplo, digamos que tiene un lago de datos central y usa servicios de AWS para la ingesta de datos. Al mismo tiempo, cuenta con infraestructura heredada para las transformaciones de datos. El tejido de datos integra ambos sistemas y presenta una vista unificada sin cambiar la canalización existente.
Así pues, un tejido de datos usa tecnología para trabajar con su infraestructura existente. Por otro lado, la implementación de una malla de datos requiere que cambie la infraestructura subyacente. Tiene que cambiar el modelo de envío e ingesta de su administración de datos a un modelo de entrega y recepción en todos sus dominios empresariales.
¿Cómo puede respaldar AWS sus arquitecturas de malla de datos?
Arquitectura de datos moderna en AWS incluye varios servicios que puede usar para implementar una malla de datos y otras arquitecturas de datos modernas en su organización. Puede desarrollar rápidamente productos de datos y una infraestructura de malla de datos a bajo costo sin comprometer el rendimiento.
A continuación, se muestran algunos ejemplos de servicios de AWS que puede usar:
- Use AWS Lake Formation para desarrollar un patrón de malla de datos a escala con un control de acceso basado en etiquetas
- Use AWS Data Exchange para integrar datos de terceros en su malla de datos
- Use AWS Glue para compartir, alojar y catalogar productos de datos
Para comenzar con la malla de datos en AWS, cree una cuenta gratuita hoy mismo.
Siguientes pasos de la malla de datos
Obtenga acceso instantáneo al nivel Gratuito de AWS.
Comience a crear en la consola de administración de AWS.