Saltar al contenido principal

¿Qué es la administración de datos?

La administración de datos es el proceso de recopilación, almacenamiento, protección y uso de los datos de una organización. Aunque las organizaciones disponen hoy de varios orígenes de datos, tienen que analizarlos e integrarlos para obtener inteligencia empresarial destinada a la planificación estratégica. La administración de datos incluye todas las políticas, herramientas y procedimientos que mejoran la usabilidad de los datos dentro de los límites de las leyes y reglamentos.

¿Por qué es importante la administración de datos?

Los datos se consideran un recurso valioso de las organizaciones modernas. Con acceso a grandes volúmenes y diferentes tipos de datos, las organizaciones invierten mucho en la infraestructura de administración y almacenamiento de datos. Utilizan sistemas de administración de datos para ejecutar operaciones de inteligencia empresarial y análisis de datos de manera más eficiente. A continuación, ofrecemos algunos beneficios de la administración de datos.

Aumento de los ingresos y las ganancias

El análisis de datos ofrece una visión más profunda de todos los aspectos de una empresa. Puede actuar sobre la base de estos conocimientos para optimizar las operaciones empresariales y reducir los costos. El análisis de datos también puede predecir el impacto futuro de las decisiones, mejorando la toma de decisiones y la planificación empresarial. Por lo tanto, las organizaciones experimentan un crecimiento significativo de sus ingresos y beneficios al mejorar sus técnicas de administración de datos.

Reducción de la incoherencia de los datos

Un silo de datos es una colección de datos sin procesar dentro de una organización a la que solo puede acceder un departamento o grupo. Los silos de datos crean incoherencias que reducen la fiabilidad de los resultados del análisis de datos. Las soluciones de administración de datos integran estos últimos y crean una vista centralizada para mejorar la colaboración entre los departamentos.

Cumplir con las regulaciones

Leyes como el Reglamento General de Protección de Datos (GDPR) y la Ley de Privacidad del Consumidor de California (CCPA) están diseñadas para proteger los datos de los clientes. Estas leyes de protección de datos incluyen mandatos que exigen:

  • Consentimiento para capturar datos

  • Controles estrictos sobre la ubicación y el uso de los datos

  • Almacenamiento y eliminación seguros de datos a pedido

Por lo tanto, las organizaciones requieren un sistema de administración de datos que sea justo, transparente y confidencial para proteger los datos y, al mismo tiempo, mantener la precisión.

¿Cuáles son las áreas de enfoque de la administración de datos?

La práctica de la administración de datos abarca la recopilación y distribución de datos de alta calidad, además de la gobernanza de los datos, para controlar el acceso a los datos.

La gobernanza de datos incluye las políticas y los procedimientos que una organización implementa para administrar la seguridad, integridad y utilidad responsable de los datos. Define la estrategia de administración de datos y determina quién puede acceder a qué datos. Las políticas de gobernanza de datos también establecen la responsabilidad en la forma en que los equipos y las personas acceden a los datos. Las funciones de gobernanza de datos suelen incluir:

Elaboración de perfiles de datos

La elaboración de perfiles de datos es el proceso de diagnóstico que consiste en analizar los datos para determinar su estructura, calidad y características. Este es el primer paso para entender un conjunto de datos existente y decidir si es necesario refactorizarlo antes de usarlo.

Linaje de datos

Data Linage rastrea los flujos de datos en una organización. El linaje de datos con marca de tiempo se usa para determinar dónde se originó un dato, cómo se usó y cuándo se transformó. Este proceso de administración de datos es particularmente importante en los procesos de auditoría.

Catálogo de datos

Los catálogos de datos son una colección de los activos de datos de la organización y los metadatos relacionados. Al almacenar toda la información relacionada con los datos en un catálogo central, se convierte en el registro de datos principal de la organización. Los usuarios pueden esperar que el catálogo de datos contenga la información más actualizada sobre todos los activos de datos.

Control de acceso y seguridad

La gobernanza de datos impide el acceso no autorizado a los datos y los protege de la corrupción. Incluye todos los aspectos de protección, como los siguientes:

  • Evitar el movimiento o eliminación accidental de datos.
  • Protección del acceso a la red para reducir el riesgo de ataques.
  • Verificar que los centros de datos físicos que almacenan datos cumplan con los requisitos de seguridad.
  • Mantener los datos seguros incluso cuando los empleados acceden a ellos desde dispositivos personales.
  • Autenticación de usuarios, autorización y establecimiento y aplicación de permisos de acceso a los datos.
  • Garantizar que los datos almacenados cumplan con las leyes del país donde se almacenan los datos.
  • Agregar capas adicionales de controles para datos confidenciales

Cumplimiento de datos

Las políticas de cumplimiento de datos reducen el riesgo de multas o acciones regulatorias. Cumplir con las leyes de cumplimiento, como el RGPD y la CCPA, es esencial para las operaciones.

Las actividades de cumplimiento se centran en el modelado de datos, los controles de software y la capacitación de los empleados para que el cumplimiento de las leyes se produzca en todos los niveles. Por ejemplo, una organización colabora con un equipo de desarrollo externo para mejorar sus sistemas de datos. Los gerentes de gobernanza de datos verifican que se eliminen todos los datos personales antes de pasarlos al equipo externo para usarlos con fines de prueba.

Administración del ciclo de vida de los datos

La administración del ciclo de vida de los datos se refiere al proceso de administración de los datos a lo largo de su ciclo de vida. 

Por ejemplo:

  • Los datos deben verificarse en el momento de la ingestión y a intervalos regulares
  • Los datos deben conservarse durante períodos de tiempo específicos para fines de auditoría
  • Los datos deben borrarse cuando ya no sean necesarios

Administración de la calidad

Los usuarios de los datos esperan que los datos sean lo suficientemente fiables y consistentes para cada caso de uso.

Los administradores de calidad de datos miden y mejoran la calidad de los datos de una organización. Revisan los datos existentes y los nuevos y verifican que cumplan con los estándares. También pueden configurar procesos de administración de datos que bloquean la entrada de datos de baja calidad en el sistema. Los estándares de calidad de los datos suelen medir lo siguiente:

  • ¿Falta información clave o los datos están completos? (por ejemplo, el cliente omite la información de contacto clave)
  • ¿Los datos cumplen las reglas básicas de verificación de datos? (Por ejemplo, un número de teléfono debe tener un número determinado de dígitos)
  • ¿Con qué frecuencia aparecen los mismos datos en el sistema? (por ejemplo, entradas de datos duplicadas del mismo cliente)
  • ¿Los datos son precisos? (por ejemplo, el cliente introduce una dirección de correo electrónico incorrecta)
  • ¿La calidad de los datos es uniforme en todo el sistema (por ejemplo, la fecha de nacimiento tiene el formato dd/mm/aaaa en un conjunto de datos, pero el formato mm/dd/aaaa en otro conjunto de datos)

Integración de datos

Puntos de conexión para la distribución de datos

Para la mayoría de las organizaciones, los datos deben distribuirse a (o cerca de) los distintos puntos de conexión en los que se necesitan los datos. Estos incluyen sistemas operativos, lagos de datos y almacenes de datos. La distribución de datos es necesaria debido a las latencias de la red. Cuando se necesitan datos para uso operativo, es posible que la latencia de la red no sea suficiente para entregarlos de manera oportuna. El almacenamiento de una copia de los datos en una base de datos local resuelve el problema de latencia de la red.

La distribución de datos también es necesaria para la consolidación de datos. El almacenamiento y los lagos de datos consolidan los datos de varias fuentes para presentar una vista consolidada de la información. El almacenamiento de datos se utiliza para el análisis y la toma de decisiones, mientras que los lagos de datos son un centro consolidado desde el que se pueden extraer datos para diversos casos de uso.

Mecanismos de replicación de datos e impacto en la coherencia

Los mecanismos de distribución de datos tienen un impacto potencial en la coherencia de datos, y esto es algo importante que hay que tener en cuenta en la administración de datos.

La replicación sincrónica de datos resulta de una coherencia sólida. En este enfoque, cuando se cambia un valor de datos, todas las aplicaciones y los usuarios verán el valor modificado de los datos. Si el nuevo valor de los datos aún no se ha replicado, el acceso a los datos se bloquea hasta que se actualicen todas las copias. La replicación sincrónica prioriza la coherencia sobre el rendimiento y el acceso a los datos. La replicación sincrónica se utiliza con mayor frecuencia para los datos financieros.

La coherencia final resulta de la replicación asíncrona de los datos. Cuando se cambian los datos, las copias finalmente se actualizan (normalmente en cuestión de segundos), pero el acceso a las copias desactualizadas no se bloquea. Para muchos casos de uso, esto no es un problema. Por ejemplo, las publicaciones, “me gusta” y comentarios en las redes sociales no requieren una coherencia fuerte. Como otro ejemplo, si un cliente cambia su número de teléfono en una aplicación, este cambio se puede aplicar en cascada de forma asíncrona.

Diferencias entre la reproducción en streaming y las actualizaciones por lotes

Las secuencias de datos cambian en cascada los datos a medida que se producen. Este es el enfoque preferido si se requiere acceso a datos casi en tiempo real. Los datos se extraen, transforman y entregan a su destino tan pronto como se modifican.

Las actualizaciones por lotes son más apropiadas cuando los datos deben procesarse en lotes antes de la entrega. Resumir o realizar análisis estadísticos de los datos y entregar solo el resultado es un ejemplo de ello. Las actualizaciones por lotes también pueden preservar la coherencia interna puntual de los datos si todos los datos se extraen en un momento específico. Las actualizaciones por lotes a través de un proceso de extracción, transformación y carga (ETL o ELT) se utilizan normalmente para lagos de datos, almacenamiento de datos y análisis.

Gestión de datos maestros

La administración de datos maestros (MDM) se refiere al proceso de administración de datos empresariales esenciales. La coherencia y la sincronización de los datos son muy importantes para la MDM.

Los ejemplos de datos maestros incluyen datos de clientes, datos de socios y datos de productos. Estos datos fundamentales son principalmente persistentes y no cambian con frecuencia. Algunos ejemplos de estos datos en uso incluyen el software de gestión de relaciones con los clientes (CRM) y planificación de recursos empresariales (ERP).

La administración de datos maestros es esencial para garantizar su precisión en todos los sistemas, incluida la sincronización y la integración de datos en las actualizaciones.

¿Cuáles son algunos desafíos asociados a la administración de datos?

Entre los desafíos comunes asociados a la administración de datos se incluyen los siguientes:

Escala y rendimiento

Las organizaciones requieren un software de administración de datos que funcione de manera eficiente incluso a escala. Tienen que monitorear y reconfigurar continuamente la infraestructura de administración de datos para mantener los tiempos de respuesta pico, incluso cuando los datos crecen exponencialmente.

Requisitos cambiantes

Las normas de cumplimiento son complejas y cambian con el tiempo. Del mismo modo, los requisitos de los clientes y las necesidades comerciales también cambian rápidamente. Si bien las organizaciones tienen más opciones en cuanto a las plataformas de administración de datos que pueden usar, tienen que evaluar constantemente las decisiones de infraestructura para mantener la máxima agilidad de TI, el cumplimiento legal y reducir los costos.

Capacitación de los empleados

Iniciar el proceso de administración de datos en cualquier organización puede ser un desafío. El enorme volumen de datos puede resultar abrumador y también pueden existir silos interdepartamentales. Planificar una nueva estrategia de administración de datos y lograr que los empleados acepten nuevos sistemas y procesos requiere tiempo y esfuerzo.

¿Cuáles son algunas prácticas recomendadas en materia de administración de datos?

Las mejores prácticas de administración de datos forman la base de una estrategia de datos exitosa. Los siguientes son principios comunes de administración de datos que le ayudarán a crear una base de datos sólida.

Colaboración en equipo

Los usuarios empresariales y los equipos técnicos deben colaborar para garantizar que se cumplan los requisitos de datos de una organización. Todo el procesamiento y el análisis de datos deben priorizar los requisitos de inteligencia empresarial. De lo contrario, los datos recopilados se quedarán sin usar y se desperdiciarán recursos en proyectos de administración de datos mal planificados.

Automatización

Una estrategia de administración de datos exitosa incorpora la automatización en la mayoría de las tareas de procesamiento y preparación de datos. Realizar tareas de transformación de datos de forma manual es tedioso y también introduce errores en el sistema. Incluso un número limitado de tareas manuales, como la ejecución de trabajos por lotes semanales, puede provocar cuellos de botella en el sistema. El software de administración de datos puede admitir un escalado más rápido y eficiente.

Computación en la nube

Las empresas requieren soluciones modernas de administración de datos que les proporcionen un amplio conjunto de capacidades. Una solución en la nube puede gestionar todos los aspectos de la gestión de datos a escala sin comprometer el rendimiento. Por ejemplo, AWS ofrece una amplia gama de funcionalidades, como bases de datos, lagos de datos, análisis, accesibilidad de datos, gobernanza de datos y seguridad, desde una sola cuenta.

¿Cómo puede ayudar AWS en la administración de datos?

AWS es una plataforma global de administración de datos que puede usar para crear una estrategia moderna de administración de datos en la nube. Estos son solo algunos de los servicios que pueden ayudar a crear una infraestructura moderna de datos en la nube.

Amazon DataZone es un servicio de administración de datos que permite a los clientes catalogar, descubrir, compartir y administrar los datos almacenados en fuentes de AWS, locales y de terceros de forma más rápida y sencilla.

AWS Glue es un servicio sin servidor que simplifica, acelera y abarata la integración de datos. Puede detectar y conectarse a más de 100 orígenes de datos, administrar los datos en un catálogo centralizado y crear, ejecutar y supervisar visualmente canalizaciones para cargarlos en lagos de datos, almacenes de datos y almacenes tipo lago.

Amazon Simple Storage Service (Amazon S3) es un servicio de almacenamiento de objetos que ofrece escalabilidad, disponibilidad de datos, seguridad y rendimiento líderes del sector. Millones de clientes de todos los tamaños y sectores pueden almacenar, administrar, analizar y proteger cualquier cantidad de datos para prácticamente cualquier caso de uso, como los lagos de datos, las aplicaciones nativas en la nube y las aplicaciones móviles.

AWS Lake Formation le permite administrar, proteger y compartir datos de manera centralizada para el análisis y el aprendizaje automático. AWS Lake Formation lo ayuda a administrar y escalar de manera centralizada los permisos de acceso a datos detallados y a compartir datos con confianza dentro y fuera de su organización.

Amazon Relational Database Service (Amazon RDS) es un servicio de bases de datos relacionales fácil de administrar y optimizado para el costo total de propiedad. Es fácil de configurar, operar y escalar según la demanda.

Amazon Virtual Private Cloud (Amazon VPC) le ayuda a definir y lanzar los recursos de AWS en una red virtual aislada de forma lógica. Amazon VPC ayuda a garantizar la privacidad de los datos en todo su entorno de nube.

Comience a crear su solución de administración de datos en la nube en AWS creando una cuenta de AWS hoy mismo.