¿Qué es la integridad de los datos?
¿Qué es la integridad de los datos?
La integridad de los datos garantiza que los datos sean precisos, sin errores, coherentes y completamente funcionales durante todo su ciclo de vida. El mantenimiento de la integridad de los datos en un único almacén de datos debe ser manejable, independientemente del número de solicitudes de acceso y del volumen y la velocidad de los datos. Los entornos de nube modernos requieren un movimiento de datos continuo y complejo entre servicios y almacenes de datos distribuidos. Los sistemas de procesamiento de transacciones en línea (OLTP) de alto rendimiento requieren controles estrictos de la integridad de los datos para mantener la coherencia del sistema. Los ingenieros de datos deben implementar comprobaciones de integridad de los datos en los procesos y almacenes de datos nuevos y existentes, incluida la integración, las copias de seguridad y las migraciones a la nube. Este artículo explora los desafíos y las soluciones de la gestión de la integridad de los datos en la nube.
La integridad de los datos es el proceso de mantener la precisión, la coherencia y la totalidad de los datos durante todo su ciclo de vida. Es una parte clave del control de calidad de los datos, que garantiza que los datos de una organización sean relevantes y confiables para el procesamiento de transacciones, la inteligencia empresarial y el análisis. La integridad de los datos abarca varios métodos y protocolos para validar los datos y, al mismo tiempo, proteger la información confidencial del acceso no autorizado.
¿Por qué es importante la integridad de los datos? Garantiza que los datos de una organización sigan siendo confiables para registrar las actividades financieras y de otro tipo, así como para la toma de decisiones. La integridad de los datos es esencial, independientemente de las herramientas y funciones que los gestionen y de las transformaciones que sufran.
La integridad de los datos es fundamental en los sistemas de procesamiento de transacciones en línea (OLTP), ya que garantiza un procesamiento preciso de las transacciones comerciales y la coherencia de las operaciones financieras, y evita problemas como la doble reserva o la pérdida de transacciones. Los fallos en la integridad de los datos pueden tener consecuencias que incluyen el incumplimiento de las normas y la disminución de la satisfacción del cliente.
¿Cuáles son los desafíos para mantener la integridad de los datos?
Garantizar la integridad de los datos dentro de una organización requiere abordar los desafíos de la administración de datos relacionados con las personas y la tecnología.
Entornos OLTP
El mayor desafío para la integridad de los datos en los entornos OLTP es administrar las transacciones simultáneas y, al mismo tiempo, mantener la coherencia de los datos, especialmente durante las operaciones de gran volumen. Este desafío requiere equilibrar el cumplimiento estricto de atomicidad, coherencia, aislamiento y durabilidad (ACID) con los requisitos de rendimiento. En este caso, varios usuarios deben poder modificar simultáneamente los mismos datos, sin encontrarse con condiciones de carrera ni puntos muertos, al tiempo que se mantienen las capacidades de procesamiento en tiempo real del sistema.
Inteligencia y análisis empresarial
Para los casos de uso de análisis e inteligencia empresarial, la integración limitada entre los orígenes y los sistemas de datos impide que las empresas mantengan una visión unificada y precisa de sus activos de datos. Además, confiar en la entrada y recopilación manual de datos puede introducir errores tipográficos, omisiones e inconsistencias que comprometen la precisión.
Pistas de auditoría y datos
Otro desafío es la ausencia de pistas de auditoría adecuadas, lo que dificulta el seguimiento del historial de datos desde la recopilación hasta la eliminación. Las organizaciones corren el riesgo de perder la visibilidad de las modificaciones de datos no autorizadas. Los sistemas heredados complican aún más la integridad de los datos al utilizar formatos de archivo anticuados o al carecer de funciones de validación esenciales. La transferencia de datos a la nube permite la implementación de mecanismos de calidad de datos más centralizados y reduce el tiempo y el esfuerzo necesarios para las comprobaciones de integridad de los datos.
¿Cómo se protegen los datos en la nube?
La integridad de los datos se puede dividir en dos tipos generales.
Integridad física
Los procesos de integridad física protegen los datos de los daños y la corrupción causados por desastres naturales, cortes de energía, fallas de hardware u otros factores que afectan a los dispositivos de almacenamiento físico. En la nube, el proveedor gestiona automáticamente la integridad física. Es su responsabilidad según el modelo de responsabilidad compartida.
Por ejemplo, los centros de datos de AWS proporcionan una infraestructura de seguridad de datos de cuatro capas para los dispositivos físicos que almacenan sus datos. Las características de seguridad de datos incluyen lo siguiente:
- Controles de acceso estrictos con acceso a la sala de servidores protegido mediante autenticación multifactor y controles electrónicos.
- Medidas de prevención de intrusiones, como la detección automática de la eliminación no autorizada de datos.
- Administración segura de los dispositivos de almacenamiento desde la instalación y el aprovisionamiento hasta la desinstalación y el desmantelamiento.
- Auditorías rigurosas de terceros sobre más de 2600 requisitos de seguridad, incluidas las inspecciones de equipos.
Integridad lógica
Los procesos de integridad lógica garantizan que los datos cumplan con las reglas subyacentes del sistema de almacenamiento en el que residen. La integridad lógica se puede clasificar además en cuatro subtipos:
- La integridad del dominio garantiza la precisión de los datos al restringir los valores dentro de un rango, formato o conjunto predefinido específicos (por ejemplo, mediante el uso de tipos de datos y otras restricciones de datos similares).
- La integridad de la entidad garantiza que los registros de datos individuales se puedan identificar de forma única mediante mecanismos como la clave principal, lo que evita valores duplicados o nulos en los campos clave.
- La integridad referencial mantiene relaciones coherentes entre las tablas al aplicar restricciones de clave externa para evitar registros de datos aislados.
- La integridad definida por el usuario implementa reglas específicas de la empresa más allá de las restricciones estándar, como la lógica de validación personalizada o el uso a nivel de aplicación.
El usuario de la nube es responsable de implementar las restricciones de integridad lógica y de garantizar la calidad de los datos. Es responsabilidad del cliente según el modelo de responsabilidad compartida.
Sin embargo, los servicios de datos de AWS proporcionan varios mecanismos para respaldar la comprobación de la integridad de los datos, como los algoritmos de suma de comprobación, las herramientas de supervisión de la calidad de los datos y las comprobaciones automatizadas de integridad de los datos durante las copias de seguridad y la sincronización de los datos.
Los servicios administrados pueden proporcionar barreras de protección automáticas y configurables para la integridad de sus datos. Dentro de los sistemas y bases de datos OLTP, los procesos de integridad lógica ayudan a mantener cada transacción atómica, coherente, aislada y duradera.
¿Cómo garantizar la integridad de los datos en la nube?
Tenga en cuenta las siguientes medidas para implementar la integridad lógica en la nube de AWS.
Implementación de la integridad de los datos de los objetos
La mayoría de las operaciones de datos en la nube comienzan con los buckets de Amazon S3, que pueden almacenar cualquier tipo de datos como objetos. Es posible que transfiera datos con frecuencia entre buckets de Amazon S3, bases de datos y otros servicios en la nube o almacenamiento local. Amazon S3 proporciona mecanismos de suma de comprobación integrados para reducir los riesgos de integridad de los datos durante las cargas, descargas y copias.
Una suma de comprobación es un valor único y de longitud fija generado a partir de datos mediante un algoritmo específico. Crea una huella digital única que permite a los sistemas detectar la corrupción de los datos o las modificaciones no deseadas. Al copiar objetos, Amazon S3 calcula la suma de comprobación del objeto de origen y la aplica al objeto de destino. Si no coinciden, generará una alerta. Amazon S3 admite sumas de comprobación compuestas y de objetos completos para cargas multiparte. Las sumas de comprobación de objetos completos abarcan todo el archivo, mientras que las compuestas agregan sumas de comprobación individuales por partes.
Utilice la función de suma de comprobación como se explica a continuación.
Cargas
Amazon S3 admite varios algoritmos de hash seguro (SHA) y de verificación de redundancia cíclica (CRC), incluidos CRC-64/NVME, CRC-32, CRC-32C, SHA-1 y SHA-256. Si utiliza la consola de administración de AWS, seleccione el algoritmo de suma de comprobación durante la carga. Si no se especifica ninguna, Amazon S3 utilizará CRC-64/NVME de forma predeterminada.
Descargas
Al descargar objetos, solicite el valor de la suma de comprobación almacenada para verificar la integridad de los datos. En función de si la carga se ha completado o aún está en curso, recupere los valores de la suma de comprobación mediante las operaciones GetObject, HeadObject o ListParts.
Copias
Si se copia un objeto mediante la operación CopyObject, Amazon S3 genera una suma de comprobación directa para todo el objeto. Si el objeto se cargó inicialmente como una carga multiparte, su valor de suma de comprobación cambiará al copiarlo, incluso si los datos permanecen iguales.
Implementación de la integridad de la canalización de datos
Otro caso de uso común es mover datos a lagos de datos en la nube, almacenes o servicios de bases de datos administradas. La configuración de las comprobaciones de integridad de los datos en estas canalizaciones de datos es propensa a errores, tediosa y lleva mucho tiempo. Debe escribir manualmente el código de supervisión y las reglas de calidad de los datos que alerten a los consumidores de datos cuando la calidad se deteriora.
Durante la migración
AWS Database Migration Service (DMS) protege la integridad de los datos durante las migraciones a las bases de datos en la nube de AWS mediante múltiples mecanismos de validación y salvaguardas integrados. DMS realiza una validación automática para comparar los datos de origen y destino, identificando y resolviendo las discrepancias mediante la resincronización de estos.
El DMS incluye características de punto de control y recuperación que permiten reanudar las migraciones desde el último estado válido conocido si se producen interrupciones, a la vez que proporciona capacidades integrales de monitoreo y registro para rastrear el progreso de la migración. Además, el DMS garantiza la seguridad de los datos mediante el cifrado SSL de los datos en tránsito y la integración con los servicios de seguridad de AWS.
Infraestructura de bases de datos
Las bases de datos de AWS protegen la integridad de los datos mediante múltiples mecanismos y características integrales, incluidas las copias de seguridad automatizadas y los despliegues multi-AZ que garantizan la durabilidad y la coherencia de los datos. Estas bases de datos refuerzan la integridad referencial mediante restricciones integradas, mantienen el cumplimiento de ACID para garantizar la coherencia transaccional y proporcionan capacidades de recuperación puntual. Los servicios de bases de datos administradas, como Amazon Relational Database Service (RDS) y Amazon Aurora, le permiten establecer controles específicos para la integridad de los datos. Por ejemplo, Aurora le permite establecer diferentes niveles de aislamiento de transacciones en su base de datos OLTP.
Para mejorar la protección, las bases de datos de AWS permiten la recuperación ante desastres mediante despliegues multirregionales, replicando los datos en regiones distribuidas geográficamente. La integración con Amazon CloudWatch ayuda a identificar y resolver posibles problemas de integridad de los datos antes de que afecten a las operaciones.
Integración de datos
AWS Glue es un servicio de integración de datos sin servidor para preparar y combinar datos en la nube de AWS. La característica de Calidad de datos de AWS Glue reduce los esfuerzos de validación manual de datos de días a horas. Recomienda automáticamente reglas de calidad, calcula estadísticas y monitorea y avisa cuando detecta datos incorrectos o incompletos. Funciona con el lenguaje de definición de calidad de datos (DQDL), un lenguaje específico del dominio que se utiliza para definir las reglas de integridad de los datos.
Al recopilar datos de los sistemas OLTP para utilizarlos en análisis, puede utilizar las canalizaciones de AWS Glue para enviar datos de sus bases de datos a los servicios de análisis.
Además, puede publicar métricas en Amazon CloudWatch para controlarlas y emitir alertas.
Implementación de la integridad de respaldo de los datos
Los proyectos de grandes empresas pueden tener equipos diversos que realizan copias de seguridad de los datos y acceden a Amazon S3 desde distintas ubicaciones. La gobernanza de datos se convierte en un desafío en estas operaciones de respaldo de datos distribuidos. Tenga en cuenta que las bases de datos de AWS incluyen características de copia de seguridad integradas.
AWS Backup es un servicio completamente administrado que centraliza y automatiza la protección de datos en todos los servicios de AWS, como Amazon Simple Storage Service (S3), Amazon Elastic Compute Cloud (EC2), Amazon FSx y las cargas de trabajo híbridas en VMware. Puede implementar políticas de protección de datos de forma centralizada para gobernar, administrar y configurar sus actividades de respaldo en todos los recursos y cuentas de AWS.
AWS Backup está diseñado para mantener la integridad de los datos durante todo su ciclo de vida, desde la transmisión y el almacenamiento hasta el procesamiento. Aplica rigurosas medidas de seguridad a todos los datos almacenados, independientemente de su tipo, lo que garantiza una alta protección contra el acceso no autorizado a los datos. Usted conserva el control total sobre la clasificación de los datos, las ubicaciones de almacenamiento y las políticas de seguridad, lo que les permite administrar, archivar y proteger los datos de acuerdo con sus necesidades.
AWS Backup colabora con otros servicios de AWS para preservar la integridad de los datos mediante varios mecanismos. Esto incluye lo siguiente:
- La validación continua de las sumas de comprobación para evitar daños.
- Las sumas de comprobación internas para verificar la integridad de los datos en tránsito y en reposo.
- La restauración automática de la redundancia en caso de que se produzcan fallos en los discos.
Los datos se almacenan de forma redundante en varias ubicaciones físicas, y las comprobaciones a nivel de red también ayudan a detectar los daños durante las transferencias de datos.
¿Cómo puede ayudar AWS a mantener la integridad de los datos?
La integridad de los datos también mejora la confianza en los análisis, respalda el cumplimiento y garantiza que los datos sigan siendo valiosos durante todo su ciclo de vida. Sin embargo, para las implementaciones locales, garantizar la integridad de los datos es difícil y costoso, y puede provocar la pérdida de tiempo en trabajo manual, distribuido y redundante.
Las tecnologías en la nube centralizan el proceso y hacen la mayor parte del trabajo pesado por usted. De forma predeterminada, se incluyen varias comprobaciones de integridad física y lógica. Los mecanismos de automatización generan automáticamente las reglas de software necesarias para lograr la integridad de los datos. Los ingenieros de datos solo tienen que configurar los ajustes o revisar el trabajo realizado por los mecanismos automatizados. La integridad de los datos permite que los sistemas OLTP mantengan una precisión perfecta mientras gestionan transacciones de gran volumen en tiempo real, lo que es fundamental para lograr operaciones y prácticas empresariales fiables.
Para comenzar, cree una cuenta gratuita en la nube hoy mismo.