- Qu’est-ce que le cloud computing ?›
- Hub des concepts de cloud computing›
- Bases de données
Qu'est-ce que l'intégrité des données ?
Qu'est-ce que l'intégrité des données ?
L'intégrité des données met l'accent sur le maintien de l'intégrité des données, en veillant à ce que celles-ci soient exactes, exemptes d'erreurs, cohérentes et pleinement fonctionnelles tout au long de leur cycle de vie. Le maintien de l'intégrité des données dans un magasin de données unique doit être gérable, quels que soient le nombre de demandes d'accès, le volume et la vitesse des données. Les environnements cloud modernes nécessitent des mouvements de données complexes et continus entre les magasins de données et les services distribués. Les systèmes de traitement des transactions en ligne à haut débit (OLTP) nécessitent des contrôles stricts de l'intégrité des données afin de maintenir la cohérence du système. Les ingénieurs de données doivent mettre en œuvre des contrôles d'intégrité des données sur les magasins de données et les processus nouveaux et existants, y compris l'intégration, les sauvegardes et les migrations vers le cloud. Cet article explore les défis et les solutions en matière de gestion de l'intégrité des données dans le cloud.
L'intégrité des données est le processus visant à maintenir l'exactitude, la cohérence et l'exhaustivité des données tout au long de leur cycle de vie. Il s'agit d'un élément clé de l'assurance qualité des données, qui garantit la pertinence et la fiabilité des données d'une organisation pour le traitement des transactions, la veille économique et l'analytique. L'intégrité des données englobe diverses méthodes et protocoles permettant de valider les données tout en protégeant les informations sensibles contre tout accès non autorisé.
Pourquoi l'intégrité des données est-elle importante ? Elle garantit que les données d'une organisation restent fiables pour l'enregistrement des activités financières et autres activités commerciales, ainsi que pour la prise de décisions. L'intégrité des données est essentielle, quels que soient les outils et les rôles qui gèrent les données et leurs transformations.
L'intégrité des données est essentielle dans les systèmes de traitement des transactions en ligne (OLTP) car elle garantit un traitement précis des transactions commerciales, la cohérence des opérations financières et prévient des problèmes tels que la double réservation ou la perte de transactions. Les atteintes à l'intégrité des données peuvent avoir des conséquences, notamment la non-conformité réglementaire et une baisse de la satisfaction des clients.
Quels sont les défis liés au maintien de l'intégrité des données ?
Pour garantir l'intégrité des données au sein d'une organisation, il faut relever les défis liés à la gestion des données humaines et technologiques.
Environnements OLTP
Le plus grand défi en matière d'intégrité des données dans les environnements OLTP est de gérer les transactions simultanées tout en préservant la cohérence des données, en particulier lors d'opérations à volume élevé. Ce défi nécessite de trouver un équilibre entre la stricte conformité à l'atomicité, à la cohérence, à l'isolation et à la durabilité (ACID) et les exigences de performance. Ici, plusieurs utilisateurs doivent être en mesure de modifier simultanément les mêmes données, sans se heurter à des situations de concurrence ni à des blocages, tout en conservant les capacités de traitement en temps réel du système.
Informatique décisionnelle et analytique
Pour les cas d'utilisation de l'informatique décisionnelle et de l'analytique, l'intégration limitée entre les sources de données et les systèmes empêche les entreprises de conserver une vue unifiée et précise de leurs actifs de données. En outre, le recours à la saisie et à la collecte manuelles des données peut entraîner des fautes de frappe, des omissions et des incohérences qui compromettent l'exactitude des données.
Audit et pistes de données
Un autre défi est l'absence de pistes d'audit appropriées, ce qui rend difficile le suivi de l'historique des données, de leur collecte à leur suppression. Les entreprises risquent de perdre la visibilité des modifications non autorisées des données. Les systèmes hérités compliquent encore l'intégrité des données en utilisant des formats de fichiers obsolètes ou en ne disposant pas de fonctions de validation essentielles. Le transfert des données vers le cloud permet de mettre en œuvre des mécanismes de qualité des données plus centralisés et de réduire le temps et les efforts nécessaires aux contrôles d'intégrité des données.
Comment les données sont-elles protégées dans le cloud ?
L'intégrité des données peut être divisée en deux grands types.
Intégrité physique
Les processus d'intégrité physique protègent les données contre les dommages et la corruption dus à des catastrophes naturelles, à des pannes de courant, à des pannes matérielles ou à d'autres facteurs affectant les périphériques de stockage physiques. Dans le cloud, l'intégrité physique est automatiquement gérée par le fournisseur de cloud. C'est la responsabilité du fournisseur de cloud dans le cadre du modèle de responsabilité partagée.
Par exemple, les centres de données AWS fournissent une infrastructure de sécurité des données à quatre niveaux aux appareils physiques qui stockent vos données. Les fonctionnalités de sécurité des données incluent :
- Contrôles d'accès stricts avec accès à la salle des serveurs sécurisé par une authentification multifactorielle et des contrôles électroniques.
- Mesures de prévention des intrusions, telles que la détection automatique de la suppression non autorisée des données.
- Gestion sécurisée des périphériques de stockage, de l'installation et du provisionnement à la désinstallation et à la mise hors service.
- Audits tiers rigoureux portant sur plus de 2 600 exigences de sécurité, y compris des inspections des équipements.
Intégrité logique
Les processus d'intégrité logique garantissent que les données respectent les règles sous-jacentes du système de stockage dans lequel elles se trouvent. L'intégrité logique peut également être classée en quatre sous-types :
- L'intégrité du domaine garantit l'exactitude des données en limitant les valeurs dans une plage, un format ou un ensemble prédéfini spécifiques (par exemple, en utilisant des types de données et d'autres contraintes de données similaires).
- L'intégrité des entités garantit que les enregistrements de données individuels peuvent être identifiés de manière unique grâce à des mécanismes tels qu'une clé primaire, empêchant ainsi les valeurs dupliquées ou nulles dans les champs clés.
- L'intégrité référentielle permet de maintenir des relations cohérentes entre les tables en appliquant des contraintes de clé étrangère pour empêcher les enregistrements de données isolés.
- L'intégrité définie par l'utilisateur met en œuvre des règles spécifiques à l'entreprise au-delà des contraintes standard, telles que la logique de validation personnalisée ou l'application au niveau de l'application.
L'utilisateur du cloud est responsable de la mise en œuvre des contraintes d'intégrité logique et de la garantie de la qualité des données. Cette responsabilité incombe au client dans le cadre du modèle de responsabilité partagée.
Cependant, les services de données AWS fournissent divers mécanismes pour prendre en charge la vérification de l'intégrité des données, tels que des algorithmes de somme de contrôle, des outils de surveillance de la qualité des données et des contrôles automatisés d'intégrité des données lors des sauvegardes et de la synchronisation des données.
Les services gérés peuvent fournir des barrières de protection automatiques et configurables pour garantir l'intégrité de vos données. Au sein des systèmes et des bases de données OLTP, les processus d'intégrité logique contribuent à ce que chaque transaction reste atomique, cohérente, isolée et durable.
Comment garantir l'intégrité des données dans le cloud ?
Envisagez les mesures suivantes pour mettre en œuvre l'intégrité logique dans le Cloud AWS.
Mettre en œuvre l'intégrité des données des objets
La plupart des opérations de données dans le cloud commencent par des compartiments Amazon S3, qui peuvent stocker n'importe quel type de données sous forme d'objets. Vous pouvez fréquemment déplacer des données entre des compartiments Amazon S3, des bases de données et d'autres services cloud ou un stockage sur site. Amazon S3 fournit des mécanismes de somme de contrôle intégrés pour réduire les risques liés à l'intégrité des données lors des chargements, des téléchargements et des copies.
Une somme de contrôle est une valeur unique de longueur fixe générée à partir de données à l'aide d'un algorithme spécifique. Elle crée une empreinte numérique unique, permettant aux systèmes de détecter la corruption des données ou les modifications involontaires. Lors de la copie d'objets, Amazon S3 calcule la somme de contrôle de l'objet source et l'applique à l'objet de destination. Cela déclenche des alertes en cas de non-concordance. Amazon S3 prend en charge à la fois les objets complets et les sommes de contrôle composites pour les chargements partitionnés. Les sommes de contrôle complètes des objets couvrent l'ensemble du fichier, tandis que les sommes de contrôle composites regroupent les sommes de contrôle individuelles au niveau des parties.
Utilisez la fonctionnalité de somme de contrôle comme expliqué ci-dessous.
Chargements
Amazon S3 prend en charge plusieurs algorithmes de hachage sécurisé (SHA) et de contrôle de redondance cyclique (CRC), notamment CRC-64/NVME, CRC-32, CRC-32C, SHA-1 et SHA-256. Si vous utilisez la Console de gestion AWS, sélectionnez l'algorithme de somme de contrôle lors du téléchargement. Si aucune somme de contrôle n'est spécifiée, Amazon S3 utilise par défaut CRC-64/NVME.
Téléchargements
Lorsque vous téléchargez des objets, demandez la valeur de la somme de contrôle enregistrée pour vérifier l'intégrité des données. Selon que le chargement est terminé ou en cours, récupérez les valeurs de la somme de contrôle à l'aide des opérations GetObject, HeadObject ou ListParts.
Copie
Si un objet est copié à l'aide de l'opération CopyObject, Amazon S3 génère une somme de contrôle directe pour l'ensemble de l'objet. Si l'objet a été initialement chargé en plusieurs parties, sa valeur de somme de contrôle changera lors de la copie, même si les données restent inchangées.
Mettre en œuvre l'intégrité du pipeline de données
Un autre cas d'utilisation courant est le transfert de données vers des lacs de données cloud, des entrepôts ou des services de base de données gérés. La mise en place de contrôles d'intégrité des données dans de tels pipelines de données est sujette aux erreurs, fastidieuse et prend du temps. Vous devez écrire manuellement un code de surveillance et des règles de qualité des données qui alertent les consommateurs de données lorsque la qualité des données se détériore.
Pendant la migration
AWS Database Migration Service (DMS) protège l'intégrité des données lors des migrations vers les bases de données Cloud AWS grâce à de multiples mécanismes de protection et de validation intégrés. DMS effectue une validation automatique pour comparer les données sources et cibles, en identifiant et en résolvant les divergences grâce à une resynchronisation des données.
DMS inclut des fonctionnalités de point de contrôle et de restauration qui permettent de reprendre les migrations à partir du dernier état de fonctionnement connu en cas d'interruption, tout en fournissant des fonctionnalités complètes de surveillance et de journalisation pour suivre la progression de la migration. En outre, DMS garantit la sécurité des données grâce au cryptage SSL pour les données en transit et à l'intégration aux services de sécurité AWS.
Infrastructure de base de données
Les bases de données AWS protègent l'intégrité des données grâce à de multiples mécanismes et fonctionnalités complets, notamment des sauvegardes automatisées et des déploiements multi-AZ qui garantissent la durabilité et la cohérence des données. Ces bases de données renforcent l'intégrité référentielle grâce à des contraintes intégrées, garantissent la conformité ACID pour assurer la cohérence des transactions et fournissent des fonctionnalités de restauration ponctuelles. Les services de base de données gérés, tels qu'Amazon Relational Database Service (RDS) et Amazon Aurora, vous permettent de définir des contrôles spécifiques pour l'intégrité des données. Par exemple, Aurora vous permet de définir différents niveaux d'isolation des transactions sur votre base de données OLTP.
Pour une protection renforcée, les bases de données AWS prennent en charge la reprise après sinistre par le biais de déploiements multirégionaux, en répliquant les données dans des régions géographiquement distribuées. L'intégration à Amazon CloudWatch permet d'identifier et de résoudre les problèmes potentiels d'intégrité des données avant qu'ils n'aient un impact sur les opérations.
Intégration des données
AWS Glue est un service d'intégration de données sans serveur permettant de préparer et de combiner des données dans le Cloud AWS. La fonctionnalité Qualité des données d'AWS Glue réduit les efforts de validation manuelle des données de plusieurs jours à quelques heures. Elle recommande automatiquement des règles de qualité, calcule des statistiques, surveille et vous alerte lorsqu'elle détecte des données incorrectes ou incomplètes. Elle fonctionne avec le langage de définition de la qualité des données (DQDL), un langage spécifique au domaine que vous utilisez pour définir les règles d'intégrité des données.
Lorsque vous collectez des données à partir de systèmes OLTP à des fins d'analytique, vous pouvez utiliser les pipelines AWS Glue pour transférer les données de vos bases de données vers les services d'analytique.
Vous pouvez également publier des mesures sur Amazon CloudWatch à des fins de surveillance et d'alerte.
Mettre en œuvre l'intégrité des sauvegardes de données
Les projets de grandes entreprises peuvent impliquer des équipes diversifiées qui sauvegardent les données et accèdent aux boutiques Amazon S3 depuis divers endroits. La gouvernance des données devient un défi dans de telles opérations de sauvegarde de données distribuées. Notez que les bases de données AWS sont dotées de fonctionnalités de sauvegarde intégrées.
AWS Backup est un service entièrement géré qui centralise et automatise la protection des données via les services AWS tels qu'Amazon Simple Storage Service (S3), Amazon Elastic Compute Cloud (EC2), Amazon FSx et les charges de travail hybrides dans VMware. Vous pouvez déployer de manière centralisée des politiques de protection des données pour régir, gérer et configurer vos activités de sauvegarde sur l'ensemble des ressources et des comptes AWS.
AWS Backup est conçu pour préserver l'intégrité des données tout au long de leur cycle de vie, depuis la transmission et le stockage jusqu'au traitement. Il applique des mesures de sécurité rigoureuses à toutes les données stockées, quel que soit leur type, garantissant une protection élevée contre les accès non autorisés aux données. Vous conservez un contrôle total sur la classification des données, les emplacements de stockage et les politiques de sécurité, ce qui leur permet de gérer, d'archiver et de protéger les données en fonction de leurs besoins.
AWS Backup collabore avec d'autres services AWS pour préserver l'intégrité des données à l'aide de plusieurs mécanismes. Cela inclut :
- Validation continue de la somme de contrôle pour éviter toute corruption.
- Sommes de contrôle internes pour vérifier l'intégrité des données en transit et au repos.
- Restauration automatique de la redondance en cas de panne de disque.
Les données sont stockées de manière redondante sur plusieurs emplacements physiques, et les contrôles au niveau du réseau permettent également de détecter les corruptions lors des transferts de données.
Comment AWS peut contribuer à préserver l'intégrité des données ?
L'intégrité des données améliore également la confiance dans les analytiques, favorise la conformité et garantit la préservation de la valeur des données tout au long de leur cycle de vie. Cependant, pour les déploiements sur site, garantir l'intégrité des données est difficile et coûteux, et peut entraîner des heures perdues en raison de tâches manuelles, distribuées et redondantes.
Les technologies cloud centralisent le processus et se chargent de la majeure partie du travail à votre place. Plusieurs contrôles d'intégrité physique et logique sont intégrés par défaut. Les mécanismes d'automatisation génèrent automatiquement les règles logicielles nécessaires pour garantir l'intégrité des données. Les ingénieurs de données n'ont qu'à configurer les paramètres ou à revoir le travail effectué par des mécanismes automatisés. L'intégrité des données permet aux systèmes OLTP de maintenir une précision parfaite tout en gérant de gros volumes de transactions en temps réel, ce qui est essentiel pour la fiabilité des opérations et des pratiques commerciales.
Commencez en créant un compte gratuit dès aujourd’hui.