Passa al contenuto principale

Cos'è l'integrità dei dati?

L'integrità dei dati enfatizza il mantenimento dell'integrità dei dati, assicurando che i dati siano accurati, privi di errori, coerenti e perfettamente funzionanti per tutto il loro ciclo di vita. Il mantenimento dell'integrità dei dati in un unico archivio dati deve essere gestibile, indipendentemente dal numero di richieste di accesso, dal volume e dalla velocità dei dati. I moderni ambienti cloud richiedono uno spostamento di dati complesso e continuo tra archivi e servizi di dati distribuiti. I sistemi Online Transaction Processing (OLTP) ad alto throughput richiedono rigorosi controlli di integrità dei dati per mantenere la coerenza del sistema. Gli ingegneri dei dati devono implementare controlli di integrità dei dati su archivi e processi di dati nuovi ed esistenti, tra cui integrazione, backup e migrazioni al cloud. Questo articolo esplora le sfide e le soluzioni alla gestione dell'integrità dei dati nel cloud.

L'integrità dei dati è il processo volto a mantenere l'accuratezza, la coerenza e la completezza dei dati durante ogni fase del loro ciclo di vita. È una parte fondamentale della garanzia della qualità dei dati, che assicura che i dati di un'organizzazione siano pertinenti e affidabili per l'elaborazione delle transazioni, la business intelligence e l'analisi. L'integrità dei dati comprende vari metodi e protocolli per convalidare i dati proteggendo al contempo le informazioni sensibili dagli accessi non autorizzati.

Perché l'integrità dei dati è importante? Assicura che i dati di un'organizzazione conservino la loro affidabilità per la rendicontazione delle attività finanziarie e di altro tipo, nonché per il processo decisionale. L'integrità dei dati è essenziale, indipendentemente dagli strumenti e dai ruoli che gestiscono i dati e le relative trasformazioni.

L'integrità dei dati è fondamentale nei sistemi Online Transaction Processing (OLTP), in quanto garantisce un'elaborazione accurata delle transazioni commerciali e la coerenza delle operazioni finanziarie e previene problemi come la doppia prenotazione o la perdita di transazioni. Le lacune nell'integrità dei dati possono comportare conseguenze che includono la non conformità normativa e una riduzione della soddisfazione dei clienti.

Quali sfide implica il mantenimento dell'integrità dei dati?

Garantire l'integrità dei dati all'interno di un'organizzazione implica affrontare le sfide di gestione dei dati umane e tecnologiche.

Ambienti OLTP

Negli ambienti OLTP, la sfida maggiore per quanto riguarda l'integrità dei dati è la gestione delle transazioni simultanee mantenendo la coerenza dei dati, specialmente durante le operazioni ad alto volume. Questa sfida richiede il bilanciamento della rigorosa conformità alle norme di atomicità, coerenza, isolamento e durabilità (ACID) con i requisiti prestazionali. Qui, più utenti devono essere in grado di modificare contemporaneamente gli stessi dati, senza trovarsi in competizione né imbattersi in situazioni di stallo e mantenendo al contempo le capacità di elaborazione in tempo reale del sistema.

Business intelligence e analisi

Per i casi d'uso di business intelligence e analisi, l'integrazione limitata tra origini dati e sistemi impedisce alle aziende di mantenere una visione unificata e accurata delle proprie risorse di dati. Inoltre, affidarsi all'immissione e alla raccolta manuale dei dati può introdurre errori di battitura, omissioni e incongruenze che ne compromettono l'accuratezza.

Controllo e trail dei dati

Un'altra sfida è l'assenza di audit trail adeguati, che rende difficile tenere traccia della cronologia dei dati dalla raccolta all'eliminazione. Le organizzazioni rischiano di perdere la visibilità sulle modifiche non autorizzate dei dati. I sistemi legacy complicano ulteriormente l'integrità dei dati utilizzando formati di file obsoleti o privi di funzioni di convalida essenziali. Lo spostamento dei dati nel cloud consente di implementare meccanismi di qualità dei dati più centralizzati e riduce il tempo e gli sforzi necessari per i controlli di integrità dei dati.

Come vengono protetti i dati nel cloud?

L'integrità dei dati può essere suddivisa in due tipi principali.

Integrità fisica

I processi di integrità fisica proteggono i dati da danni e corruzioni dovuti a disastri naturali, interruzioni di corrente, guasti hardware o altri fattori che influiscono sui dispositivi di archiviazione fisici. Nel cloud, l'integrità fisica viene gestita automaticamente dal provider cloud. Questa è la responsabilità del provider cloud nell'ambito del Modello di responsabilità condivisa.

Ad esempio, i data center AWS forniscono un'infrastruttura di sicurezza dei dati a quattro livelli per i dispositivi fisici che archiviano i dati. Le funzionalità di sicurezza dei dati includono:

  • Rigorosi controlli di accesso, tra cui l'accesso alla sala server protetto da autenticazione a più fattori e controlli elettronici.
  • Misure di prevenzione delle intrusioni, come il rilevamento automatico della rimozione non autorizzata dei dati.
  • Gestione sicura dei dispositivi di archiviazione in ogni fase, dall'installazione e dalla fornitura alla disinstallazione e allo smantellamento.
  • Rigorosi audit di terze parti rispetto a oltre 2.600 requisiti di sicurezza, comprese le ispezioni delle apparecchiature.

Integrità logica

I processi di integrità logica assicurano che i dati soddisfino le regole sottostanti del sistema di archiviazione in cui risiedono. L'integrità logica può essere a sua volta classificata in quattro sottotipi:

  • L'integrità del dominio garantisce l'accuratezza dei dati limitando i valori all'interno di un intervallo, formato o set predefinito specifico (ad esempio, utilizzando specifici tipi di dati e altri vincoli di dati simili).
  • L'integrità dell'entità garantisce che i singoli record di dati possano essere identificati in modo univoco tramite meccanismi come la chiave primaria, impedendo valori duplicati o nulli nei campi chiave.
  • L'integrità referenziale mantiene relazioni coerenti tra le tabelle applicando vincoli di chiave esterna per evitare record di dati isolati.
  • L'integrità definita dall'utente implementa regole specifiche dell'azienda ulteriori rispetto ai vincoli standard, come una logica di convalida personalizzata o l'attuazione a livello di applicazione.

L'utente del cloud è responsabile dell'implementazione dei vincoli di integrità logica e della garanzia della qualità dei dati. Questa è la responsabilità del cliente nell'ambito del Modello di responsabilità condivisa.

Tuttavia, i servizi dati AWS forniscono vari meccanismi per supportare il controllo dell'integrità dei dati, come algoritmi di checksum, strumenti di monitoraggio della qualità e controlli automatici dell'integrità durante i backup e la sincronizzazione dei dati.

I servizi gestiti possono fornire guardrail automatici e configurabili per l'integrità dei dati. All'interno dei sistemi e dei database OLTP, i processi di integrità logica contribuiscono a mantenere ogni transazione atomica, coerente, isolata e duratura.

Come si può garantire l'integrità dei dati nel cloud?

Prendi in considerazione le seguenti misure per implementare l'integrità logica nel cloud AWS.

Implementa l'integrità dei dati oggetto

La maggior parte delle operazioni sui dati nel cloud inizia con i bucket Amazon S3, che possono archiviare qualsiasi tipo di dati sotto forma di oggetti. È possibile spostare spesso dati tra bucket Amazon S3, database e altri servizi cloud o spazi di archiviazione on-premises. Amazon S3 fornisce meccanismi di checksum integrati per ridurre i rischi di integrità dei dati durante i caricamenti, i download e le copie.

Un checksum è un valore univoco a lunghezza fissa generato dai dati utilizzando un algoritmo specifico. Crea un'impronta digitale unica, che consente ai sistemi di rilevare il danneggiamento dei dati o le modifiche non intenzionali degli stessi. Quando si copiano oggetti, Amazon S3 calcola il checksum dell'oggetto sorgente e lo applica a quello di destinazione, generando degli avvisi in caso di mancata corrispondenza. Amazon S3 supporta checksum completi degli oggetti e compositi per i caricamenti in più parti. I checksum completi degli oggetti coprono l'intero file, mentre i checksum compositi aggregano i singoli checksum a livello di parte.

Usa la funzionalità checksum come spiegato di seguito.

Caricamenti

Amazon S3 supporta diversi algoritmi Secure Hash Algorithms (SHA) e Cyclic Redundancy Check (CRC), tra cui CRC-64/NVME, CRC-32, CRC-32C, SHA-1 e SHA-256. Se utilizzi la Console di gestione AWS, seleziona l'algoritmo di checksum durante il caricamento. Se non viene specificato alcun checksum, il valore predefinito di Amazon S3 è CRC-64/NVME.

Download

Quando scarichi degli oggetti, richiedi il valore di checksum archiviato per verificare l'integrità dei dati. A seconda che il caricamento sia completo o ancora in corso, recupera i valori di checksum utilizzando le operazioni GetObject, HeadObject o ListParts.

Copia

Se un oggetto viene copiato utilizzando l'operazione CopyObject, Amazon S3 genera un checksum diretto per l'intero oggetto. Se l'oggetto è stato inizialmente caricato come caricamento in più parti, il suo valore di checksum cambierà al momento della copia, anche se i dati rimangono invariati.

Implementazione dell'integrità della pipeline di dati

Un altro caso d'uso comune è lo spostamento dei dati in data lake cloud, warehouse o servizi di database gestiti. L'impostazione dei controlli di integrità in tali pipeline di dati è soggetta a errori, è un'attività noiosa e richiede molto tempo. È necessario scrivere manualmente righe di codice per il monitoraggio e regole di qualità dei dati che avvisino i rispettivi consumatori quando la qualità peggiora.

Durante la migrazione

AWS Database Migration Service (DMS) protegge l'integrità dei dati durante le migrazioni verso i database nel cloud AWS attraverso molteplici meccanismi di sicurezza e convalida integrati. DMS esegue la convalida automatica per confrontare i dati di origine e di destinazione, identificando e risolvendo le discrepanze tramite la risincronizzazione dei dati.

DMS include funzionalità di checkpoint e ripristino che consentono di riprendere le migrazioni dall'ultimo stato valido noto in caso di interruzioni, fornendo al contempo funzionalità complete di monitoraggio e registrazione per tracciare l'avanzamento della migrazione. Inoltre, DMS garantisce la sicurezza dei dati tramite la crittografia SSL per i dati in transito e l'integrazione con i servizi di sicurezza AWS.

Infrastruttura di database

I database AWS proteggono l'integrità dei dati attraverso diversi meccanismi e funzionalità completi, tra cui backup automatici e implementazioni Multi-AZ, che garantiscono la durabilità e la coerenza dei dati. Questi database applicano l'integrità referenziale tramite vincoli integrati, mantengono la conformità ACID per la coerenza delle transazioni e forniscono funzionalità di ripristino point-in-time. I servizi di database gestiti, come Amazon Relational Database Service (RDS) e Amazon Aurora, consentono di impostare controlli specifici per l'integrità dei dati. Ad esempio, Aurora consente di impostare diversi livelli di isolamento delle transazioni sul database OLTP.

Per una protezione avanzata, i database AWS supportano il disaster recovery tramite implementazioni multi-Regione, replicando i dati in regioni distribuite geograficamente. L'integrazione con Amazon CloudWatch aiuta a identificare e risolvere potenziali problemi di integrità dei dati prima che influiscano sulle operazioni.

Integrazione di dati

AWS Glue è un servizio di integrazione dei dati serverless per la preparazione e la combinazione di dati nel cloud AWS. La funzionalità Qualità dei dati di AWS Glue riduce il tempo necessario per le attività manuali di convalida dei dati da giorni a ore. Raccomanda automaticamente regole di qualità, elabora statistiche, si occupa del monitoraggio e avvisa l'utente quando rileva dati errati o incompleti. Funziona con Data Quality Definition Language (DQDL), un linguaggio specifico del dominio utilizzato per definire le regole di integrità dei dati.

Nella raccolta di dati dai sistemi OLTP per l'utilizzo nell'analisi, puoi utilizzare le pipeline AWS Glue per inviare i dati dai tuoi database ai servizi di analisi.

Puoi anche pubblicare le metriche su Amazon CloudWatch a fini di monitoraggio e invio di avvisi.

Implementazione dell'integrità del backup dei dati

Nel caso di progetti aziendali di grandi dimensioni, possono esservi diversi team che eseguono il backup dei dati e accedono agli store Amazon S3 da località differenti. In tali operazioni di backup dei dati distribuite, la governance dei dati diventa una sfida. Tieni presente che i database AWS sono dotati di funzionalità di backup integrate.

AWS Backup è un servizio completamente gestito che centralizza e automatizza la protezione dei dati tra servizi AWS come Amazon Simple Storage Service (S3), Amazon Elastic Compute Cloud (EC2), Amazon FSx e carichi di lavoro ibridi in VMware. Puoi implementare centralmente le policy di protezione dei dati per amministrare, gestire e configurare le attività di backup su più risorse e account AWS.

AWS Backup è progettato per mantenere l'integrità dei dati durante il loro intero ciclo di vita, dalla trasmissione all'archiviazione e fino all'elaborazione. Applica rigorose misure di sicurezza a tutti i dati archiviati, indipendentemente dal tipo, garantendo un'elevata protezione contro l'accesso non autorizzato ai dati. Mantieni il controllo completo sulla classificazione dei dati, sulle posizioni di archiviazione e sulle policy di sicurezza, consentendo ai team member di gestire, archiviare e salvaguardare i dati in base alle loro esigenze.

AWS Backup collabora con altri servizi AWS per preservare l'integrità dei dati utilizzando una varietà di meccanismi, tra cui:

  • Convalida continua del checksum per prevenire il danneggiamento dei dati.
  • Checksum interni per verificare l'integrità dei dati in transito e a riposo.
  • Ripristino automatico della ridondanza in caso di guasti del disco.

I dati vengono archiviati in modo ridondante in più sedi fisiche; inoltre, i controlli a livello di rete aiutano a rilevare eventuali danneggiamenti durante i trasferimenti dei dati.

Quale aiuto può fornire AWS per mantenere l'integrità dei dati?

L'integrità dei dati migliora la fiducia nell'analisi, supporta la conformità e garantisce che i dati mantengano il loro valore per tutto il ciclo di vita. Tuttavia, per le implementazioni on-premises, garantire l'integrità dei dati è impegnativo e costoso e può comportare un notevole dispendio di tempo a causa del lavoro manuale, distribuito e ridondante.

Le tecnologie cloud centralizzano il processo e si fanno carico della maggior parte delle attività più gravose. Diversi controlli di integrità fisica e logica sono già incorporati per impostazione predefinita. I meccanismi di automazione generano in autonomia le regole software necessarie per raggiungere l'integrità dei dati. Gli ingegneri dei dati devono solo configurare le impostazioni o rivedere il lavoro svolto dai meccanismi automatici. L'integrità dei dati consente ai sistemi OLTP di mantenere una precisione perfetta durante la gestione di transazioni ad alto volume e in tempo reale, un aspetto fondamentale per garantire l'affidabilità di operazioni e pratiche aziendali.

Inizia creando un account gratuito oggi stesso.