Che cos'è la governance dei dati?
La governance dei dati include processi e politiche che garantiscono che i dati siano nelle condizioni adeguate per supportare le iniziative e le operazioni aziendali. Le organizzazioni moderne raccolgono dati da varie origini su larga scala per migliorare le operazioni e l'erogazione dei servizi. Tuttavia, il processo decisionale basato sui dati è efficace solo quando i dati soddisfano gli standard di qualità e integrità richiesti.
La governance dei dati determina ruoli, responsabilità e standard per il loro utilizzo. Delinea chi può intraprendere quali operazioni, su quali dati, utilizzando quali metodi e in quali situazioni. Con l'aumento dei dati utilizzati per supportare i casi d'uso di intelligenza artificiale (IA) e machine learning (ML), è diventato fondamentale che tutto l'utilizzo dei dati soddisfi i requisiti normativi ed etici. La governance dei dati bilancia la sicurezza dei dati con obiettivi tattici e strategici per garantire la massima efficacia.
Perché la governance dei dati è importante?
I programmi di governance dei dati sono stati storicamente utilizzati per bloccare i dati in silo e prevenirne così la fuga o l'uso improprio. Tuttavia, la conseguenza dei silo di dati è che gli utenti legittimi devono superare certe barriere per accedere ai dati quando ne hanno bisogno. Senza volerlo, l'innovazione basata sui dati viene soffocata.
In un sondaggio del 2024 su 350 CDO e ruoli equivalenti a CDO, il MIT CDOIQ ha rilevato che il 45% dei Chief Data Officer identifica la governance dei dati come una priorità assoluta. Questi responsabili dei dati vogliono stabilire un framework di governance dei dati che consenta loro di rendere i dati disponibili alle persone e alle applicazioni giuste quando ne hanno bisogno, mantenendoli sicuri e protetti, con controlli appropriati.
Bilancia l'accesso e il controllo
Hai due opzioni per rendere la governance un fattore abilitante dell'innovazione: accesso e controllo. La chiave del successo è trovare il giusto equilibrio tra questi due aspetti, ma il punto di equilibrio è diverso per ogni organizzazione. Quando si esercita un controllo eccessivo, i dati vengono bloccati in silo e gli utenti non sono in grado di accedervi quando ne hanno bisogno. Questo blocca la creatività e porta anche alla creazione di sistemi IT shadow che lasciano i dati obsoleti e non protetti. Al contrario, quando si fornisce un accesso eccessivo, i dati rischiano di non essere regolamentati nelle applicazioni e nei datastore, aumentando il rischio di accesso non autorizzato e influendo sulla qualità dei dati.
I processi di governance dei dati bilanciano l'accesso con il controllo, dando agli utenti fiducia e sicurezza nei dati. Promuovono inoltre la scoperta, la cura, la protezione e la condivisione dei dati appropriate, incoraggiando l'innovazione e salvaguardandoli.
Cos'è la governance dell'analisi?
La governance dell'analisi regola sia i dati da utilizzare nelle applicazioni di analisi, sia l'uso dei sistemi di analisi. Il tuo team di governance dell'analisi può stabilire meccanismi di governance, come il controllo delle versioni e la documentazione dei report di analisi. Come sempre, tieni traccia dei requisiti normativi, stabilisci la politica aziendale e fornisci guardrail all'organizzazione generale.
Quali sono i vantaggi della governance dei dati?
La governance dei dati offre un framework strutturato per la gestione dei dati in un'organizzazione. Ecco alcuni vantaggi principali.
Migliora la qualità dei dati
La governance dei dati stabilisce standard per l'accuratezza, la completezza e la coerenza dei dati. Ottieni dati pertinenti, attuali e facili da interpretare che sono considerati affidabili da tutte le parti interessate. Questi dati di qualità riducono gli errori e generano informazioni accurate e tempestive per il processo decisionale strategico e operativo.
Supporta una cultura basata sui dati
Un'efficace strategia di governance dei dati promuove una cultura che valorizza i dati, incoraggiando tutti i dipendenti a utilizzarli e comprenderli nel proprio lavoro. Motiva la partecipazione della comunità aziendale e favorisce l'integrazione dei dati tra le aree dell'azienda coinvolte. L'allineamento tra ingegneri dei dati e utenti aziendali aumenta l'alfabetizzazione dei dati e le capacità analitiche complessive dell'organizzazione.
Migliora l'efficienza operativa
La governance dei dati aiuta a determinare il giusto modello operativo, in particolare il livello di centralizzazione e decentralizzazione richiesto. È possibile stabilire pratiche di gestione dei dati coerenti che semplificano le operazioni. La proprietà dei dati e i diritti di accesso chiaramente definiti facilitano la collaborazione tra i reparti aziendali, garantendo che tutti lavorino con le stesse origini dati affidabili. Allinea gli sforzi tra i team per ridurre la duplicazione, ridurre i costi operativi e migliorare la produttività.
Garanzia della conformità normativa
I framework di governance dei dati adottano un approccio proattivo alla gestione del rischio, garantendo che le pratiche relative ai dati siano in linea con le normative legali e di settore. È possibile impedire l'accesso non autorizzato mediante politiche definite centralmente che determinano chi può accedere o modificare i dati. Gli strumenti di governance dei dati supportano la conformità alle normative sulla privacy per proteggere i dati sensibili.
Cos'è la governance del machine learning (ML)?
La governance ML applica molte delle stesse pratiche di governance dei dati al ML. La qualità e l'integrazione dei dati devono fornire i dati necessari per la formazione dei modelli e l'implementazione della produzione (gli archivi funzionalità sono un aspetto importante). L'intelligenza artificiale (IA) responsabile sta prestando particolare attenzione all'utilizzo di dati sensibili per la creazione di modelli. Le funzionalità aggiuntive di governance del machine learning includono la possibilità di partecipare alla creazione, all'implementazione e al monitoraggio dei modelli, la documentazione della formazione dei modelli, il controllo delle versioni, i casi d'uso supportati e la guida all'uso etico dei modelli e il monitoraggio del modello in produzione per verificarne l'accuratezza, la deriva, il sovraadattamento e l'inadeguamento.
L'IA generativa richiede funzionalità di governance dei dati aggiuntive, come la qualità e l'integrità dei dati per supportare l'adattamento dei modelli di base per la formazione e l'inferenza, la gestione della tossicità e dei pregiudizi dell'IA generativa e le operazioni del modello di fondazione (FM): FMOps.
Puoi supportare IA/ML con lo stesso programma di governance dei dati. La preparazione dei dati è necessaria per trasformare i dati in una forma utilizzabile dai modelli IA/ML per la formazione e l'inferenza della produzione, ma la preparazione più efficiente dei dati è quella che non è necessario eseguire. I data scientist dedicano troppo tempo alla preparazione dei dati per ogni caso d'uso: il tuo team di governance dei dati può aiutarti ad alleviare questo oneroso lavoro indifferenziato. Inoltre, la governance dei dati può supervisionare la creazione di archivi funzionalità sagomati da utilizzare in casi d'uso di IA e ML.
Infine, i dati sensibili devono essere protetti in modo appropriato, in modo che il tuo team possa mitigare i rischi che i dati sensibili vengano utilizzati per addestrare i modelli di base.
Proprio come l'analisi in generale, devi governare l'uso dei modelli IA/ML che crei o personalizzi. Idealmente, questo dovrebbe essere strettamente associato alla governance dell'analisi, perché quella funzione saprà supportare varie aree aziendali.
Chi crea la governance dei dati?
La creazione di una solida strategia di governance dei dati richiede molte funzioni lavorative.
Sponsor esecutivi
Identificano e stabiliscono principi, standard e politiche di governance dei dati in tutta l'organizzazione. Inoltre, comprendono molte iniziative sulla roadmap aziendale e possono aiutare a determinare le priorità per il supporto delle attività di governance dei dati.
Amministratori dei dati
Provengono dall'azienda e sono coinvolti quotidianamente nei dettagli dei progetti. Aiutano a comprendere i problemi relativi ai dati che potrebbero causare problemi con iniziative aziendali mirate. Inoltre, implementano il processo di governance dei dati nei loro progetti e garantiscono che i dati siano gestiti in modo appropriato. Monitorano la conformità dei dipendenti e dei clienti e gestiscono eventuali problemi, quando si presentano.
Proprietari dei dati
Stabiliscono le policy relative ai dati, tra cui chi deve avere accedervi e in quali circostanze, come interpretare e applicare le normative e le definizioni dei termini chiave. Sono inoltre responsabili dell'amministrazione tecnica dei set di dati e dei controlli di accesso.
Data engineer
Provengono dall'IT e selezionano e implementano i migliori strumenti di governance dei dati per proteggerli, integrare quelli provenienti da varie fonti, gestire la loro qualità e trovare quelli giusti.
Quali sono gli stili di governance dei dati?
Il tuo programma di governance dei dati dovrebbe bilanciare centralizzazione e decentralizzazione (incluso il self-service). In tutta la tua organizzazione, disporrai di un mix di governance centralizzata, federata e decentralizzata, a seconda dei requisiti aziendali. Dovresti potenziare il più possibile i team di dominio mantenendo la coerenza tra i domini (ad esempio la capacità di collegare i dati tra loro).
Governance dei dati centralizzata
Le organizzazioni centrali sono in ultima analisi responsabili delle dichiarazioni di intenti, delle politiche, delle scelte degli strumenti e altro ancora. Tuttavia, le azioni quotidiane vengono spesso inserite nelle linee di business (LOB).
Governance dei dati federata
La governance dei dati federata consente alle singole unità o alle iniziative aziendali di operare nel modo più adatto alle loro esigenze. Tuttavia, un team centralizzato più piccolo si concentra sulla risoluzione di problemi che si ripetono frequentemente, inclusi ad esempio strumenti di qualità dei dati a livello aziendale.
Governance dei dati self-service o decentralizzata
Ogni reparto fa ciò di cui ha bisogno per il progetto specifico, allineandosi alle politiche centralizzate. Ogni progetto utilizza qualsiasi strumento o processo di altri progetti in cui è adatto all'uso. Man mano che argomenti come la data mesh (a sua volta decentralizzata) aumentano di popolarità, aumenta anche la governance dei dati self-service.
Come funziona la governance dei dati?
La governance dei dati richiede persone, processi e soluzioni tecnologiche in una vasta gamma di funzionalità.
Cura i dati su larga scala per limitare l'espansione incontrollata dei dati
Curare i dati su larga scala significa identificare e gestire le origini dati più preziose, inclusi database, data lake e data warehouse. È possibile limitare la proliferazione e la trasformazione delle risorse di dati critiche. Curare i dati significa anche garantire che i dati corretti siano precisi, aggiornati e privi di informazioni sensibili, in modo che gli utenti possano avere fiducia nelle decisioni basate sui dati e nelle applicazioni di alimentazione dei dati.
Funzionalità: gestione della qualità dei dati, integrazione dei dati e gestione dei dati master
Scopri e comprendi i dati nel contesto.
Comprendere i dati nel contesto significa che tutti gli utenti possono scoprire e comprendere il significato dei propri dati in modo da poterli utilizzare con sicurezza per aumentare il valore aziendale. Con un catalogo dati centralizzato, i dati possono essere trovati facilmente, l'accesso può essere richiesto e i dati possono essere utilizzati per prendere decisioni aziendali.
Funzionalità: profilazione dei dati, derivazione dei dati e cataloghi di dati
Proteggi e condividi in modo sicuro i tuoi dati con controllo e sicurezza.
Proteggere i dati significa trovare il giusto equilibrio tra privacy, sicurezza e accesso ai dati. È essenziale governare l'accesso ai dati oltre i confini dell'organizzazione, utilizzando strumenti intuitivi sia per gli utenti aziendali che per quelli di progettazione.
Funzionalità: ciclo di vita dei dati, conformità e sicurezza dei dati
Riduci i rischi aziendali e migliora la conformità normativa.
Ridurre il rischio significa capire come vengono utilizzati i dati e da chi. I servizi AWS aiutano a monitorare e controllare l'accesso ai dati, incluso l'accesso tramite modelli ML, per contribuire a garantire la sicurezza dei dati e la conformità normativa. Il machine learning richiede anche la trasparenza del controllo per garantire un uso responsabile e una rendicontazione semplificata.
Funzionalità: controllo dell'utilizzo per dati e ML
Quali sono le best practice per la governance dei dati?
La chiave per l'efficacia della governance dei dati è associarsi a iniziative aziendali già finanziate. Assicurati che il tuo team comprenda quali domini, origini ed elementi di dati sono necessari per supportare tali iniziative.
- Crea una roadmap di governance dei dati che mostri il supporto per iniziative aziendali mirate. Quindi inizia a identificare la sovrapposizione di dati tra le iniziative aziendali scelte.
- Identifica i casi d'uso delle applicazioni e della business intelligence che i dati devono supportare e alimentare, compresi i requisiti di aggiornamento e privacy.
- Comprendi quali sono i dati adatti allo scopo per ogni iniziativa aziendale scelta.
- Sostieni ed espandi incorporando la governance dei dati nel modello operativo aziendale, in modo che la pianificazione e l'implementazione dei dati diventino una parte naturale del funzionamento dell'organizzazione.
- Organizza la community di analisi per il self-service e la coerenza.
- Supporta intelligenza artificiale (IA) e machine learning (ML) con governance dei dati e governance ML. Utilizza lo stesso programma di governance dei dati, ma estendilo agli archivi funzionalità e ai modelli ML.
Come puoi migliorare i tuoi team di governance dei dati?
La chiave per un efficace programma di governance dei dati è associarsi a iniziative aziendali già finanziate. Assicurati che il tuo team comprenda quali domini, origini ed elementi di dati sono necessari per supportare tali iniziative.
- Crea una roadmap di governance dei dati che mostri il supporto per iniziative aziendali mirate. Quindi inizia a identificare la sovrapposizione di dati tra le iniziative aziendali scelte.
- Identifica i casi d'uso delle applicazioni e della business intelligence che i dati devono supportare e alimentare, compresi i requisiti di aggiornamento e privacy.
- Comprendi quali sono i dati adatti allo scopo per ogni iniziativa aziendale scelta.
- Sostieni ed espandi il programma di governance dei dati incorporandolo nel modello operativo aziendale, in modo che la pianificazione e l'implementazione dei dati diventino una parte naturale del funzionamento dell'organizzazione.
- Organizza la community di analisi per il self-service e la coerenza.
- Supporta l'intelligenza artificiale (IA) e il machine learning (ML) con la governance dei dati e la governance del ML. Utilizza lo stesso programma di governance dei dati, ma estendilo agli archivi funzionalità e ai modelli ML.
In che modo la governance dei dati influisce sull'analisi, sul machine learning e sull'intelligenza artificiale?
La governance dei dati svolge un ruolo chiave nelle situazioni di utilizzo intensivo dei dati.
Governance dell'analisi
La governance dell'analisi regola sia i dati da utilizzare nelle applicazioni di analisi, sia l'uso dei sistemi di analisi. Il tuo team di governance dell'analisi può stabilire meccanismi di governance, come il controllo delle versioni e la documentazione dei report di analisi. Come sempre, tieni traccia dei requisiti normativi, stabilisci la politica aziendale e fornisci guardrail all'organizzazione generale.
Governance IA
La governance IA applica molte delle stesse pratiche di governance dei dati ai casi d'uso di IA/ML. La qualità e l'integrazione dei dati devono fornire i dati necessari per l'addestramento dei modelli e l'implementazione della produzione (gli archivi delle caratteristiche sono un aspetto importante). L'intelligenza artificiale (IA) responsabile sta prestando particolare attenzione all'utilizzo di dati sensibili per la creazione di modelli. Le funzionalità aggiuntive di governance dell'IA includono la possibilità di partecipare alla creazione, all'implementazione e al monitoraggio dei modelli, la documentazione dell'addestramento dei modelli, il controllo delle versioni, i casi d'uso supportati e la guida all'uso etico dei modelli e il monitoraggio del modello in produzione per verificarne l'accuratezza, la deriva, l'overfitting e l'underfitting.
L'IA generativa richiede funzionalità di governance dei dati aggiuntive, come la qualità e l'integrità dei dati, per supportare l'adattamento dei modelli di fondazione per l'addestramento e l'inferenza, la gestione della tossicità e dei pregiudizi dell'IA generativa e le operazioni del modello di fondazione (FM): FMOps.
Puoi supportare IA/ML con lo stesso programma di governance dei dati. La preparazione dei dati è necessaria per trasformare i dati in una forma utilizzabile dai modelli IA/ML per la formazione e l'inferenza della produzione, ma la preparazione più efficiente dei dati è quella che non è necessario eseguire. I data scientist dedicano troppo tempo alla preparazione dei dati per ogni caso d'uso: il tuo team di governance dei dati può aiutarti ad alleviare questo oneroso lavoro indifferenziato. Inoltre, la governance dei dati può supervisionare la creazione di archivi delle caratteristiche sagomati per casi d'uso di IA e ML.
Infine, i dati sensibili devono essere protetti in modo appropriato, in modo che il team possa mitigare i rischi legati al loro utilizzo per l'addestramento dei modelli di fondazione.
Proprio come l'analisi, devi governare l'uso dei modelli di IA/ML che crei o personalizzi. Idealmente, questo dovrebbe essere strettamente associato alla governance dell'analisi, perché quella funzione saprà supportare varie aree aziendali.
Quali sono le principali sfide della governance dei dati?
La sfida strategica più comune per la governance dei dati è allineare il programma alle iniziative aziendali anziché proporre direttamente il valore della governance dei dati. Ad esempio, potresti proporre il valore di rendere più facile per gli utenti finali trovare i dati che stanno cercando oppure potresti proporre il valore della risoluzione dei problemi di qualità dei dati. Ma queste sono soluzioni alla ricerca di un problema. Se lo fai in questo modo, finirai per competere per finanziamenti e sponsorizzazioni con iniziative commerciali che dovresti sostenere. Posiziona invece la governance dei dati per supportare le iniziative aziendali. Tutte le principali iniziative aziendali richiedono dati. La governance dei dati dovrebbe garantire che i dati siano nelle condizioni giuste per supportare il successo delle iniziative aziendali. Non trascurare le pratiche di reporting e controllo su come la governance dei dati supporta queste iniziative.
Un'altra sfida strategica comune consiste nell'evitare di applicare la governance dei dati in modo troppo restrittivo. Una definizione troppo restrittiva potrebbe significare allineare il programma alle singole aree aziendali o ai singoli casi d'uso senza avere una visione più ampia delle aree aziendali. Una definizione ristretta potrebbe anche significare definire la governance dei dati mediante solo una o due funzionalità. Ad esempio, disporre di un catalogo di dati non costituisce un programma di governance dei dati.
Quali sono le offerte AWS per la governance dei dati?
Con la governance dei dati end-to-end su AWS, le organizzazioni hanno il controllo su dove si trovano i propri dati, chi vi ha accesso e cosa si può fare con essi in ogni fase del flusso di lavoro dei dati. La governance dei dati con AWS aiuta le organizzazioni ad accelerare le decisioni basate sui dati consentendo alle persone e alle applicazioni giuste di trovare, accedere e condividere i dati giusti in modo sicuro e protetto quando ne hanno bisogno. Puoi curare i dati automatizzando l'integrazione e la qualità dei dati per limitare la proliferazione dei dati. Puoi scoprire e comprendere i tuoi dati con cataloghi centralizzati che migliorano l'alfabetizzazione dei dati. Puoi proteggere i tuoi dati con autorizzazioni precise che ti consentono di condividere i dati con sicurezza.
È possibile ridurre i rischi e migliorare la conformità normativa monitorando e verificando l'accesso ai dati.
- Amazon DataZone: sblocca i dati oltre i confini dell'organizzazione con la governance integrata
- AWS Glue: scopre, prepara e integra tutti i dati su qualsiasi scala
- AWS Lake Formation: crea, gestisce e protegge i data lake in pochi giorni
- Amazon QuickSight ha unificato la business intelligence su vasta scala
- Amazon SageMaker: costruisci, addestra e implementa modelli di machine learning per qualsiasi caso d'uso con infrastrutture, strumenti e flussi di lavoro completamente gestiti
- Pagina web sulla governance del ML
- Amazon Bedrock: crea e scala applicazioni di IA generativa con modelli di fondazione (FM)
- Amazon Macie: scopri e proteggi i dati sensibili su larga scala
- Punti di accesso di Amazon Simple Storage Service (Amazon S3): archiviazione di oggetti costruita per recuperare qualsiasi quantità di dati da qualsiasi luogo
- Scambio dati su AWS: trova, iscrivi e utilizza facilmente dati di terze parti nel cloud
- AWS Clean Rooms: crea camere bianche in pochi minuti per collaborare con i tuoi partner senza condividere dati grezzi
Inizia a usare la governance dei dati su AWS creando un account gratuito oggi stesso.
Passaggi successivi su AWS
Ottieni accesso istantaneo al Piano gratuito di AWS.