Cos’è la virtualizzazione dei dati?
Cos’è la virtualizzazione dei dati?
La virtualizzazione dei dati è il processo di astrazione delle operazioni sui dati dall’archiviazione di dati sottostante. Le organizzazioni moderne archiviano i dati in formati diversi, da tabelle tradizionali a file e messaggi in tempo reale, in vari sistemi e piattaforme. Spostare fisicamente questi dati in un unico sistema centralizzato potrebbe non essere sempre pratico o conveniente.
La virtualizzazione utilizza i metadati, ovvero i dati sui dati, per creare un livello virtuale per la manipolazione dei dati. Gli utenti finali possono leggere e modificare i dati in modo integrato all’interno del livello virtuale senza dover comprendere gli aspetti tecnici sottostanti. Anziché con l’utente finale, il livello virtuale interagisce con il livello di archiviazione sottostante per inviare o recuperare i dati a seconda delle necessità.
Perché la virtualizzazione dei dati è importante?
Le organizzazioni di oggi spesso dispongono di dati distribuiti in diverse origini dati tra sistemi on-premises, servizi cloud e altri sistemi in silo. Le funzionalità di unione fisica dei dati sono limitate a causa delle seguenti sfide:
- La gestione manuale dei dati di origine tra più piattaforme può essere dispendiosa in termini di tempo ed essere soggetta a errori.
- Il controllo degli accessi per più origini indipendenti può essere complesso per via della governance dei dati obbligatoria.
- Il mantenimento di connessioni dirette tra diverse origini dati può essere difficile quando vengono aggiunti nuovi utenti o nuove origini.
Altri metodi tradizionali di integrazione dei dati richiedono lo spostamento dei dati in data warehouse o data lake. Questo approccio offre la centralizzazione, ma richiede di mantenere più copie sincronizzate, il che può a sua volta influire sulle funzionalità di creazione di report in tempo reale.
I sistemi di virtualizzazione dei dati offrono diversi vantaggi fondamentali rispetto agli altri approcci descritti.
Astrazione
Le query vengono astratte dalle origini effettive, quindi è possibile lavorare con set di dati complessi senza che utenti o sviluppatori debbano comprenderne ogni dettaglio tecnico.
Governance unificata
Dato che la virtualizzazione dei dati funziona utilizzando i metadati, è possibile implementare una governance centralizzata all’interno del livello di virtualizzazione. È anche facile sviluppare e iterare modelli di dati disponibili che vengono resi disponibili velocemente e possono essere riutilizzati per progetti futuri.
Accesso in tempo reale
La virtualizzazione dei dati consente di eseguire query su più origini in tempo reale senza dover attendere le sincronizzazioni programmate. Gli utenti aziendali possono interagire con un’unica applicazione anziché doversi connettere a ogni sistema singolarmente.
Unica fonte di verità
Vengono eliminate le ridondanze e la confusione causate da dati obsoleti presenti in un sistema a causa della sincronizzazione con un altro sistema. Inoltre, è possibile ridurre i costi eliminando la necessità di copiare i dati in data warehouse o data lake centralizzati.
Quali sono i casi d’uso della virtualizzazione dei dati?
La virtualizzazione rende più facile l’accesso in tempo reale ai dati e per questo può supportare diverse funzioni importanti.
Analisi e business intelligence
Per le iniziative di analisi, come la redazione di report interni o la conformità normativa, è spesso necessario integrare i dati provenienti da diverse origini all’interno di un’organizzazione. L’accesso virtualizzato ai dati consente agli analisti e ai team di business intelligence (BI) di esplorare i dati e affinare le query con facilità senza influire negativamente sulle origini dati di produzione.
Supporto per la migrazione al cloud
La migrazione di grandi sistemi al cloud può rivelarsi un processo lento e pieno di errori. La virtualizzazione dei dati è un potente strumento per pianificare la migrazione in modo efficace: il team può testare scenari di conversione e convalidare processi di integrazione dei dati senza interferire con i sistemi attivi.
Semplificazione degli aggiornamenti di sistema importanti
La creazione di ambienti di test per progetti importanti, come l’aggiornamento del sistema di pianificazione delle risorse aziendali (ERP), può essere dispendiosa in termini di tempo e richiedere un ampio coordinamento tra più team. Utilizzando la tecnologia di virtualizzazione dei dati, i team possono generare velocemente strutture di dati complesse per svolgere il lavoro in modo efficiente. In questo modo è possibile ridurre i costi di infrastruttura e diminuire i tempi di implementazione.
Supporto del sistema di produzione
Per risolvere problemi complessi nei sistemi di produzione a volte è necessario ricreare servizi di dati completi per eseguire test. La tecnologia di virtualizzazione dei dati consente ai team IT di sviluppare e testare velocemente gli ambienti senza dover copiare i dati. In questo modo possono verificare le correzioni e identificare effetti collaterali non intenzionali.
Flussi di lavoro di DevOps
Durante la preparazione delle applicazioni per il rilascio, sviluppatori e tester possono lavorare con un ambiente di dati completo e virtuale per modellare il funzionamento del software nel mondo reale senza dover replicare set di dati di grandi dimensioni.
Quali sono le funzionalità di un livello di virtualizzazione dei dati?
I software di virtualizzazione dei dati possono offrire diverse funzionalità fondamentali che semplificano la gestione dei dati.
Modellazione semantica
Concetti aziendali significativi, come “cliente” o “linea di prodotti”, possono essere rappresentati nei dati virtuali frammentati in più sistemi. Un livello di virtualizzazione consente di utilizzare i dati per definire con più facilità concetti significativi in più origini.
Connettività universale
Attraverso l’accesso alle origini dati dell’organizzazione tramite un livello di virtualizzazione, è possibile abbattere più facilmente i silo di dati e fornire a ogni team l’accesso in tempo reale a un set di dati unificato.
Query ad alte prestazioni
Il software di virtualizzazione dei dati può utilizzare tecniche per favorire prestazioni intelligenti al fine di ottimizzare query complesse in un’unica dichiarazione efficiente. Non eseguirà query ridondanti a sistemi diversi.
Cataloghi di dati
La virtualizzazione consente di archiviare metadati, o informazioni sui dati, all’interno dello stesso sistema. È possibile utilizzare i dati per tenere traccia del set di dati esistente e sviluppare un catalogo di dati che supporti la visibilità dei dati.
Come funziona la virtualizzazione dei dati?
La virtualizzazione dei dati è un tipo di integrazione: anziché lavorare direttamente con i dati, i servizi di virtualizzazione operano solamente sui metadati, per esempio informazioni su dove sono archiviati i dati, su come sono categorizzati e su come sono connessi ad altri dati.
Query degli utenti
Supponiamo che l’azienda disponga di un database di gestione dei rapporti con i clienti (CRM) e un sistema di inventario separato per la gestione dei prodotti. È necessario trovare tutti gli ordini effettuati da clienti chiamati “Smith” negli ultimi due mesi, una richiesta che spazia tra i due sistemi. Questa query va inserita nel servizio di virtualizzazione dei dati.
Integrazione di dati
Il servizio di virtualizzazione scompone la query in componenti più piccoli. Utilizzando i metadati, il servizio identifica la posizione dei dati per ogni componente della query all’interno delle varie origini disponibili. In seguito, genera query secondarie per recuperare le informazioni sui clienti dal CRM e le informazioni sugli ordini dall’inventario.
Presentazione dei dati
Man mano che le origini restituiscono i dati, il servizio di virtualizzazione li trasforma in memoria di lavoro, modificando la formattazione e la denominazione in base alle esigenze, poi filtra le ridondanze identificate dai metadati. Infine, una volta completate le trasformazioni, il servizio fornisce un risultato integrato all’applicazione.
Quali sono gli approcci alla virtualizzazione dei dati nel cloud?
Nel cloud, sono disponibili tre approcci generali all’implementazione della virtualizzazione dei dati: soluzioni personalizzate, strumenti commerciali o soluzioni native del cloud.
Virtualizzazione dei dati personalizzata
La prima possibilità è sviluppare una soluzione di virtualizzazione dei dati personalizzata utilizzando l’’infrastruttura cloud. Questo approccio offre un maggiore controllo sul design e sulle funzionalità, ma richiede anche un impegno significativo dal punto di vista dello sviluppo e della manutenzione.
Strumenti di virtualizzazione dei dati commerciali
Un’altra possibilità è utilizzare una piattaforma di virtualizzazione dei dati preconfigurata di un fornitore. Generalmente, questi strumenti offrono connettori predefiniti a diverse origini dati e ottimizzazioni delle prestazioni. Possono anche supportare l’integrazione con standard di metadati aziendali esistenti.
Virtualizzazione dei dati nativa del cloud
Questo approccio utilizza i servizi gestiti forniti da provider cloud, come Amazon Web Services (AWS), per semplificare l’implementazione e le operazioni continuative e consente alle organizzazioni che stanno effettuando la transizione o che operano già nel cloud di adottare la virtualizzazione dei dati senza il bisogno di una vasta esperienza tecnica.
In che modo AWS può supportare i requisiti di virtualizzazione dei dati?
AWS offre funzionalità native in linea con molte capacità offerte dai servizi commerciali di virtualizzazione dei dati. Tali funzionalità native possono potenzialmente supportare una vasta gamma di casi d’uso di virtualizzazione dei dati.
Amazon Redshift supporta la moderna analisi dei dati su larga scala. Non importa se i dati in crescita sono archiviati in archivi di dati operativi, data lake, servizi di streaming o set di dati di terze parti: Amazon Redshift aiuta ad accedere, combinare e condividere i dati in modo sicuro con spostamenti o copie minimi.
Amazon Athena è un servizio di analisi interattivo che funziona direttamente con i dati archiviati in Amazon S3. Il servizio è serverless, per cui non è necessario installare o gestire un’infrastruttura ed è quindi possibile iniziare immediatamente ad analizzare i dati.
AWS Glue è un servizio di integrazione dei dati serverless che semplifica il processo di individuazione, preparazione e combinazione dei dati. Amazon Athena e Amazon Redshift hanno un’integrazione nativa con il Catalogo dati AWS Glue, un repository di metadati centralizzato che supporta la virtualizzazione.
AWS Lake Formation semplifica la gestione centralizzata, la protezione e la condivisione globale dei dati per l’analisi e il machine learning (ML). È possibile centralizzare la sicurezza e la governance dei dati utilizzando il Catalogo dati AWS Glue per gestire metadati e autorizzazioni dei dati in un unico posto con funzionalità familiari in stile database. Offre inoltre un controllo granulare degli accessi ai dati.
Inizia subito a usare la virtualizzazione dei dati su AWS creando un account gratuito.