Cos'è un data lake?
Un data lake è un repository centralizzato che permette di archiviare tutti i dati strutturati e non su qualsiasi scala. È possibile archiviare i dati così come sono, senza doverli prima strutturare, ed eseguire diversi tipi di analisi dei dati - da pannelli di controllo e visualizzazioni all'elaborazione di Big Data, analisi dei dati in tempo reale e machine learning per prendere decisioni migliori.
Perché serve un data lake?
Le organizzazioni che generano valore aziendale dai loro dati in modo proficuo supereranno i loro simili. Una ricerca di Aberdeen ha rilevato che le organizzazioni che hanno implementato data lake hanno ottenuto il 9% in più dei ricavi rispetto alle imprese di dimensioni simili. Questi leader sono stati in grado di eseguire nuovi tipi di analisi dei dati come machine learning su nuove fonti come i file di log, i dati provenienti dai flussi di clic, i social media e i dispositivi connessi a Internet archiviati nel data lake. Questo li ha aiutati a identificare e agire più velocemente sulle opportunità di crescita del business, attirando e mantenendo i clienti, aumentando la produttività, mantenendo i dispositivi proattivi e prendendo decisioni informate.
Quali sono gli elementi fondamentali di un data lake e di una soluzione di analisi dei dati?
Man mano che le organizzazioni costruiscono data lake e una piattaforma di analisi dei dati, devono considerare una serie di funzionalità chiave, tra cui:
Trasferimento dati
I data lake permettono di importare qualsiasi quantità di dati che arrivano in tempo reale. I dati vengono raccolti da più fonti e spostati nel data lake in formato originale. Questo processo permette di dimensionare dati di qualsiasi dimensione, risparmiando il tempo necessario a definire strutture di dati, schemi e trasformazioni.
Archivia e cataloga dati in modo sicuro
I data lake permettono di archiviare dati relazionali come database operativi e dati da applicazioni line of business, e dati non relazionali come applicazioni per dispositivi mobili, dispositivi IoT e social media. Permettono anche di capire quali dati si trovano nel data lake attraverso la ricerca per indicizzazione, la catalogazione e l'indicizzazione dei dati. Infine, bisogna mettere in sicurezza i dati per garantire la protezione delle risorse di dati.
Analisi
I data lake permettono a vari ruoli nell'organizzazione come data scientist, sviluppatori di dati e analisti aziendali di accedere ai dati scegliendo i propri strumenti analitici e framework. Questo include framework open source come Apache Hadoop, Presto e Apache Spark, oltre a offerte commerciali da fornitori di data warehouse e business intelligence. I data lake permettono di eseguire l'analisi dei dati senza spostarli in un sistema di analisi dei dati separato.
Scopri di più sull'analisi dei dati »
Machine learning
I data lake permetteranno alle organizzazioni di generare diversi tipi di informazioni dettagliate, compreso il resoconto sui dati storici e il machine learning in cui i modelli sono costruiti per prevedere i risultati probabili e suggerire una serie di operazioni necessarie al raggiungimento del miglior risultato.
Come si confronta un data warehouse con un data lake?
A seconda dei requisiti, un'organizzazione standard richiederà sia un data warehouse che un data lake, in quanto adempiono a necessità e casi d'uso diversi.
Un data warehouse è un database ottimizzato per analizzare dati relazionali provenienti da sistemi transazionali e applicazioni line of business. La struttura dei dati e lo schema sono definiti preventivamente per ottimizzare le query SQL veloci, in cui i risultati sono utilizzati di solito per il resoconto operativo e l'analisi. I dati vengono riordinati, arricchiti e trasformati in modo da poter agire come "unica fonte di verità" a cui gli utenti possono fare affidamento.
Ulteriori informazioni sui data warehouse »
Un data lake è diverso, in quanto archivia dati relazionali da applicazioni line of business, e dati non relazionali da applicazioni per dispositivi mobili, dispositivi IoT e social media. La struttura dei dati o lo schema non sono definiti quando vengono acquisiti i dati. Questo significa che puoi archiviare tutti i dati senza un'attenta progettazione o senza sapere quali domande avranno bisogno di risposte in futuro. Per rilevare informazioni dettagliate, è possibile utilizzare diversi tipi di analisi dei dati su dati come le query SQL, l'analisi dei Big Data, la ricerca di testo completo, l'analisi dei dati in tempo reale e il machine learning.
Man mano che le organizzazioni con data warehouse toccano con mano i vantaggi dei data lake, evolvono il loro warehouse per includere data lake e abilitare diverse funzionalità di query, casi d'uso di Data Science e funzionalità avanzate per scoprire nuovi modelli di informazioni. Gartner definisce questa evoluzione "Data Management Solution for Analytics" o "DMSA" (soluzione di gestione dei dati per l'analisi).
Per un confronto approfondito tra data lake e data warehouse, visita la nostra pagina di confronto tra data lake e data warehouse dedicata.
Qual è il valore dei data lake?
La capacità di sfruttare più dati da più fonti in meno tempo e di permettere agli utenti di collaborare e analizzare i dati in modi diversi porta a un processo decisionale migliore e più veloce. Tra gli esempi in cui i data lake hanno valore aggiunto troviamo:
Interazioni migliori con i clienti
Un data lake può combinare i dati dei clienti da una piattaforma CRM con l'analisi dei dati dei social media, una piattaforma di marketing che include la cronologia degli acquisti e i ticket degli incidenti per permettere all'azienda di individuare la coorte di clienti più redditizia, la causa della perdita dei clienti e le promozioni o i premi che ne aumentano la fidelizzazione.
Migliora le scelte di innovazione di Ricerca e Sviluppo
Un data lake può aiutare i team di Ricerca e Sviluppo a testare ipotesi, perfezionarle e valutare risultati, come scegliere i materiali giusti nella progettazione del prodotto per portare a prestazioni più veloci, effettuare la ricerca genomica per ottenere farmaci più efficaci o comprendere la disponibilità dei clienti a pagare diversi attributi.
Migliora l'efficienza operativa
L'Internet of Things (IoT) introduce vari modi per raccogliere dati su processi come la produzione, con dati in tempo reale provenienti da dispositivi connessi a Internet. Un data lake semplifica l'archiviazione e l'esecuzione di analisi dei dati IoT generati dalla macchina per scoprire modi per ridurre i costi operativi e aumentare la qualità.
Quali sono le sfide dei data lake?
La sfida principale con un'architettura dei data lake consiste nel fatto che i dati non elaborati sono archiviati senza alcuna supervisione dei contenuti. Affinché un data lake renda i dati utilizzabili, deve avere dei meccanismi specifici per catalogare e proteggere i dati. Senza questi elementi non è possibile trovare i dati o reputarli affidabili; in questo caso, potremmo essere di fronte a una "palude di dati". Soddisfare le esigenze di una clientela più ampia implica che i data lake debbano avere governance, coerenza semantica e controlli di accesso.
Come si implementano i data lake nel cloud?
I data lake sono un carico di lavoro ideale da implementare nel cloud perché quest'ultimo fornisce prestazioni, scalabilità, affidabilità, disponibilità, una serie diversificata di motori analitici e imponenti economie di scala. La ricerca ESG ha rilevato che il 39% degli intervistati considera il cloud l'implementazione primaria per l'analisi dei dati, il 41% per i data warehouse e il 43% per Spark. Le ragioni principali per cui i clienti hanno percepito il cloud come un vantaggio per i data lake sono una migliore sicurezza, tempi più rapidi per l'implementazione, migliore disponibilità, aggiornamenti più frequenti di caratteristiche/funzionalità, maggiore elasticità, maggiore copertura geografica e costi legati all'utilizzo effettivo.
In che modo AWS può supportare i tuoi requisiti di data lake?
AWS offre il portfolio di servizi più sicuro, scalabile, completo ed economicamente vantaggioso, che consente ai clienti di costruire data lake nel cloud, analizzarne tutti i dati, inclusi quelli provenienti dai dispositivi IoT, con una varietà di approcci analitici che includono il machine learning. Pertanto, ci sono più organizzazioni che eseguono data lake e analisi dei dati su AWS che altrove, vantando clienti come NETFLIX, Zillow, NASDAQ, Yelp, iRobot e FINRA, che si affidano ad AWS per eseguire carichi di lavoro critici di analisi dei dati.
Inizia oggi stesso a utilizzare i data lake su AWS creando un account.
Fasi successive su AWS
Ottieni accesso istantaneo al Piano gratuito di AWS.