Cos'è un data lake?

Un data lake è un repository centralizzato che permette di archiviare tutti i dati strutturati e non su qualsiasi scala. È possibile archiviare i dati così come sono, senza doverli prima strutturare, ed eseguire diversi tipi di analisi dei dati - da pannelli di controllo e visualizzazioni all'elaborazione di Big Data, analisi dei dati in tempo reale e machine learning per prendere decisioni migliori.

Perché serve un data lake?

Le organizzazioni che generano valore aziendale dai loro dati in modo proficuo supereranno i loro simili. Una ricerca di Aberdeen ha rilevato che le organizzazioni che hanno implementato data lake hanno ottenuto il 9% in più dei ricavi rispetto alle imprese di dimensioni simili. Questi leader sono stati in grado di eseguire nuovi tipi di analisi dei dati come machine learning su nuove fonti come i file di log, i dati provenienti dai flussi di clic, i social media e i dispositivi connessi a Internet archiviati nel data lake. Questo li ha aiutati a identificare e agire più velocemente sulle opportunità di crescita del business, attirando e mantenendo i clienti, aumentando la produttività, mantenendo i dispositivi proattivi e prendendo decisioni informate.

Quali sono gli elementi fondamentali di un data lake e di una soluzione di analisi dei dati?

Man mano che le organizzazioni costruiscono data lake e una piattaforma di analisi dei dati, devono considerare una serie di funzionalità chiave, tra cui:

Trasferimento dati

I data lake permettono di importare qualsiasi quantità di dati che arrivano in tempo reale. I dati vengono raccolti da più fonti e spostati nel data lake in formato originale. Questo processo permette di dimensionare dati di qualsiasi dimensione, risparmiando il tempo necessario a definire strutture di dati, schemi e trasformazioni.

Archivia e cataloga dati in modo sicuro

I data lake permettono di archiviare dati relazionali come database operativi e dati da applicazioni line of business, e dati non relazionali come applicazioni per dispositivi mobili, dispositivi IoT e social media. Permettono anche di capire quali dati si trovano nel data lake attraverso la ricerca per indicizzazione, la catalogazione e l'indicizzazione dei dati. Infine, bisogna mettere in sicurezza i dati per garantire la protezione delle risorse di dati.

Analisi

I data lake permettono a vari ruoli nell'organizzazione come data scientist, sviluppatori di dati e analisti aziendali di accedere ai dati scegliendo i propri strumenti analitici e framework. Questo include framework open source come Apache Hadoop, Presto e Apache Spark, oltre a offerte commerciali da fornitori di data warehouse e business intelligence. I data lake permettono di eseguire l'analisi dei dati senza spostarli in un sistema di analisi dei dati separato.

Scopri di più sull'analisi dei dati »

Machine learning

I data lake permetteranno alle organizzazioni di generare diversi tipi di informazioni dettagliate, compreso il resoconto sui dati storici e il machine learning in cui i modelli sono costruiti per prevedere i risultati probabili e suggerire una serie di operazioni necessarie al raggiungimento del miglior risultato.

Scopri di più sul machine learning »

Come si confronta un data warehouse con un data lake?

A seconda dei requisiti, un'organizzazione standard richiederà sia un data warehouse che un data lake, in quanto adempiono a necessità e casi d'uso diversi.

Un data warehouse è un database ottimizzato per analizzare dati relazionali provenienti da sistemi transazionali e applicazioni line of business. La struttura dei dati e lo schema sono definiti preventivamente per ottimizzare le query SQL veloci, in cui i risultati sono utilizzati di solito per il resoconto operativo e l'analisi. I dati vengono riordinati, arricchiti e trasformati in modo da poter agire come "unica fonte di verità" a cui gli utenti possono fare affidamento.

Ulteriori informazioni sui data warehouse »

Un data lake è diverso, in quanto archivia dati relazionali da applicazioni line of business, e dati non relazionali da applicazioni per dispositivi mobili, dispositivi IoT e social media. La struttura dei dati o lo schema non sono definiti quando vengono acquisiti i dati. Questo significa che puoi archiviare tutti i dati senza un'attenta progettazione o senza sapere quali domande avranno bisogno di risposte in futuro. Per rilevare informazioni dettagliate, è possibile utilizzare diversi tipi di analisi dei dati su dati come le query SQL, l'analisi dei Big Data, la ricerca di testo completo, l'analisi dei dati in tempo reale e il machine learning.

Man mano che le organizzazioni con data warehouse toccano con mano i vantaggi dei data lake, evolvono il loro warehouse per includere data lake e abilitare diverse funzionalità di query, casi d'uso di Data Science e funzionalità avanzate per scoprire nuovi modelli di informazioni. Gartner definisce questa evoluzione "Data Management Solution for Analytics" o "DMSA" (soluzione di gestione dei dati per l'analisi).

Per un confronto approfondito tra data lake e data warehouse, visita la nostra pagina di confronto tra data lake e data warehouse dedicata.

Qual è il valore dei data lake?

La capacità di sfruttare più dati da più fonti in meno tempo e di permettere agli utenti di collaborare e analizzare i dati in modi diversi porta a un processo decisionale migliore e più veloce. Tra gli esempi in cui i data lake hanno valore aggiunto troviamo:

Interazioni migliori con i clienti

Un data lake può combinare i dati dei clienti da una piattaforma CRM con l'analisi dei dati dei social media, una piattaforma di marketing che include la cronologia degli acquisti e i ticket degli incidenti per permettere all'azienda di individuare la coorte di clienti più redditizia, la causa della perdita dei clienti e le promozioni o i premi che ne aumentano la fidelizzazione.

Migliora le scelte di innovazione di Ricerca e Sviluppo

Un data lake può aiutare i team di Ricerca e Sviluppo a testare ipotesi, perfezionarle e valutare risultati, come scegliere i materiali giusti nella progettazione del prodotto per portare a prestazioni più veloci, effettuare la ricerca genomica per ottenere farmaci più efficaci o comprendere la disponibilità dei clienti a pagare diversi attributi.

Migliora l'efficienza operativa

L'Internet of Things (IoT) introduce vari modi per raccogliere dati su processi come la produzione, con dati in tempo reale provenienti da dispositivi connessi a Internet. Un data lake semplifica l'archiviazione e l'esecuzione di analisi dei dati IoT generati dalla macchina per scoprire modi per ridurre i costi operativi e aumentare la qualità.

Ulteriori informazioni sull'Internet delle cose (IoT) »

Quali sono le sfide dei data lake?

La sfida principale con un'architettura dei data lake consiste nel fatto che i dati non elaborati sono archiviati senza alcuna supervisione dei contenuti. Affinché un data lake renda i dati utilizzabili, deve avere dei meccanismi specifici per catalogare e proteggere i dati. Senza questi elementi non è possibile trovare i dati o reputarli affidabili; in questo caso, potremmo essere di fronte a una "palude di dati". Soddisfare le esigenze di una clientela più ampia implica che i data lake debbano avere governance, coerenza semantica e controlli di accesso.

Come si implementano i data lake nel cloud?

I data lake sono un carico di lavoro ideale da implementare nel cloud perché quest'ultimo fornisce prestazioni, scalabilità, affidabilità, disponibilità, una serie diversificata di motori analitici e imponenti economie di scala. La ricerca ESG ha rilevato che il 39% degli intervistati considera il cloud l'implementazione primaria per l'analisi dei dati, il 41% per i data warehouse e il 43% per Spark. Le ragioni principali per cui i clienti hanno percepito il cloud come un vantaggio per i data lake sono una migliore sicurezza, tempi più rapidi per l'implementazione, migliore disponibilità, aggiornamenti più frequenti di caratteristiche/funzionalità, maggiore elasticità, maggiore copertura geografica e costi legati all'utilizzo effettivo.

In che modo AWS può supportare i tuoi requisiti di data lake?

AWS offre il portfolio di servizi più sicuro, scalabile, completo ed economicamente vantaggioso, che consente ai clienti di costruire data lake nel cloud, analizzarne tutti i dati, inclusi quelli provenienti dai dispositivi IoT, con una varietà di approcci analitici che includono il machine learning. Pertanto, ci sono più organizzazioni che eseguono data lake e analisi dei dati su AWS che altrove, vantando clienti come NETFLIX, Zillow, NASDAQ, Yelp, iRobot e FINRA, che si affidano ad AWS per eseguire carichi di lavoro critici di analisi dei dati.

Inizia oggi stesso a utilizzare i data lake su AWS creando un account.

Fasi successive su AWS

Consulta ulteriori risorse correlate al prodotto
Visualizza le offerte gratuite per i servizi Analytics nel cloud 
Registrati per creare un account gratuito

Ottieni accesso istantaneo al Piano gratuito di AWS.

Registrati 
Inizia a lavorare nella console

Inizia subito a creare nella Console di gestione AWS.

Accedi