Data lake e analisi su AWS

Il portfolio di servizi più sicuro, scalabile, completo e vantaggioso economicamente per creare le tue soluzioni di data lake e analisi

AWS dispone di una suite di servizi integrata che offre tutto il necessario per la creazione e la gestione di un data lake per l’analisi, il tutto in modo veloce e semplice. I data lake alimentati da AWS sono in grado di gestire la scalabilità, la flessibilità e l'agilità richieste per combinare diversi tipi di dati e approcci analitici al fine di acquisire informazioni più dettagliate. Tali approcci non sarebbero possibili con i silos di dati tradizionali e i data warehousing. AWS offre ai clienti la più ampia gamma di servizi analitici e di machine learning, con accesso semplice a tutti i dati rilevanti, senza comprometterne la sicurezza o la governance.

AWS offre più organizzazioni con data lake e analisi di qualsiasi altro servizio. Clienti come NASDAQ, Zillow, Yelp, iRobot e FINRA si affidano a AWS per eseguire i carichi di lavoro analitici business critical.

Data lake e analisi su AWS

Data lake e analisi su AWS

Per creare la soluzione di data lake e analisi, AWS vanta il set di servizi più completo per trasferire, archiviare e analizzare i dati.

aws-datalake-diagram-simplified

Trasferimento dati

Importa i tuoi dati in tempo reale da ambienti in locale.

Data lake

Archivia in sicurezza dati di qualsiasi dimensione (da gigabyte a exabyte).

Analisi

Analizza i tuoi dati con la più vasta selezione di servizi di analisi.

Machine learning

Prevedi i risultati futuri e prescrivi azioni per una risposta rapida.

Trasferimento dati

Il primo passo per creare data lake su AWS è migrare i dati nel cloud. Le limitazioni fisiche della larghezza di banda e delle velocità di trasferimento riducono la capacità di migrare dati senza incorrere in gravi errori, costi elevati e tempi eccessivi. AWS offre la più vasta gamma di opzioni di migrazione al cloud che consentono di trasferire dati in modo semplice e flessibile.

Per creare operazioni ETL e ML Transforms per il tuo data lake, consulta la sezione AWS Lake Formation.

Trasferimento dati in locale

AWS offre diversi modi per trasferire i dati dal tuo datacenter ad AWS. L’utilizzo di AWS Direct Connect consente la creazione di una connessione di rete dedicata tra la tua rete e AWS. Per migrare quantità di dati da petabyte a exabyte di dati in AWS tramite dispositivi fisici, puoi utilizzare i servizi AWS Snowball e AWS Snowmobile. Per far sì che le applicazioni locali archivino i dati direttamente in AWS, puoi utilizzare AWS Storage Gateway.  

Trasferimento dati in tempo reale

AWS offre diversi modi per ingerire, in tempo reale, i dati generati da nuove origini come siti Web, app mobili e dispositivi connessi a Internet. Per semplificare l'acquisizione e il caricamento di dati in streaming o di quelli di dispositivi IoT, è possibile utilizzare Amazon Kinesis Data Firehose, Amazon Kinesis Video Streams e AWS IoT Core.  

Data lake

Una volta preparati i dati per la migrazione verso il cloud, AWS ne semplifica l’archiviazione indipendentemente dal formato, in grande sicurezza e su vasta scala, con Amazon S3 e Amazon Glacier. Per facilitare agli utenti l’identificazione di dati rilevanti utilizzabili per le analisi, AWS Glue crea automaticamente un catalogo in cui gli utenti possono eseguire ricerche e query.

Per creare velocemente un data lake sicuro, consulta la sezione AWS Lake Formation.

Storage di oggetti

Amazon S3

Amazon S3 è uno storage di oggetti durevole, altamente scalabile e sicuro con una latenza di millisecondo per l'accesso ai dati. S3 è creato per memorizzare qualsiasi tipo di dati da qualsiasi origine: siti Web, app mobili, applicazioni aziendali e dati provenienti da dispositivi o sensori IoT. È disegnato per archiviare e recuperare qualsiasi volume di dati, con disponibilità ineguagliabile e creato da zero per offrire una durabilità del 99,9999999999% (11 nove). S3 Select analizza attentamente i dati letti e recuperati, riducendo i tempi di risposta fino al 400%. S3 offre funzionalità di sicurezza e conformità che soddisfano anche le normative e i requisiti più severi.  

Backup e archivio

Amazon Glacier

Amazon Glacier è uno storage sicuro, durevole ed estremamente economico per backup e archivi a lungo termine che accede ai dati in pochi minuti e, come Glacier Select, legge e recupera solo i dati necessari. È progettato per garantire una durabilità del 99,999999999% (11 nove) e funzionalità di sicurezza e conformità complete in grado di soddisfare anche le normative e i requisiti più severi. I clienti possono archiviare dati a soli 0,004 USD per gigabyte al mese: un risparmio notevole rispetto alle soluzioni in locale.

Catalogo dati

AWS Glue

AWS Glue è un servizio completamente gestito che offre un catalogo dati per renderli rilevabili nel data lake e vanta la capacità di estrarre, trasformare e caricare (ETL) i dati per prepararli per l'analisi. Il catalogo dati viene creato automaticamente come archivio di metadati permanente per tutte le risorse dati, rendendo tutti i dati ricercabili e interrogabili a colpo d’occhio.

Analisi

AWS offre il set di servizi analitici più ampio e vantaggioso economicamente eseguito nel data lake. Ogni servizio analitico è pensato per un'ampia gamma di casi di analisi tra cui analisi interattiva, elaborazione di Big Data con Apache Spark e Hadoop, data warehousing, analisi in tempo reale, analisi operativa, pannelli di controllo e visualizzazioni.

Per gestire l'accesso sicuro e self-service ai dati di un data lake per i servizi analitici, consulta la sezione AWS Lake Formation.

Analisi interattiva

Amazon Athena

Per l’analisi interattiva, Amazon Athena semplifica l'analisi di dati direttamente in S3 e Glacier tramite query SQL standard. AWS Glue è un servizio serverless, perciò non richiede la configurazione o la gestione di alcuna infrastruttura. Puoi iniziare a eseguire query sui dati all'istante, ottenere risultati in pochi secondi e pagare solo per il consumo effettivo. Basta indicare al servizio i dati salvati in Amazon S3, definire lo schema e iniziare a eseguire query utilizzando SQL standard. Nella maggior parte dei casi, i risultati sono disponibili in pochi secondi.  

Elaborazione di Big Data

Amazon EMR

Per l’elaborazione di Big Data con framework Spark e Hadoop, Amazon EMR offre un servizio gestito che rende l’elaborazione di grandi quantità di dati più semplice, rapida e vantaggiosa economicamente. Amazon EMR supporta 19 diversi progetti open source tra cui Hadoop, Spark, HBase e Presto, con notebook EMR gestiti per ingegneria dei dati, sviluppo della scienza dei dati e collaborazione. Ogni progetto viene aggiornato in EMR entro 30 giorni dal lancio di una versione, garantendo la disponibilità, senza alcuno sforzo, delle ultime e principali novità della community.

Data warehousing

Amazon Redshift

Per il data warehousing, Amazon Redshift consente di eseguire query analitiche complesse su petabyte di dati strutturati e include Redshift Spectrum che esegue query SQL direttamente su exabyte di dati strutturati o non strutturati in S3, senza il trasferimento di dati non necessari. Amazon Redshift offre un servizio a meno del decimo costo delle soluzioni tradizionali. Inizia in piccolo per soli 0,25 USD all'ora e dimensiona i petabyte di dati per 1.000 USD per terabyte all'anno.

Analisi in tempo reale

Amazon Kinesis

Per l'analisi in tempo reale, Amazon Kinesis semplifica la raccolta, l'elaborazione e l'analisi di dati in streaming quali dati di telemetria IoT, log di applicazioni e clickstream di siti Web. Questo ti consente di elaborare e analizzare i dati nel momento in cui arrivano nel tuo data lake, con risposte in tempo reale non ritardate dall'attesa che venga completata la ricezione delle informazioni.

Analisi operative

Amazon Elasticsearch Service

Per analisi operative come il monitoraggio delle applicazioni, l’analisi dei log e l’analisi dei clickstream, Amazon Elasticsearch Service ti consente di cercare, esplorare, filtrare, aggregare e visualizzare i tuoi dati quasi in tempo reale. Amazon Elasticsearch Service offre la possibilità di utilizzare le intuitive API e le funzionalità di analisi in tempo reale di Elasticsearch per ottenere la disponibilità, la scalabilità e la sicurezza necessarie per operare carichi di lavoro di produzione.

 

Pannelli di controllo e visualizzazioni

Amazon QuickSight

Per i pannelli di controllo e le visualizzazioni, Amazon QuickSight offre un servizio di analisi aziendale rapido e basato sul cloud, che semplifica la creazione di visualizzazioni straordinarie e pannelli di controllo avanzati accessibili da qualsiasi browser o dispositivo mobile.

 

Machine learning

Per i casi di utilizzo di analisi predittiva, AWS offre una vasto set di servizi di machine learning e strumenti che vengono eseguiti sul tuo data lake AWS. I nostri servizi nascono dalle conoscenze e dalle capacità create qui ad Amazon, dove il ML ha potenziato i motori di raccomandazione, la supply chain, le previsioni, i centri di distribuzione e la pianificazione della capacità di Amazon.com.  

Framework e interfacce

Per i professionisti e data scientist esperti di machine learning, AWS mette a disposizione le AMI di apprendimento approfondito di AWSche semplificano la creazione di modelli di apprendimento approfondito e di cluster con istanze GPU ottimizzate ML e DL. AWS supporta tutti i principali framework di machine learning, inclusi Apache MXNet, TensorFlow e Caffe2, per consentirti di utilizzare o sviluppare qualsiasi modello desiderato. Queste funzionalità garantiscono potenza, velocità ed efficienza ineguagliabili che sono in genere richieste dai carichi di lavoro di apprendimento approfondito e machine learning.

Servizi di piattaforma

Per gli sviluppatori che desiderano approfondire la conoscenza del ML, Amazon SageMaker è un servizio di piattaforma che semplifica l'intero processo di creazione, addestramento e distribuzione di modelli di machine learning. Il servizio offre tutto ciò che è necessario per connettersi ai dati di training, selezionare e ottimizzare i migliori algoritmi e framework, e distribuire il modello su cluster di dimensionamento automatico di Amazon EC2. Inoltre, SageMaker include i notebook Jupyter ospitati che semplificano la ricerca e la visualizzazione dei dati di apprendimento archiviati in Amazon S3.

Servizi applicativi

Per gli sviluppatori che desiderano integrare funzionalità di AI predefinite nelle proprie app, AWS offre API orientate alla soluzione per la visione computerizzata e l'elaborazione di linguaggio naturale. Questi servizi applicativi consentono agli sviluppatori di aggiungere intelligenza alle loro applicazioni senza dover sviluppare e addestrare i propri modelli.

Sempre più data lake e analisi basati su AWS rispetto a qualunque altro cloud

Perché optare per i data lake e analisi su AWS

Flessibilità e scelta

AWS offre il set più ampio di strumenti e motori di analisi che analizzano i dati utilizzando formati e standard aperti. È possibile archiviare i tuoi dati nel formato dati basato su standard di tua scelta (ad esempio CSV, ORC, Grok, Avro e Parquet) e usufruire della flessibilità analitica dell’andamento della giornata in vari modi (ad esempio tramite il data warehousing, le query SQL interattive, l’analisi in tempo reale e l’ elaborazione di Big Data). L'ampia gamma di servizi di analisi che puoi utilizzare con i tuoi dati in AWS, assicura che le tue esigenze siano soddisfatte per i tuoi casi d'uso di analisi attuali e futuri.

Scalabilità e disponibilità ineguagliabili

Amazon S3 è disegnato per archiviare e recuperare qualsiasi volume di dati, con disponibilità ineguagliabile e creato da zero per offrire una durabilità del 99,9999999999% (11 nove). È l'unica soluzione di storage in grado di archiviare i dati in più datacenter su tre zone di disponibilità all'interno di un'unica regione AWS, il che garantisce una resilienza senza confronti ai problemi di un singolo datacenter. Si tratta inoltre di una soluzione esclusiva di storage in grado di replicare con trasparenza i dati su tutte le regioni.

Altamente sicuro

S3 è l'unica piattaforma di storage nel cloud che consente di applicare policy di accesso,di log e di audit a livello di account e di oggetto. S3 fornisce crittografia automatica lato server, crittografia con chiavi gestite dal AWS Key Management Service (KMS) e crittografia con chiavi gestite dall'utente. S3 crittografa i dati in transito durante la replica su più regioni e consente di utilizzare account separati per regioni di origine e di destinazione, in modo da proteggerli da eliminazioni interne dannose. Per rilevare in modo proattivo le prime fasi di un attacco, Amazon Macie, un servizio di sicurezza basato su ML, monitora le attività di accesso ai dati per rilevare eventuali anomalie e genera avvisi dettagliati quando rileva il rischio di accesso non autorizzato o perdite involontarie di dati.

Costi contenuti

I data lake sono creati su AWS sono i più convenienti. I dati di utilizzo saltuario possono essere trasferiti in Amazon Glacier, che dispone di backup e archivi a lungo termine e a costi molto ridotti. Le funzionalità di gestione di Amazon S3 possono analizzare i modelli di accesso agli oggetti per trasferire i dati di utilizzo saltuario verso Glacier. Questa operazione avviene on demand o in modo automatico e in conformità con le policy del ciclo di vita. Amazon Athena consente di eseguire query sui dati al costo ridotto di 0,005 USD/GB per query. Altri servizi di analisi e machine learning presentano costi basati sul principio delle "tariffe in base al consumo effettivo" delle risorse utilizzate.

Prestazioni ottimali

I servizi analitici di AWS come Amazon Redshift e Amazon Athena sono stati creati per offrire prestazioni di query interattive e veloci in grado di supportare un volume elevato di query interattive simultanee. Durante l’esecuzione dei servizi analitici e di machine learning dell’ampio portfolio di AWS con Amazon S3 Select, vengono restituiti solo i sottoinsiemi di dati necessari all'interno degli oggetti. Questo si traduce in velocità di query fino al 400% e in costi notevolmente ridotti. Glacier Select offre una funzionalità simile che consente di recuperare i dati archiviati più rapidamente e di estendere la capacità analitica al tuo data lake per includere lo storage di archivio.  

 

La rete più ampia di partner

AWS Partner Network (APN) offre il doppio delle integrazioni di partner rispetto a qualunque altro programma, vantando decine di migliaia di partner, tra cui consulenti e fornitori di software indipendenti, provenienti da tutto il mondo. Ciò semplifica il lavoro e l'integrazione con molti di questi strumenti che usi e che tanto ti piacciono oggi. Data Lake Quick Start, sviluppato da architetti e partner di soluzioni AWS, ti aiuta a creare, testare e implementare soluzioni di data lake basate sulle best practice di AWS per garantire sicurezza e alta disponibilità, con pochi semplici passaggi. 

 

Inizia a usare AWS

Step 1 - Sign up for an AWS account

Registrati per creare un account AWS

Ottieni accesso istantaneo al piano gratuito di AWS
 
icon2

Crea un data lake sicuro in pochi giorni

Leggi la sezione AWS Lake Formation

 
icon3

Inizia a lavorare con AWS

Leggi la sezione Distribuire data lake su AWS

 

Inizia subito con i data lake in AWS

Distribuisci un data lake con AWS Quick Start
Hai altre domande?
Contattaci