Data lake e analisi su AWS

Il modo più rapido per ricavare risposte da tutti i tuoi dati per tutti i tuoi utenti

AWS dispone di una suite di servizi integrata che offre tutto il necessario per la creazione e la gestione di un data lake per l’analisi, il tutto in modo veloce e semplice. I data lake alimentati da AWS sono in grado di gestire la scalabilità, la flessibilità e l'agilità richieste per combinare diversi tipi di dati e approcci analitici al fine di acquisire informazioni più dettagliate. Tali approcci non sarebbero possibili con i silos di dati tradizionali e i data warehousing. AWS offre ai clienti la più ampia gamma di servizi analitici e di machine learning, con accesso semplice a tutti i dati rilevanti, senza comprometterne la sicurezza o la governance.

AWS offre più organizzazioni con data lake e analisi di qualsiasi altro servizio. Clienti come NASDAQ, Zillow, Yelp, iRobot e FINRA si affidano a AWS per eseguire i carichi di lavoro analitici business critical.

Data lake e analisi su AWS

Data lake e analisi su AWS

Per creare la soluzione di data lake e analisi, AWS vanta il set di servizi più completo per trasferire, archiviare e analizzare i dati.

aws-datalake-diagram-simplified

Trasferimento dati

Importa i tuoi dati in tempo reale da ambienti in locale.

Data lake

Archivia in sicurezza dati di qualsiasi dimensione (da gigabyte a exabyte).

Analisi

Analizza i tuoi dati con la più vasta selezione di servizi di analisi.

Machine learning

Prevedi i risultati futuri e prescrivi azioni per una risposta rapida.

Perché optare per i data lake e le analisi su AWS?

Data lake facili da creare

Crea un data lake sicuro in pochi giorni anziché in medi. La nostra esperienza di collaborazione con decine di migliaia di clienti per creare data lake produttivi ci ha permesso di facilitare ogni aspetto dell’analisi dei dati nel cloud. AWS Lake Formation, ad esempio, automatizza i passaggi manuali necessari per creare un data lake e fornisce un unico meccanismo di sicurezza per tutti i tuoi dati, affinché tu possa dedicare meno tempo al pesante lavoro indifferenziato necessario per creare un data lake e più tempo ad esplorare i tuoi dati per ottenere risposte alle domande più importanti.

La prestazione migliore al costo più basso

AWS è l’ambiente più rapido e conveniente per archiviare e analizzare i dati. Amazon S3, ad esempio, fornisce cinque classi di storage e la gestione automatica del ciclo di vita dei dati affinché tu paghi soltanto per ciò che serve ai tuoi dati in base a come i dati vengono utilizzati. Redshift è 3 volte più veloce di qualsiasi altro data warehouse nel cloud e ogni anno aumenta la sua rapidità. Amazon EMR assicura l’ambiente più veloce per eseguire i carichi di lavoro di Apache Spark e Apache HIVE nel cloud. L’integrazione profonda di EMR con il resto di AWS facilita il beneficio apportato dalle potenzialità di risparmio, come le istanze Spot EC2, per ridurre i costi fino al 90%.

Estremamente completo e aperto

Avere tutti i dati rinchiusi in un unico servizio di analisi isolato non è più proponibile. La moderna analisi richiede un insieme di strumenti e approcci diversi, tra cui SQL, R, Scala, Jupyter e Python per avere le informazioni utili giuste e le risposte tramite una vasta gamma di linguaggi. AWS fornisce un insieme maturo e completo di servizi di analisi che vengono eseguiti a fronte del data lake aperto affinché tu possa utilizzare lo strumento giusto per il lavoro giusto senza dover spostare o trasformare i dati per ciascun approccio analitico diverso. Tutti i nostri servizi supportano l’accesso ai dati archiviati in un unico spazio di archiviazione di oggetti (S3) con API aperte, in formati aperti (ad es. Apache Paquet, Apache ORC, Apache Avro) e utilizzando motori proprietari (Redshift per il data warehouse) e aperti (ad es. Spark, Hive). 

Maggiore sicurezza

Mantenere protetti i propri dati e garantire la conformità alle normative pertinenti è fondamentale. AWS fornisce un insieme completo di strumenti che vanno al di là della funzionalità di sicurezza standard come la crittografia e il controllo di accesso al monitoraggio proattivo e la gestione unificata delle policy di sicurezza. Amazon Macie, ad esempio, consente di monitorare il tuo data lake per garantire che tu non esponga accidentalmente credenziali o informazioni che consentono l’identificazione personale. Amazon Inspector ti permette di implementare le best practice e di identificare i problemi di configurazione che potrebbero essere sfruttati, mentre AWS Lake Formation ti consente di controllare in modo uniforme l’accesso ai dati nel tuo data lake su tutti i servizi di analisi. 

Trasferimento dati

Il primo passo per creare data lake su AWS è migrare i dati nel cloud. Le limitazioni fisiche della larghezza di banda e delle velocità di trasferimento riducono la capacità di migrare dati senza incorrere in gravi errori, costi elevati e tempi eccessivi. AWS offre la più vasta gamma di opzioni di migrazione al cloud che consentono di trasferire dati in modo semplice e flessibile.

Per creare operazioni ETL e ML Transforms per il tuo data lake, consulta la sezione AWS Lake Formation.

Trasferimento dati in locale

AWS offre diversi modi per trasferire i dati dal tuo datacenter ad AWS. L’utilizzo di AWS Direct Connect consente la creazione di una connessione di rete dedicata tra la tua rete e AWS. Per migrare quantità di dati da petabyte a exabyte di dati in AWS tramite dispositivi fisici, puoi utilizzare i servizi AWS Snowball e AWS Snowmobile. Per far sì che le applicazioni locali archivino i dati direttamente in AWS, puoi utilizzare AWS Storage Gateway.  

Trasferimento dati in tempo reale

AWS offre diversi modi per ingerire, in tempo reale, i dati generati da nuove origini come siti Web, app mobili e dispositivi connessi a Internet. Per semplificare l'acquisizione e il caricamento di dati in streaming o di quelli di dispositivi IoT, è possibile utilizzare Amazon Kinesis Data Firehose, Amazon Kinesis Video Streams e AWS IoT Core.  

Data lake

Una volta preparati i dati per la migrazione verso il cloud, AWS ne semplifica l’archiviazione indipendentemente dal formato, in grande sicurezza e su vasta scala, con Amazon S3 e Amazon Glacier. Per facilitare agli utenti l’identificazione di dati rilevanti utilizzabili per le analisi, AWS Glue crea automaticamente un catalogo in cui gli utenti possono eseguire ricerche e query.

Per creare velocemente un data lake sicuro, consulta la sezione AWS Lake Formation.

Storage di oggetti

Amazon S3

Amazon S3 è uno storage di oggetti durevole, altamente scalabile e sicuro con una latenza di millisecondo per l'accesso ai dati. S3 è creato per memorizzare qualsiasi tipo di dati da qualsiasi origine: siti Web, app mobili, applicazioni aziendali e dati provenienti da dispositivi o sensori IoT. È disegnato per archiviare e recuperare qualsiasi volume di dati, con disponibilità ineguagliabile e creato da zero per offrire una durabilità del 99,9999999999% (11 nove). S3 Select analizza attentamente i dati letti e recuperati, riducendo i tempi di risposta fino al 400%. S3 offre funzionalità di sicurezza e conformità che soddisfano anche le normative e i requisiti più severi.  

Backup e archivio

Amazon Glacier

Amazon Glacier è uno storage sicuro, durevole ed estremamente economico per backup e archivi a lungo termine che accede ai dati in pochi minuti e, come Glacier Select, legge e recupera solo i dati necessari. È progettato per garantire una durabilità del 99,999999999% (11 nove) e funzionalità di sicurezza e conformità complete in grado di soddisfare anche le normative e i requisiti più severi. I clienti possono archiviare dati a soli 0,004 USD per gigabyte al mese: un risparmio notevole rispetto alle soluzioni in locale.

Catalogo dati

AWS Glue

AWS Glue è un servizio completamente gestito che offre un catalogo dati per renderli rilevabili nel data lake e vanta la capacità di estrarre, trasformare e caricare (ETL) i dati per prepararli per l'analisi. Il catalogo dati viene creato automaticamente come archivio di metadati permanente per tutte le risorse dati, rendendo tutti i dati ricercabili e interrogabili a colpo d’occhio.

Analisi

AWS offre il set di servizi analitici più ampio e vantaggioso economicamente eseguito nel data lake. Ogni servizio analitico è pensato per un'ampia gamma di casi di analisi tra cui analisi interattiva, elaborazione di Big Data con Apache Spark e Hadoop, data warehousing, analisi in tempo reale, analisi operativa, pannelli di controllo e visualizzazioni.

Per gestire l'accesso sicuro e self-service ai dati di un data lake per i servizi analitici, consulta la sezione AWS Lake Formation.

Analisi interattiva

Amazon Athena

Per l’analisi interattiva, Amazon Athena semplifica l'analisi di dati direttamente in S3 e Glacier tramite query SQL standard. AWS Glue è un servizio serverless, perciò non richiede la configurazione o la gestione di alcuna infrastruttura. Puoi iniziare a eseguire query sui dati all'istante, ottenere risultati in pochi secondi e pagare solo per il consumo effettivo. Basta indicare al servizio i dati salvati in Amazon S3, definire lo schema e iniziare a eseguire query utilizzando SQL standard. Nella maggior parte dei casi, i risultati sono disponibili in pochi secondi.  

Elaborazione di Big Data

Amazon EMR

Per l’elaborazione di Big Data con framework Spark e Hadoop, Amazon EMR offre un servizio gestito che rende l’elaborazione di grandi quantità di dati più semplice, rapida e vantaggiosa economicamente. Amazon EMR supporta 19 diversi progetti open source tra cui Hadoop, Spark, HBase e Presto, con notebook EMR gestiti per ingegneria dei dati, sviluppo della scienza dei dati e collaborazione. Ogni progetto viene aggiornato in EMR entro 30 giorni dal lancio di una versione, garantendo la disponibilità, senza alcuno sforzo, delle ultime e principali novità della community.

Data warehousing

Amazon Redshift

Per il data warehousing, Amazon Redshift consente di eseguire query analitiche complesse su petabyte di dati strutturati e include Redshift Spectrum che esegue query SQL direttamente su exabyte di dati strutturati o non strutturati in S3, senza il trasferimento di dati non necessari. Amazon Redshift offre un servizio a meno del decimo costo delle soluzioni tradizionali. Inizia in piccolo per soli 0,25 USD all'ora e dimensiona i petabyte di dati per 1.000 USD per terabyte all'anno.

Analisi in tempo reale

Amazon Kinesis

Per l'analisi in tempo reale, Amazon Kinesis semplifica la raccolta, l'elaborazione e l'analisi di dati in streaming quali dati di telemetria IoT, log di applicazioni e clickstream di siti Web. Questo ti consente di elaborare e analizzare i dati nel momento in cui arrivano nel tuo data lake, con risposte in tempo reale non ritardate dall'attesa che venga completata la ricezione delle informazioni.

Analisi operative

Amazon Elasticsearch Service

Per analisi operative come il monitoraggio delle applicazioni, l’analisi dei log e l’analisi dei clickstream, Amazon Elasticsearch Service ti consente di cercare, esplorare, filtrare, aggregare e visualizzare i tuoi dati quasi in tempo reale. Amazon Elasticsearch Service offre la possibilità di utilizzare le intuitive API e le funzionalità di analisi in tempo reale di Elasticsearch per ottenere la disponibilità, la scalabilità e la sicurezza necessarie per operare carichi di lavoro di produzione.

 

Pannelli di controllo e visualizzazioni

Amazon QuickSight

Per i pannelli di controllo e le visualizzazioni, Amazon QuickSight offre un servizio di analisi aziendale rapido e basato sul cloud, che semplifica la creazione di visualizzazioni straordinarie e pannelli di controllo avanzati accessibili da qualsiasi browser o dispositivo mobile.

 

Machine learning

Per i casi di utilizzo di analisi predittiva, AWS offre una vasto set di servizi di machine learning e strumenti che vengono eseguiti sul tuo data lake AWS. I nostri servizi nascono dalle conoscenze e dalle capacità create qui ad Amazon, dove il ML ha potenziato i motori di raccomandazione, la supply chain, le previsioni, i centri di distribuzione e la pianificazione della capacità di Amazon.com.  

Framework e interfacce

Per i professionisti e data scientist esperti di machine learning, AWS mette a disposizione le AMI di apprendimento approfondito di AWSche semplificano la creazione di modelli di apprendimento approfondito e di cluster con istanze GPU ottimizzate ML e DL. AWS supporta tutti i principali framework di machine learning, inclusi Apache MXNet, TensorFlow e Caffe2, per consentirti di utilizzare o sviluppare qualsiasi modello desiderato. Queste funzionalità garantiscono potenza, velocità ed efficienza ineguagliabili che sono in genere richieste dai carichi di lavoro di apprendimento approfondito e machine learning.

Servizi di piattaforma

Per gli sviluppatori che desiderano approfondire la conoscenza del ML, Amazon SageMaker è un servizio di piattaforma che semplifica l'intero processo di creazione, addestramento e distribuzione di modelli di machine learning. Il servizio offre tutto ciò che è necessario per connettersi ai dati di training, selezionare e ottimizzare i migliori algoritmi e framework, e distribuire il modello su cluster di dimensionamento automatico di Amazon EC2. Inoltre, SageMaker include i notebook Jupyter ospitati che semplificano la ricerca e la visualizzazione dei dati di apprendimento archiviati in Amazon S3.

Servizi applicativi

Per gli sviluppatori che desiderano integrare funzionalità di AI predefinite nelle proprie app, AWS offre API orientate alla soluzione per la visione computerizzata e l'elaborazione di linguaggio naturale. Questi servizi applicativi consentono agli sviluppatori di aggiungere intelligenza alle loro applicazioni senza dover sviluppare e addestrare i propri modelli.

Sempre più data lake e analisi basati su AWS rispetto a qualunque altro cloud

Inizia a usare AWS

Step 1 - Sign up for an AWS account

Registrati per creare un account AWS

Ottieni accesso istantaneo al piano gratuito di AWS
 
icon2

Crea un data lake sicuro in pochi giorni

Leggi la sezione AWS Lake Formation

 
icon3

Inizia a lavorare con AWS

Leggi la sezione Distribuire data lake su AWS

 
Hai altre domande?
Contattaci