Apache Spark è un sistema di elaborazione open source distribuito, utilizzato in genere con i carichi di lavoro per i Big Data. Apache Spark impiega un servizio di caching in memoria e di ottimizzazione che permette prestazioni elevate; inoltre supporta l'elaborazione generica in batch, l'analisi di flussi di dati, l'apprendimento automatico, i database a grafo e le query ad hoc. Ulteriori informazioni su Amazon Spark sono disponibili in questa pagina.

Amazon EMR offre il supporto nativo per Apache Spark; è possibile creare in modo semplice e veloce cluster Apache Spark tramite la Console di gestione AWS, l'interfaccia a riga di comando di AWS o l'API di Amazon EMR. È anche possibile sfruttare altre funzionalità di Amazon EMR, ad esempio le rapide connessioni di Amazon S3 tramite il file system di Amazon EMR o EMRFS, l'integrazione con il marketplace di istanze Spot di Amazon EC2 e il catalogo dati AWS Glue, nonché la funzione di Auto Scaling per aggiungere o rimuovere istanze dal cluster. Inoltre, è possibile utilizzare Apache Zeppelin per creare notebook interattivi e collaborativi per l'esplorazione di dati e utilizzare framework di apprendimento profondo quali Apache MXNet con le applicazioni Spark.

Caratteristiche e vantaggi

Prestazioni ottimali

Apache Spark consente di creare piani di query efficienti per la trasformazione dei dati utilizzando un motore di esecuzione di grafi aciclici diretti. Apache Spark, inoltre, memorizza dati in ingresso, in uscita e parziali in memoria come set di dati resilienti o RDD (Resilient Distributed Dataset), grazie ai quali le prestazioni di elaborazione di carichi di lavoro iterativi ed interattivi risultano migliori senza pesare sulle operazioni I/O.

Sviluppo di applicazioni più rapido

Apache Spark offre supporto nativo per Java, Scala e Python, perciò fornisce un'ampia libertà per quanto riguarda il linguaggio di programmazione delle applicazioni. È inoltre possibile inviare query SQL o HiveQL ad Apache Spark mediante il modulo Spark SQL. In aggiunta alle applicazioni in esecuzione, è possibile usare l'API di Apache Spark in modo interattivo con Python o Scala direttamente nella shell di Apache Spark nel cluster. È anche possibile avvalersi di Zeppelin per creare notebook interattivi e collaborativi per la visualizzazione e la navigazione nei dati. Inoltre, è possibile eseguire il debug e ottimizzare i carichi di lavoro usando la cronologia delle applicazioni Spark nella console di Amazon EMR o l'interfaccia utente nativa di Spark e il server della cronologia sul cluster.

Carichi di lavoro diversificati

Apache Spark include diverse librerie, che aiutano a creare applicazioni per apprendimento automatico (MLlib), elaborazione di flussi (Spark Streaming) ed elaborazione di grafi (GraphX). Queste librerie sono integrate nell'ecosistema di Apache Spark e possono essere impiegate senza ulteriori configurazioni per diversi casi d'uso. Inoltre, è possibile utilizzare framework di apprendimento profondo quali Apache MXNet con le applicazioni Spark.

Integrazione con le caratteristiche di Amazon EMR

È possibile avviare un processo di Apache Spark con l'API Step di Amazon EMR, utilizzare Apache Spark con EMRFS per accedere direttamente ai dati in Amazon S3, ridurre i costi utilizzando istanze Spot di Amazon EC2, impiegare Auto Scaling per aggiungere e rimuovere capacità in modo dinamico e avviare cluster temporanei o a lungo termine a seconda del carico di lavoro. È anche possibile configurare la crittografia tramite Spark e l'autenticazione tramite Kerberos con la massima semplicità mediante una configurazione di sicurezza di Amazon EMR. Inoltre, è possibile avvalersi del catalogo dati di AWS Glue per memorizzare i metadati della tabella Spark SQL o impiegare Amazon SageMaker in pipeline di apprendimento automatico Spark. Amazon EMR installa e gestisce Apache Spark in Hadoop YARN e consente di aggiungere al cluster altre applicazioni dell'ecosistema di Hadoop. Fai clic qui per ulteriori informazioni sulle caratteristiche di Amazon EMR.

Casi d'uso

Elaborazione in flussi

Acquisisci ed elabora dati in tempo reale da Amazon Kinesis, Apache Kafka o altri flussi di dati con Spark Streaming in Amazon EMR. Esegui analisi di flussi con tolleranza ai guasti e salvataggio dei risultati in Amazon S3 o HDFS su cluster.

Apprendimento automatico

Apache Spark in Amazon EMR include MLlib, che offre una serie di algoritmi scalabili di apprendimento automatico; in alternativa, potrai impiegare librerie personalizzate. Salvando i set di dati in memoria durante i processi, Spark ottiene prestazioni di alto livello per le query iterative, comuni nei carichi di lavoro di apprendimento automatico.

Interattività SQL

Usa Spark SQL per query interattive a bassa latenza con SQL o HiveQL. Apache Spark in Amazon EMR sfrutta EMRFS per offrire accesso ad hoc ai set di dati in Amazon S3. Sarà inoltre possibile utilizzare i notebook Zeppelin o gli strumenti di business intelligence tramite connessioni ODBC e JDBC.

Storie di successo

Yelp

Il team di Yelp che si occupa del pubblico delle inserzioni crea modelli predittivi per determinare le probabilità che un utente interagisca con un'inserzione. Utilizzando Apache Spark in Amazon EMR per elaborare grandi quantità di dati e alimentare modelli di apprendimento automatico, Yelp ha aumentato i guadagni e la percentuale di clic delle proprie inserzioni.

Washington Post

Il Washington post usa Apache Spark in Amazon EMR per creare modelli sui quali si basa il motore di raccomandazione del sito Web e migliorare il coinvolgimento e la soddisfazione dei lettori. Il quotidiano sfrutta la connettività di Amazon EMR con Amazon S3 per aggiornare i modelli quasi in tempo reale.

Intent Media

Intent Media dispone di una piattaforma per la gestione di inserzioni su siti di viaggi. I tecnici IT usano Apache Spark e MLlib in Amazon EMR per acquisire terabyte di dati di e-commerce ogni giorno e utilizzare queste informazioni per i servizi di posizionamento, ottimizzando i guadagni dei clienti. Fai clic qui per ulteriori informazioni

200x100_Krux-Digital_Logo

Krux

Krux impiega diversi carichi di lavoro di apprendimento automatico e generiche attività di elaborazione tramite Apache Spark per la propria piattaforma di gestione dei dati. Per risparmiare sui costi, Krux usa cluster Amazon EMR temporanei con istanze Spot di Amazon EC2, nonché Amazon S3 con EMRFS come layer dati per Apache Spark.

Scopri di più »

200x100_GumGum_Logo

GumGum

GumGum, una piattaforma pubblicitaria di annunci illustrati e pop-up, usa Spark in Amazon EMR per eseguire previsioni di inventario, elaborare log di clickstream e completare analisi ad hoc di dati non strutturati in Amazon S3. Il miglioramento alle prestazioni garantito da Spark ha consentito a GumGum di risparmiare tempo e denaro nei propri flussi di lavoro.

Scopri di più »

200x100-hearst

Hearst Corporation

Hearst Corporation è una grande società che opera nel settore multimediale e dell'informazione con oltre 200 siti Web di proprietà. Grazie ad Apache Spark Streaming in Amazon EMR, la redazione di Hearst è in grado di monitorare in tempo reale la popolarità dei singoli articoli.

Scopri di più »

200x100_CrowdStrike_Logo

CrowdStrike

CrowdStrike fornisce protezione dagli attacchi informatici per endpoint. Utilizza Amazon EMR con Spark per elaborare centinaia di terabyte di dati di eventi e riassumerli in descrizioni comportamentali di alto livello sugli host. A partire dai dati, CrowdStrike è in grado di analizzare gli eventi che si verificano e identificare la presenza di attività pericolose.

Scopri di più »

Ulteriori informazioni sui prezzi di Amazon EMR

Visita la pagina dei prezzi
Tutto pronto per cominciare?
Inizia a usare Amazon EMR
Hai altre domande?
Contattaci