Apache Spark è un sistema di elaborazione open source distribuito utilizzato in genere con i carichi di lavoro per i Big Data. Apache Spark impiega un servizio di caching in memoria e di ottimizzazione che permette prestazioni elevate; inoltre supporta l'elaborazione generica in batch, l'analisi di flussi di dati, l'apprendimento automatico, i database a grafo e le query ad hoc. 

Amazon EMR offre il supporto nativo per Apache Spark in Hadoop YARN; è possibile creare in modo semplice e veloce cluster Apache Spark tramite la Console di gestione AWS, l'interfaccia a riga di comando di AWS o l'API di Amazon EMR. È anche possibile sfruttare altre funzionalità di Amazon EMR, ad esempio le rapide connessioni di Amazon S3 tramite il file system di Amazon EMR o EMRFS, l'integrazione con il marketplace di istanze Spot di Amazon EC2 e i comandi di ricalibrazione delle risorse per aggiungere o rimuovere istanze dal cluster. Inoltre, è possibile utilizzare Apache Zeppelin per creare notebook interattivi e collaborativi per la visualizzazione dei dati tramite Apache Spark.

Apache Spark consente di creare piani di query efficienti per la trasformazione dei dati utilizzando un motore di esecuzione di grafi aciclici diretti. Apache Spark, inoltre, memorizza dati in ingresso, in uscita e parziali in memoria come set di dati resilienti o RDD (Resilient Distributed Dataset), grazie ai quali le prestazioni di elaborazione di carichi di lavoro iterativi ed interattivi risultano migliori senza pesare sulle operazioni I/O.

Apache Spark offre supporto nativo per Java, Scala e Python, perciò fornisce un'ampia libertà per quanto riguarda il linguaggio di programmazione delle applicazioni. È inoltre possibile inviare query SQL o HiveQL ad Apache Spark mediante il modulo Spark SQL. In aggiunta alle applicazioni in esecuzione, è possibile usare l'API di Apache Spark in modo interattivo con Python o Scala direttamente nella shell di Apache Spark nel cluster. Puoi anche sfruttare Zeppelin per creare notebook interattivi e collaborativi per la visualizzazione e la navigazione nei dati.

Apache Spark include diverse librerie, che aiutano a creare applicazioni per applicazioni di apprendimento automatico (MLlib), elaborazione di flussi (Spark Streaming) ed elaborazione di grafi (GraphX). Queste librerie sono integrate nell'ecosistema di Apache Spark e possono essere impiegate senza ulteriori configurazioni per diversi casi d'uso.

È possibile avviare un processo di Apache Spark con l'API Step di Amazon EMR, utilizzare Apache Spark con EMRFS per accedere direttamente ai dati in Amazon S3, ridurre i costi utilizzando istanze Spot di Amazon EC2 e avviare cluster temporanei o a lungo termine a seconda del carico di lavoro. Amazon EMR installa e gestisce Apache Spark in Hadoop YARN e consente di aggiungere al cluster altre applicazioni dell'ecosistema di Hadoop. Fai clic qui per ulteriori informazioni sulle caratteristiche di Amazon EMR.


Yelp

Il team di Yelp che si occupa del pubblico delle inserzioni crea modelli predittivi per determinare le probabilità che un utente interagisca con un'inserzione. Utilizzando Apache Spark in Amazon EMR per elaborare grandi quantità di dati e alimentare modelli di apprendimento automatico, Yelp ha aumentato i guadagni e la percentuale di clic delle proprie inserzioni.

Washington Post

Il Washington post usa Apache Spark in Amazon EMR per creare modelli sui quali si basa il motore di raccomandazione del sito Web e migliorare il coinvolgimento e la soddisfazione dei lettori. Il quotidiano sfrutta la connettività di Amazon EMR con Amazon S3 per aggiornare i modelli quasi in tempo reale.

Intent Media

Intent Media dispone di una piattaforma per la gestione di inserzioni su siti di viaggi. I tecnici IT usano Apache Spark e MLlib in Amazon EMR per acquisire terabyte di dati di e-commerce ogni giorno e utilizzare queste informazioni per i servizi di posizionamento, ottimizzando i guadagni dei clienti. Fai clic qui per ulteriori informazioni.

Krux

Krux impiega diversi carichi di lavoro di apprendimento automatico e generiche attività di elaborazione tramite Apache Spark per la propria piattaforma di gestione dei dati. Per risparmiare sui costi, Krux usa cluster Amazon EMR temporanei con istanze Spot di Amazon EC2, nonché Amazon S3 con EMRFS come layer dati per Apache Spark.

Scopri di più >>

GumGum

GumGum, una piattaforma pubblicitaria di annunci illustrati e pop-up, usa Spark in Amazon EMR per eseguire previsioni di inventario, elaborare log di clickstream e completare analisi ad hoc di dati non strutturati in Amazon S3. Il miglioramento alle prestazioni garantito da Spark ha consentito a GumGum di risparmiare tempo e denaro nei propri flussi di lavoro.

Scopri di più >>

Hearst Corporation

Hearst Corporation è una grande società che opera nel settore multimediale e dell'informazione con oltre 200 siti Web di proprietà. Grazie ad Apache Spark Streaming in Amazon EMR, la redazione di Hearst è in grado di monitorare in tempo reale la popolarità dei singoli articoli.

CrowdStrike

CrowdStrike fornisce protezione dagli attacchi informatici per endpoint. Utilizza Amazon EMR con Spark per elaborare centinaia di terabyte di dati di eventi e riassumerli in descrizioni comportamentali di alto livello sugli host. A partire dai dati, CrowdStrike è in grado di analizzare gli eventi che si verificano e identificare la presenza di attività pericolose.

Scopri di più >>


Acquisisci ed elabora dati in tempo reale da Amazon Kinesis, Apache Kafka o altri flussi di dati con Spark Streaming in Amazon EMR. Esegui analisi di flussi con tolleranza ai guasti e salvataggio dei risultati in Amazon S3 o HDFS su cluster.

 

Apache Spark in Amazon EMR include MLlib, che offre una serie di algoritmi scalabili di apprendimento automatico; in alternativa, potrai impiegare librerie personalizzate. Salvando i set di dati in memoria durante i processi, Spark ottiene prestazioni di alto livello per le query iterative, comuni nei carichi di lavoro di apprendimento automatico.

Usa Spark SQL per query interattive a bassa latenza con SQL o HiveQL. Apache Spark in Amazon EMR sfrutta EMRFS per offrire accesso ad hoc ai set di dati in Amazon S3. Potrai inoltre utilizzare i notebook Zeppelin o gli strumenti di business intelligence tramite connessioni ODBC e JDBC.