Presto è un motore di query SQL open source distribuito per l'analisi di dati ad hoc a bassa latenza. Supporta lo standard SQL ANSI, incluse query complesse, aggregazioni, join e funzioni finestra. Presto è in grado di elaborare dati da una moltitudine di origini di dati, incluso il file system distribuito Hadoop (HDFS) e Amazon S3.

Per creare in modo rapido e veloce cluster Presto, usa Console di gestione AWS, interfaccia a riga di comando o API di Amazon EMR. Inoltre, potrai sfruttare le caratteristiche aggiuntive di EMR, tra cui connettività ad alta velocità con Amazon S3, integrazione con le istanze Spot di Amazon EC2, un'ampia gamma di istanze Amazon EC2 (tra cui istanze ottimizzate per la memoria) e comandi di ricalibrazione delle risorse per aggiungere o rimuovere istanze dal cluster. 

PrestoLogo_withText

Inizia a usare Presto in Amazon EMR

Crea un account gratuito

Serve assistenza? Scrivici!

Come Analizzare dati con Presto e Airpal in Amazon EMR, scritto da Songzhi Liu, consulente per i servizi professionali di AWS.

 


S3_Sketch_Available

Presto si avvale di un motore di esecuzione di query personalizzato, con operatori progettati per supportare la semantica SQL. A differenza di Hive/MapReduce, Presto esegue le query in memoria, in una pipeline che attraversa la rete tra le diverse fasi, evitando traffico I/O superfluo. Il modello di esecuzione in pipeline permette di eseguire diverse fasi in parallelo, inviando flussi di dati da una fase all'altra non appena sono disponibili. 

S3_Sketch_HighPerformance

Un cluster EMR con Presto può essere avviato in pochi minuti. Non dovrai preoccuparti per il provisioning dei nodi né per configurazione, impostazione o tuning del cluster. Di tutto questo si occupa Amazon EMR. Potrai anche impiegare strumenti quali Airpal, uno strumento open source di esecuzione di query basato sul Web creato da Airbnb. L'interfaccia utente di Airpal semplifica la consultazione e l'analisi ad hoc dei dati, supportando caratteristiche quali evidenziazione della sintassi, esportazione dei risultati in CSV, memorizzazione delle query per utilizzo futuro ed esplorazione delle tabelle per la visualizzazione degli schemi.

S3_Sketch_Simple

Esegui query interattive che accedono direttamente ai dati in Amazon S3, risparmia utilizzando istanze Spot di Amazon EC2, impiega Auto Scaling per aggiungere e rimuovere capacità in modo dinamico e avvia cluster a lungo o breve termine in base al carico di lavoro. Potrai anche aggiungere altre applicazioni dell'ecosistema Hadoop nel cluster.

Benefit_Workflow_Green

Presto supporta lo standard SQL ANSI, che facilita il lavoro di data analyst e sviluppatori nella creazione di query per dati sia strutturati sia non strutturati su vasta scala. Al momento, Presto supporta un'ampia gamma di funzionalità SQL, incluse query complesse, aggregazioni, join e funzioni finestra.


Netflix ha scelto Presto come motore di query interattivo conforme allo standard SQL ANSI per i Big data. Presto offre una scalabilità ottimale, è open source e si integra con Hive Metastore e Amazon S3, i mattoni fondamentali dell'ambiente di data warehousing per i Big Data di Netflix. Presto viene eseguito su cluster persistenti di Amazon EMR, in modo da garantire query rapide e flessibili su un datastore in Amazon S3 delle dimensioni di quasi 25 PB. Netflix contribuisce attivamente a Presto, e Amazon EMR offre a Netflix la flessibilità necessaria per eseguire le proprie build di Presto in cluster Amazon EMR. In media, Netflix esegue circa 3.500 query al giorno su cluster Presto. 

Jampp è una piattaforma di marketing per applicazioni per dispositivi mobili che impiega tecniche di retargeting pubblicitario avanzate per fidelizzare gli utenti alle applicazioni. Per farlo, acquista supporti per dispositivi mobili tramite il proprio motore di inoltro di offerte in tempo reale o RTB (Real-Time Bidding) basato sulle conversioni, che acquisisce automaticamente l'inventario necessario tramite 18 RTB e oltre 150 reti pubblicitarie per dispositivi mobili. Jampp esegue Presto in Amazon EMR per ottenere analisi avanzata di log ad hoc, aggregando dati da diverse origini e complessi calcoli per i segmenti di retargeting. La domanda di query analitiche complesse è aumentata del 600%, di pari passo con l'aumento di utenti. Jampp ha quindi abbandonato il precedente approccio, ovvero un'applicazione multi-core complessa in Python su MySQL, migliorando di 12 volte le proprie prestazioni passando a Presto. Al momento, Jampp impiega Presto in Amazon EMR per elaborare 40 TB di dati al giorno.

In qualità di incubatore d'impresa, Cogo Labs esegue una piattaforma di analisi di marketing e business intelligence utilizzata da clienti e team interni. Per supportare un ambiente OLAP che consenta una rapida innovazione, è stato deciso che l'interazione standard con i dati doveva essere eseguita in SQL. Cogo Labs ha così scelto Presto per le prestazioni delle query in tempo reale, il supporto per lo standard SQL ANSI e la possibilità di elaborare dati direttamente in Amazon S3. L'esecuzione di Presto in Amazon EMR consente agli oltre 100 sviluppatori e analyst di eseguire query SQL sugli oltre 500 TB di dati memorizzati in Amazon S3 per visualizzazione dei dati, analisi ad hoc e reportistica. Cogo Labs impiega una combinazione di cluster a breve e a lungo termine e riduce i costi operativi grazie all'integrazione di Amazon EMR con istanze Spot.

OpenSpan fornisce soluzioni per automazione e intelligence che facilitano la creazione di ponti tra persone, processi e tecnologie per analizzare la produttività dei dipendenti, semplificare le transazioni e fidelizzare dipendenti e clienti. OpenSpan ha eseguito la migrazione da HBase a Presto in Amazon EMR memorizzando i dati in Amazon S3. Ha scelto Presto per la sua interfaccia SQL e la possibilità di eseguire query sui dati in tempo reale direttamente da Amazon S3; in questo modo può esplorare rapidamente grandi volumi di dati ed eseguire le stesse operazioni su nuovi dati. OpenSpan impiega il formato di file parquet e usa PrestogreSQL per connettersi a Presto. Ha scelto Amazon EMR ed Amazon S3 per elaborare i gigabyte di dati che riceve ogni giorno dai propri clienti tenendo sotto controllo i costi.

Kanmu è una start-up giapponese che opera nel settore dei servizi finanziari e fornisce offerte basate sull'utilizzo delle carte di credito. Ha eseguito la migrazione da Hive utilizzando Presto in Amazon EMR per l'abilità di Presto di eseguire analisi esplorative e iterative in modo interattivo, per le prestazioni ottimali con Amazon S3 e per la scalabilità che permette di eseguire query su set di dati di grandi dimensioni. Kanmu usa Fluentd-plugin-s3 per il push dei dati in Amazon S3, il formato ORC (Optimized Row Columnar) per memorizzare i dati e shib, un client Web basato su node.js per l'esecuzione di query SQL.



  1. Lancia un cluster Amazon EMR con Presto e Airpal
  2. Scopri come configurare presto in Amazon EMR