Presto es un motor de consultas SQL distribuidas de código abierto optimizado para análisis de datos ad hoc de baja latencia. Es compatible con el estándar ANSI SQL, incluidas las consultas complejas, las agregaciones, las uniones y las funciones de ventana. Presto puede procesar datos procedentes de diversos orígenes de datos, incluidos Hadoop Distributed File System (HDFS) y Amazon S3.

Puede crear rápida y fácilmente clústeres de Presto administrados a partir de la consola de administración de AWS, la CLI de AWS o la API de Amazon EMR. Además, puede utilizar las características adicionales de Amazon EMR, incluida la conexión rápida a Amazon S3, la integración con instancias Amazon EC2 Spot, la elección de una amplia variedad de instancias Amazon EC2, incluidas las instancias con memoria optimizada, y ajustar el tamaño de los comandos para añadir o eliminar fácilmente instancias del clúster. 

PrestoLogo_withText

Introducción a Presto en Amazon EMR

Cree una cuenta gratuita

¿Necesita ayuda? ¡Pregúntenos!

How to Analyze Data with Presto and Airpal on Amazon EMR por Songzhi Liu, asesor de servicios profesionales de AWS.

 


S3_Sketch_Available

Presto usa un motor de ejecución de consultas personalizadas con operadores diseñados para admitir la semántica de SQL. A diferencia de Hive/MapReduce, Presto ejecuta consultas en memoria, canalizadas mediante la red entre etapas, lo que evita E/S innecesarias. El modelo de ejecución canalizada ejecuta varias etapas en paralelo y transmite datos de una etapa a la siguiente a medida que están disponibles. 

S3_Sketch_HighPerformance

Puede lanzar un clúster de Amazon EMR con Presto en cuestión de minutos. No hay que preocuparse por el aprovisionamiento de nodos, la disposición del clúster, la configuración ni el ajuste del clúster. Amazon EMR se encarga de estas tareas para que usted pueda centrarse en los análisis. También puede usar herramientas como Airpal, una herramienta de ejecución de consultas basada en la Web que Airbnb suministra con código abierto. La interfaz de usuario de Airpal simplifica la exploración de datos y el análisis ad hoc y admite características como resaltado de sintaxis, la capacidad para exportar resultados a formato CSV, guardar consultas para uso posterior y la capacidad para explorar tablas con el fin de visualizar esquemas.

S3_Sketch_Simple

Ejecute consultas interactivas que accedan de manera directa a los datos de Amazon S3, ahorre costos con la capacidad de instancias de Amazon EC2 Spot, use Auto Scaling para añadir y eliminar de manera dinámica capacidad y lance clústeres de ejecución prolongada o transitorios que se adapten a su carga de trabajo. También puede añadir otras aplicaciones del ecosistema Hadoop en su clúster.

Benefit_Workflow_Green

Presto es compatible con el estándar ANSI SQL, que les facilita a los desarrolladores y analistas de datos realizar consultas tanto en datos estructurados como no estructurados a escala. En la actualidad, Presto es compatible con una amplia variedad de funcionalidades de SQL, incluidas consultas complejas, agregaciones, uniones y funciones de ventana.


Netflix eligió a Presto como su motor de consultas interactivas compatibles con ANSI-SQL para big data. Presto se escala correctamente, es de código abierto y se integra con Hive Metastore y Amazon S3, la estructura base del entorno de almacenamiento de big data de Netflix. Netflix ejecuta Presto en clústeres de Amazon EMR persistentes para realizar consultas de manera rápida y flexible en un almacenamiento de datos de Amazon S3 de ~25 PB. Netflix es un contribuyente activo de Presto, y Amazon EMR le ofrece a Netflix la flexibilidad necesaria para ejecutar su propia compilación de Presto en clústeres de Amazon EMR. En promedio, Netflix ejecuta ~3 500 consultas diarias en sus clústeres de Presto. 

Jampp es una plataforma de marketing de aplicaciones móviles que usa técnicas avanzadas de refocalización de publicidades para dirigir a usuarios activos a aplicaciones. Jampp lo logra mediante la compra de inventarios de medios móviles a través de su propio motor de subasta en tiempo real (RTB) basado en conversión, que subasta de manera dinámica sobre inventario en 18 intercambios de RTB y en más de 150 redes de publicidad móviles. Jampp utiliza Presto en ejecución en Amazon EMR para realizar análisis ad hoc avanzados, combinaciones de datos de varias fuentes y refocalizaciones complejas de cálculos de segmentos. Así como la base de usuarios de Jampp creció un 600%, también lo hizo la demanda de consultas de análisis complejas. Jampp pasó de ejecutar un aplicación Python compleja de varios núcleos en MySQL a ejecutar Presto, lo que resultó en un rendimiento 12 veces superior. En la actualidad, Jampp usa Presto en Amazon EMR para procesar 40 TB de datos por día.

Como incubadora de startups, Cogo Labs usa una plataforma para inteligencia de negocios y análisis de marketing que utilizan compañías de su cartera y equipos internos. Para poder admitir un entorno OLAP con un alto índice de innovación, estandarizaron a SQL para poder interactuar con datos. Cogo Labs eligió Presto para obtener rendimiento de consultas en tiempo real, compatibilidad con ANSI-SQL y capacidad para procesar datos directamente desde Amazon S3. Presto en ejecución en Amazon EMR les permite a más de 100 desarrolladores y analistas ejecutar consultas SQL en más de 500 TB almacenados en Amazon S3 para realizar exploraciones de datos, análisis ad hoc e informes. Cogo Labs usa una combinación de clústeres de duración limitada y permanentes y confía en la integración de Amazon EMR con instancias de subasta para reducir los costos.

OpenSpan ofrece soluciones de automatización e inteligencia que ayudan a conectar personas, procesos y tecnología para obtener información acerca de la productividad de los empleados, simplificar las transacciones y atraer a empleados y clientes. OpenSpan migró de HBase a Presto en Amazon EMR con datos en Amazon S3. OpenSpan eligió Presto debido a su interfaz SQL y a la capacidad para realizar consultas en datos en tiempo real directamente desde Amazon S3. Les permitió explorar grandes volúmenes de datos e iterar rápidamente en próximos productos de datos. OpenSpan utiliza el formato de archivo PARQUET y también usa PrestogreSQL para conectarse a Presto. OpenSpan eligió Amazon EMR y Amazon S3 para procesar de manera rentable los gigabytes de datos que reciben diariamente de sus clientes.

Kanmu es una startup japonesa del sector de servicios financieros que brinda ofertas asociadas con tarjetas basadas en el uso que los consumidores hacen de sus tarjetas de crédito. Kanmu migró de Hive a Presto en Amazon EMR debido a la capacidad de Presto para ejecutar análisis exploratorios e iterativos a velocidad interactiva, su buen rendimiento con Amazon S3 y su escalabilidad para realizar consultas en grandes conjuntos de datos. Kanmu usa Fluentd-plugin-s3 para enviar datos a Amazon S3, el formato optimizado fila columnas (ORC) para almacenar datos y utilizar shib, un cliente web basado en node.js para ejecutar consultas SQL.



  1. Lanzar un clúster de Amazon EMR con Presto y Airpal.
  2. Aprender a configurar Presto en Amazon EMR.