Presto – это распределенный сервис SQL-запросов с открытым исходным кодом, оптимизированный для выполнения спонтанного анализа данных с низкой задержкой. Он поддерживает стандарт ANSI SQL, включая комплексные запросы, агрегацию, слияние и функции окон. Presto может обрабатывать данные из множества источников, включая распределенную файловую систему Hadoop (HDFS) и Amazon S3.

Быстро и легко создавать управляемые кластеры Presto можно с помощью Консоли управления AWS, интерфейса командной строки или API Amazon EMR. Можно также использовать дополнительные возможности Amazon EMR, в том числе быстрое подключение к Amazon S3, интеграцию со спотовыми инстансами Amazon EC2, широкий выбор инстансов Amazon EC2, включая инстансы, оптимизированные для работы с памятью, а также команды добавления или удаления инстансов для легкого изменения размера кластера.

PrestoLogo_withText

Начните работать с Presto в Amazon EMR

Создать бесплатный аккаунт

Есть вопросы? Задайте их нам!

Инструкция: Analyze Data with Presto and Airpal on Amazon EMR, Сонгжи Лю, консультант AWS Professional Services.

 


S3_Sketch_Available

Presto использует пользовательский механизм выполнения запросов с операторами, предназначенными для поддержки семантики SQL. В отличие от Hive/MapReduce, Presto выполняет запросы в памяти, используя сетевые конвейеры между разными этапами, что позволяет избежать ненужных операций ввода-вывода. Модель конвейерного выполнения параллельно выполняет задачи разных этапов и передает поток данных с одного этапа на следующий по мере доступности. 

S3_Sketch_HighPerformance

Для запуска кластера Amazon EMR с Presto потребуется лишь несколько минут. Не нужно заниматься выделением узлов, настройкой, конфигурацией или оптимизацией кластера. Об этом позаботится Amazon EMR, а вы можете сконцентрироваться на аналитических задачах. Можно также использовать такие инструменты, как Airpal – инструмент с открытым исходным кодом от компании Airbnb для выполнения запросов через Интернет. Интерфейс пользователя Airpal упрощает просмотр данных и спонтанный анализ данных и поддерживает такие функции, как выделение синтаксических элементов, возможность экспорта результатов в CSV, сохранение запросов для последующего использования, а также возможность анализа таблиц для визуализации схемы.

S3_Sketch_Simple

Выполняйте интерактивные запросы, которые напрямую обращаются к данным в Amazon S3, экономьте средства, используя ресурсы спотовых инстансов Amazon EC2, используйте функцию Auto Scaling для динамического добавления и удаления ресурсов, а также запускайте продолжительные или краткосрочные кластеры в зависимости от рабочих нагрузок. Вы также можете добавлять в свой кластер другие приложения семейства Hadoop.

Benefit_Workflow_Green

Presto поддерживает стандарт ANSI SQL, что позволяет аналитикам данных и разработчикам легко запрашивать структурированные и неструктурированные данные в любом масштабе. В настоящее время Presto поддерживает широкий спектр функций SQL, включая сложные запросы, агрегацию, слияние и оконные функции.


Компания Netflix выбрала Presto своим интерактивным ANSI SQL-совместимым сервисом запросов для больших данных. Presto хорошо масштабируется, является решением с открытым исходным кодом, а также интегрируется с Hive Metastore и Amazon S3 – основой среды хранения больших данных Netflix. Netflix запускает Presto на постоянных кластерах Amazon EMR, что позволяет быстро и гибко запрашивать данные из их хранилища данных Amazon S3 с объемом порядка 25 ПБ. Netflix является активным участником проекта Presto, при этом Amazon EMR предоставляет Netflix гибкие возможности запуска собственной сборки Presto на кластерах Amazon EMR. В среднем Netflix выполняет на своих кластерах Presto около 3500 запросов в день. 

Jampp – это маркетинговая платформа для мобильных приложений, которая использует передовые методы ретаргетинга рекламы для привлечения пользователей приложений. Jampp достигает этого, покупая рекламные инструменты для мобильных приложений с помощью своего собственного механизма торгов в режиме реального времени (RTB), динамически размещая заявки на рекламные инструменты на 18 биржах RTB и более чем в 150 мобильных рекламных сетях. Jampp использует Presto, работающий на Amazon EMR, для расширенного спонтанного анализа данных журналов, объединяющего данные из нескольких источников и сложные вычисления сегментов ретаргетинга. С увеличением базы пользователей Jampp на 600 % потребовалось и выполнение сложных аналитических запросов. Jampp перешел со сложного Python-приложения на MySQL для многоядерной архитектуры на Presto, что привело к 12-кратному повышению производительности. В настоящее время Jampp использует Presto в Amazon EMR для обработки 40 ТБ данных в день.

Как инкубатор стартапов, компания Cogo Labs управляет платформой для анализа рынка и бизнес-аналитики, используемой входящими в инкубатор компаниями и собственными группами специалистов. Для обеспечения поддержки среды OLAP с высоким уровнем инноваций компания прошла стандартизацию SQL для работы с данными. Cogo Labs выбрала Presto из-за производительности при выполнении запросов в режиме реального времени, поддержки ANSI-SQL и способности обрабатывать данные непосредственно из Amazon S3. Presto, работающий на Amazon EMR, позволяет более чем 100 разработчикам и аналитикам компании отправлять SQL-запросы более чем к 500 ТБ данных, хранящихся в Amazon S3, для просмотра этих данных, спонтанного анализа и создания отчетов. Cogo Labs использует комбинацию краткосрочных и постоянных кластеров и полагается на интеграцию Amazon EMR со спотовыми инстансами для снижения затрат.

OpenSpan предоставляет решения для автоматизации и аналитики, которые помогают объединить людей, процессы и технологии для лучшего понимания производительности сотрудников, упрощения транзакций и вовлечения сотрудников и клиентов. Компания OpenSpan осуществила миграцию с HBase на Presto в Amazon EMR с данными в Amazon S3. OpenSpan выбрала Presto из-за его интерфейса SQL и способности запрашивать данные в режиме реального времени непосредственно из Amazon S3; это позволило сотрудникам компании быстро просматривать огромные объемы данных и быстро разрабатывать новые продукты для обработки данных. OpenSpan использует формат файла Parquet, а также использует PrestogreSQL для подключения к Presto. Компания OpenSpan выбрала Amazon EMR и Amazon S3 для экономически эффективной обработки гигабайтов данных, которые она получает ежедневно от своих клиентов.

Kanmu – это японский стартап в сфере финансовых сервисов, который предоставляет потребителям предложения, связанные с платежными картами, основанные на информации об использовании кредитных карт. Компания Kanmu осуществила миграцию с Hive на Presto в Amazon EMR из-за способности Presto выполнять поисковый и повторяющийся анализ в интерактивном режиме, хорошей производительности при работе с Amazon S3 и возможностей масштабирования для запросов к большим пакетам данных. Kanmu использует модуль Fluentd-plugin-s3 для передачи данных в Amazon S3, оптимизированный формат столбцов (ORC) для хранения данных, а также веб-клиент shib на основе node.js для выполнения SQL-запросов.



  1. Запустите кластер Amazon EMR с Presto и Airpal.
  2. Узнайте, как настроить Presto в Amazon EMR.