Amazon EMR предоставляет управляемую инфраструктуру Hadoop, которая способна эффективно, быстро и экономично обрабатывать большие объемы данных на динамически масштабируемых инстансах Amazon EC2. В Amazon EMR можно также запускать другие известные распределенные инфраструктуры, включая Apache Spark, HBase, Presto и Flink, и работать с данными, находящимися в других хранилищах данных AWS, таких как Amazon S3 и Amazon DynamoDB.

Amazon EMR безопасно и надежно выполняет обработку больших данных для различных примеров использования, включая анализ журналов, индексацию веб-сайтов, трансформацию данных (ETL), машинное обучение, финансовый анализ, научное моделирование и биоинформатику.

amazon_emr_thumb_resize_prod_pg_378x171
6:03
Знакомство с Amazon EMR

Щелкните, чтобы увеличить

График релизов Amazon EMR

График релизов Amazon EMR

Управление версиями релизов Amazon EMR позволяет легко выбирать и использовать новейшие проекты с открытым исходным кодом в кластере EMR, включая приложения в инфраструктурах Apache Hadoop и Spark. Установку и настройку ПО выполняет сервис Amazon EMR, так что вы сможете забыть о работе с инфраструктурой и административных задачах и сосредоточиться на реализации потенциала своих данных.


Простота использования

Простота использования

Для запуска кластера Amazon EMR потребуется лишь несколько минут. Не нужно заниматься выделением узлов, настройкой или оптимизацией кластера, а также конфигурацией Hadoop. Обо всем позаботится Amazon EMR, а вы можете сконцентрироваться на аналитических задачах.

Низкая стоимость

Низкая стоимость

Стоимость Amazon EMR формируется просто и предсказуемо: плата начисляется на основе посекундного тарифа за каждую секунду использования, минимальный уровень оплаты составляет одну минуту. Запустить кластер Hadoop, содержащий 10 узлов, можно всего за 0,15 USD в час. Благодаря встроенной поддержке зарезервированных и спотовых инстансов Amazon EC2 Amazon EMR поможет сэкономить 50–80 % от стоимости используемых им инстансов.

Эластичность

Эластичность

Amazon EMR позволяет выделить от одного до сотен или тысяч вычислительных инстансов для обработки данных любого масштаба. Увеличивать или сокращать число инстансов легко можно вручную или с помощью функции Auto Scaling, оплачивая только используемые ресурсы.

Надежность

Надежность

Вы можете сэкономить время, которое потратили бы на настройку и мониторинг кластера. Amazon EMR осуществляет настройку Hadoop для облака, а также мониторинг вашего кластера, повторно запуская задания, выполнить которые не удалось, и автоматически заменяя инстансы с низкой производительностью.

 

Безопасность

Безопасность

Amazon EMR автоматически настраивает брандмауэр Amazon EC2, управляющий сетевым доступом к инстансам, и вы можете запускать кластеры в Amazon Virtual Private Cloud (VPC), созданной вами логически изолированной сети. Для объектов, которые хранятся в среде Amazon S3, можно использовать шифрование Amazon S3 на стороне сервера или на стороне клиента на базе EMRFS с использованием AWS Key Management Service или собственными ключами пользователя. Можно также легко включить другие варианты шифрования и аутентификацию по протоколу Kerberos.

Гибкость

Гибкость

Вы полностью контролируете свой кластер. Доступ с правами root к каждому инстансу позволяет с легкостью устанавливать дополнительные приложения и настраивать каждый кластер с помощью загрузочных скриптов. Как вариант, можно запускать кластеры Amazon EMR с помощью собственных образов Amazon Linux AMI. 

Анализ навигации

Анализ навигации

Amazon EMR можно использовать для анализа данных о навигации для разделения пользователей на категории, сбора информации об их предпочтениях и создании более эффективной рекламы.    
    
Подробнее о том, как компания Razorfish использует EMR для анализа навигации »

Аналитика в режиме реального времени

Аналитика в режиме реального времени

Сбор и обработка данных в режиме реального времени из Amazon Kinesis, Apache Kafka и других потоков с помощью расширения Spark Streaming в Amazon EMR. Отказоустойчивые методы анализа потоковых данных и запись результатов в Amazon S3 или файловую систему HDFS.
Подробнее о том, как компания Hearst использует Spark Streaming »

Анализ журналов

Анализ журналов

Amazon EMR можно использовать для обработки файлов журналов, генерируемых мобильными и интернет-приложениями. Amazon EMR позволяет клиентам работать с петабайтами неструктурированных или слабоструктурированных данных, чтобы получить полезную информацию о приложениях или пользователях.
Подробнее о том, как Yelp использует EMR для управления ключевыми возможностями веб-сайта »

Извлечение, преобразование и загрузка данных (ETL)

Extract Transform Load (ETL)

Amazon EMR можно использовать для быстрого и экономичного выполнения рабочих нагрузок по трансформации данных (ETL) – сортировки, агрегирования, слияния – на больших наборах данных.
  
Подробнее о том, как Redfin использует транзитные кластеры EMR для ETL »

Прогнозная аналитика

Прогнозная аналитика

Apache Spark в Amazon EMR содержит библиотеку масштабируемых алгоритмов машинного обучения MLlib, а также позволяет использовать собственные библиотеки. За счет хранения наборов данных в памяти Spark показывает высокую производительность при выполнении типовых рабочих нагрузок в области машинного обучения.
Подробнее о том, как компания Intent Media использует Spark MLib »

Геномика

Геномика

Amazon EMR можно использовать для быстрой и эффективной обработки больших объемов данных генома и других больших наборов научных данных. Исследователям предоставляется бесплатный доступ к данным генома, хранящимся в AWS.
Подробнее об Apache Spark и точной медицине »

Начать работу с Amazon EMR очень просто. В руководстве по началу работы приведены инструкции по запуску первого кластера Amazon EMR, который позволит всего за пару щелчков мышью начать анализ данных в озерах данных на AWS. Вы также можете узнать, что такое Spark, Presto, озера данных и какое место EMR занимает среди прочих сервисов AWS для аналитики и работы с озерами данных.

Начало работы