Amazon EMR

Эффективно запускайте и масштабируйте Apache Hadoop, Spark, HBase, Presto, Hive и другие инфраструктуры для работы с большими данными.

Amazon EMR предоставляет управляемую инфраструктуру Hadoop, которая способна эффективно, быстро и экономично обрабатывать большие объемы данных на динамически масштабируемых инстансах Amazon EC2. В Amazon EMR можно также запускать другие известные распределенные инфраструктуры, включая Apache Spark, HBase, Presto и Flink, и работать с данными, находящимися в других хранилищах данных AWS, таких как Amazon S3 и Amazon DynamoDB.

Amazon EMR безопасно и надежно выполняет обработку больших данных для различных примеров использования, включая анализ журналов, индексацию веб‑сайтов, трансформацию данных (ETL), машинное обучение, финансовый анализ, научное моделирование и биоинформатику.

Intro to Amazon EMR (3:06)

Преимущества

Простота использования

Для запуска кластера Amazon EMR потребуется несколько минут. Не нужно заниматься выделением узлов, настройкой или оптимизацией кластера, а также конфигурацией Hadoop. Об этом позаботится Amazon EMR, а вы можете сконцентрироваться на аналитических задачах.

Низкая стоимость

Стоимость Amazon EMR формируется просто и предсказуемо: плата начисляется на основе посекундного тарифа за каждую секунду использования, минимальный уровень оплаты составляет одну минуту. Запустить кластер Hadoop, содержащий 10 узлов, можно всего за 0,15 USD в час. Благодаря встроенной поддержке зарезервированных и спотовых инстансов Amazon EC2 сервис Amazon EMR позволяет сэкономить 50–80 % от стоимости используемых инстансов.

Эластичность

Amazon EMR позволяет выделить от одного до сотен или тысяч вычислительных инстансов для обработки данных любого масштаба. Увеличивать или сокращать число инстансов легко можно вручную или с помощью функции Auto Scaling, оплачивая только используемые ресурсы.

Надежность

Вы можете сэкономить время на настройку и мониторинг кластера. Amazon EMR осуществляет настройку Hadoop для облака, а также мониторинг кластера, повторно запуская задания, выполнить которые не удалось, и автоматически заменяя инстансы с низкой производительностью.

Безопасность

Amazon EMR автоматически настраивает брандмауэр Amazon EC2, управляющий сетевым доступом к инстансам, и вы можете запускать кластеры в Amazon Virtual Private Cloud (VPC) – созданной вами логически изолированной сети. Для объектов, которые хранятся в среде Amazon S3, можно применять шифрование Amazon S3 на стороне сервера или на стороне клиента на базе EMRFS с использованием AWS Key Management Service или собственных ключей пользователя. Можно без труда включить другие варианты шифрования и аутентификацию по протоколу Kerberos.

Гибкость

Вы полностью контролируете свой кластер. Доступ с правами root к каждому инстансу позволяет без труда устанавливать дополнительные приложения и настраивать каждый кластер с помощью загрузочных скриптов. Можно также запускать кластеры Amazon EMR с помощью настраиваемых образов Amazon Linux AMI.

Примеры использования

Анализ навигации

Amazon EMR можно использовать для анализа истории посещений, чтобы разделять пользователей на категории, собирать информацию об их предпочтениях и создавать более эффективную рекламу.

Узнайте, как компания Razorfish использует EMR для анализа навигации »

Аналитика в режиме реального времени

Собирайте и обрабатывайте данные в режиме реального времени из Amazon Kinesis, Apache Kafka и других потоков с помощью расширения Spark Streaming в Amazon EMR. Используйте отказоустойчивые методы анализа потоковых данных и записывайте результаты в Amazon S3 или файловую систему HDFS.

Узнайте, как компания Hearst использует Spark Streaming »

Анализ журналов

Amazon EMR можно использовать для обработки файлов журналов, генерируемых мобильными и интернет‑приложениями. Amazon EMR позволяет клиентам работать с петабайтами неструктурированных или слабоструктурированных данных для получения полезной информации о приложениях или пользователях.

Извлечение, преобразование и загрузка данных (ETL)

Amazon EMR можно использовать для быстрого и экономичного выполнения рабочих нагрузок по трансформации данных (ETL) – сортировке, агрегированию, слиянию – на больших наборах данных.

Узнайте, как компания Redfin использует транзитные кластеры EMR для ETL »

Прогнозная аналитика

Apache Spark в Amazon EMR содержит библиотеку масштабируемых алгоритмов машинного обучения MLlib, а также позволяет использовать собственные библиотеки. За счет хранения наборов данных в памяти Spark показывает высокую производительность при выполнении типовых рабочих нагрузок в области машинного обучения.

Узнайте, как компания Intent Media использует Spark MLib »

Геномика

Amazon EMR можно использовать для быстрой и эффективной обработки больших объемов данных генома и других больших наборов научных данных. Исследователям предоставляется бесплатный доступ к данным генома, хранящимся в AWS.

Подробнее об Apache Spark и точной медицине »

Примеры использования

Публикации в блогах и статьи

Начать работу с AWS

icon1

Зарегистрируйте аккаунт AWS

Получите мгновенный доступ к уровню бесплатного пользования AWS.
icon2

Обучение с помощью 10-минутных учебных пособий

Знакомьтесь с сервисами и учитесь с помощью простых учебных пособий.
icon3

Начните разработку с AWS

Начните разработку и запустите собственный проект в AWS с помощью пошаговых руководств.
Готовы приступить к разработке?
Начало работы с Amazon EMR
Есть вопросы?
Свяжитесь с нами