Amazon EMR

Без труда запускайте и масштабируйте Apache Spark, Hive, Presto и другие платформы для работы с большими данными.

Amazon EMR – ведущая в отрасли облачная платформа больших данных для обработки огромных объемов информации с использованием инструментов с открытым исходным кодом, таких как Apache Spark, Apache Hive, Apache HBase, Apache Flink, Apache Hudi и Presto. Amazon EMR упрощает установку, использование и масштабирование сред больших данных посредством автоматизации таких трудоемких задач, как выделение объема и настройка кластеров. EMR позволяет анализировать данные в масштабе петабайтов за вдвое меньшую стоимость по сравнению с традиционными локальными решениями и более чем в три раза быстрее по сравнению со стандартным использованием Apache Spark. Вы можете выполнять рабочие нагрузки на инстансах Amazon EC2, в кластерах Amazon Elastic Kubernetes Service (EKS) или локально с помощью EMR на AWS Outposts.

Как Apache Hudi упрощает конвейеры для сбора измененных данных и соблюдения требований к защите конфиденциальности

An introduction to Amazon EMR (3:00)

Преимущества

Простота использования

Интегрированная среда разработки EMR Studio позволяет упростить процесс разработки, визуализации и отладки приложений для обработки или анализа данных, написанных на R, Python, Scala и PySpark. EMR Studio поддерживает решение AWS Single Sign-On, которое позволяет использовать для входа в систему корпоративные учетные данные. Она предоставляет полностью управляемые блокноты Jupyter и средства совместной работы с использованием репозиториев кода, таких как GitHub и BitBucket.

Низкая стоимость

Стоимость EMR формируется просто и предсказуемо: плата начисляется на основе посекундного тарифа за каждую секунду использования каждого инстанса; минимальный порог оплаты составляет одну минуту. Запустить кластер EMR, содержащий 10 узлов, можно всего за 0,15 USD в час. Кроме того, можно сэкономить 50–80 % от стоимости инстансов, выбрав спотовые инстансы Amazon EC2 для временных рабочих нагрузок и зарезервированные инстансы для продолжительных рабочих нагрузок. Можно также использовать тарифы Savings Plans.

Эластичность

В отличие от жесткой инфраструктуры локальных кластеров, EMR изолирует вычислительные ресурсы и постоянные хранилища, позволяя независимо масштабировать их и воспользоваться преимуществом многоуровневого хранения Amazon S3. EMR позволяет выделить от одного до сотен или тысяч вычислительных инстансов либо контейнеров для обработки данных любого масштаба. Количество инстансов можно увеличивать или уменьшать вручную либо автоматически, используя сервис Auto Scaling (который позволяет управлять размером кластеров в соответствии с уровнем использования). Оплате подлежат только реально используемые ресурсы.

Надежность

Сэкономьте время на настройке и мониторинге кластера. Сервис EMR оптимизирован для работы в облаке и постоянно контролирует кластер: повторно запускает задания, которые не удалось выполнить, и автоматически заменяет инстансы с низкой производительностью. Кластеры характеризуются высокой доступностью и возможностью автоматически обрабатывать отказы узлов. EMR предоставляет наиболее актуальное стабильное ПО с открытым исходным кодом, что исключает необходимость в управлении обновлениями и исправлении ошибок. Это упрощает работу и позволяет тратить меньше усилий на поддержание среды.

Безопасность

EMR автоматически настраивает брандмауэр EC2, управляющий сетевым доступом к инстансам, и запускает кластеры в Amazon Virtual Private Cloud (VPC). Можно применять шифрование на стороне сервера или на стороне клиента с использованием AWS Key Management Service или собственных ключей пользователя. EMR позволяет без труда включать и другие варианты шифрования, например шифрование при передаче и при хранении, и усиленную аутентификацию с помощью Kerberos. Для точного контроля доступа к данным в базах данных, таблицах и столбцах можно использовать AWS Lake Formation или Apache Ranger.

Гибкость

Вы полностью контролируете свои кластеры EMR и отдельные задания EMR. Вы можете запускать кластеры EMR с настраиваемыми AMI Amazon Linux и легко настраивать кластеры с помощью сценариев для установки дополнительных сторонних пакетов ПО. EMR позволяет на лету перенастраивать приложения на работающих кластерах без необходимости их перезапуска. Кроме того, вы можете настроить среду выполнения для отдельных заданий. Для этого необходимо указать библиотеки и зависимости времени выполнения в контейнере Docker, а затем подтвердить их вместе с заданием.

Варианты развертывания

Amazon EMR для Amazon EC2

Вы можете развернуть EMR для Amazon EC2 и воспользоваться преимуществами инстансов по требованию, а также зарезервированных и спотовых инстансов. EMR обеспечивает контроль выделения, управления и масштабирования инстансов EC2. AWS предлагает больше вариантов инстансов, чем какой-либо поставщик облачных услуг, что позволяет вам выбрать инстанс, который обеспечивает лучшую производительность или стоимость для вашей рабочей нагрузки.

Подробнее »

Amazon EMR для Amazon EKS

Вы можете использовать EMR, чтобы выполнять задания Apache Spark по требованию в Amazon Elastic Kubernetes Service (EKS), при этом вам не нужно выделять кластеры EMR, чтобы усовершенствовать применение ресурсов и упростить управление инфраструктурой. Amazon EKS обеспечивает необходимую гибкость для запуска, использования и масштабирования приложений в облаке AWS или локально. Amazon EMR для EKS обеспечивает совместное использование вычислительных ресурсов и ресурсов памяти для всех приложений и использование единого набора инструментов Kubernetes для централизованного мониторинга и управления инфраструктурой.

Подробнее »

Amazon EMR для AWS Outposts

Amazon EMR доступен для AWS Outposts, что позволяет настраивать, развертывать, управлять и масштабировать EMR в локальных средах так же, как в облаке. AWS Outposts позволяет использовать сервисы, инфраструктуру и операционные модели AWS практически в любых центрах обработки данных, колокационных средах или на локальных объектах.

Подробнее »

Примеры использования

Машинное обучение

Используйте встроенные в EMR инструменты машинного обучения (в том числе Apache Spark MLlib, TensorFlow и Apache MXNet) для работы с масштабируемыми алгоритмами машинного обучения. С помощью настраиваемых AMI и скриптов при начальной загрузке добавляйте выбранные библиотеки и инструменты, чтобы создать собственный инструментарий для прогнозной аналитики.

Извлечение, преобразование и загрузка данных

EMR можно использовать для быстрого и экономичного выполнения рабочих нагрузок по трансформации данных (извлечение, преобразование и загрузка данных) – сортировке, агрегированию, слиянию – на больших наборах данных.

Узнайте, как компания Redfin использует временные кластеры EMR для ETL »

Анализ истории посещений

Анализируйте данные о посещениях от Amazon S3, используя Apache Spark и Apache Hive, чтобы разделять пользователей на категории, выяснять их предпочтения и показывать более эффективную рекламу.

Потоковая передача в режиме реального времени

Анализируйте события от Apache Kafka, Amazon Kinesis и других потоковых источников данных в режиме реального времени с помощью Apache Spark Streaming и Apache Flink, чтобы создавать долгосрочные и устойчивые к ошибкам конвейеры потоковых данных с обеспечением высокой доступности. Сохраняйте преобразованные наборы данных в S3 или HDFS, а аналитические выводы – в Amazon Elasticsearch Service.

Узнайте, как компания Hearst использует Spark Streaming »

Интерактивная аналитика

Блокноты EMR Notebooks предоставляют управляемую аналитическую среду на основе решения Jupyter с открытым исходным кодом, с помощью которой специалисты по работе с данными, аналитики и разработчики могут подготавливать и визуализировать данные, совместно работать с коллегами, создавать приложения и выполнять интерактивный анализ.

Геномика

EMR можно использовать для быстрой и эффективной обработки больших объемов данных генома и других больших наборов научных данных. Исследователям предоставляется бесплатный доступ к данным генома, хранящимся в AWS.

Подробнее об Apache Spark и точной медицине »

Примеры использования

Аналитическое исследование

Подробнее...

Новые возможности

дата
  • дата
1

Начать работу с AWS

Ознакомьтесь с руководством по миграции на EMR
Ознакомьтесь с руководством по миграции

Узнайте, как выполнить миграцию больших данных с локальных серверов в AWS.

Подробнее 
Зарегистрируйте бесплатный аккаунт AWS
Зарегистрируйте бесплатный аккаунт

Получите мгновенный доступ к уровню бесплатного пользования AWS. 

Регистрация 
Начать разработку с помощью EMR в консоли
Начать разработку в консоли

Начните разработку с помощью Amazon EMR в консоли AWS.

Вход 

Миграция больших данных с локальных серверов в AWS

Ресурсы, которые помогут вам спланировать миграцию

Подробнее о больших данных и аналитике на AWS

Ознакомьтесь со статьями в блоге AWS Big Data