Amazon EMR
Amazon EMR – ведущая в отрасли облачная платформа больших данных для обработки огромных объемов информации с использованием инструментов с открытым исходным кодом, таких как Apache Spark, Apache Hive, Apache HBase, Apache Flink, Apache Hudi и Presto. Amazon EMR упрощает установку, использование и масштабирование сред больших данных посредством автоматизации таких трудоемких задач, как выделение объема и настройка кластеров. EMR позволяет анализировать данные в масштабе петабайтов за вдвое меньшую стоимость по сравнению с традиционными локальными решениями и более чем в три раза быстрее по сравнению со стандартным использованием Apache Spark. Вы можете выполнять рабочие нагрузки на инстансах Amazon EC2, в кластерах Amazon Elastic Kubernetes Service (EKS) или локально с помощью EMR на AWS Outposts.
Преимущества
Простота использования
Аналитики, инженеры по обработке данных и специалисты по работе с данными могут использовать блокноты EMR Notebooks, что позволяет изучать, обрабатывать и визуализировать данные в интерактивном режиме общего доступа. Достаточно просто указать версию приложений EMR и тип вычислений, которые вы хотите использовать. EMR берет на себя выделение, конфигурацию и настройку кластеров, тогда как вы можете сосредоточиться на выполнении аналитических задач.
Низкая стоимость
Стоимость EMR формируется просто и предсказуемо: плата начисляется на основе посекундного тарифа за каждую секунду использования каждого инстанса; минимальный порог оплаты составляет одну минуту. Запустить кластер EMR, содержащий 10 узлов, можно всего за 0,15 USD в час. Кроме того, можно сэкономить 50–80 % от стоимости инстансов, выбрав спотовые инстансы Amazon EC2 для временных рабочих нагрузок и зарезервированные инстансы для продолжительных рабочих нагрузок. Можно также использовать тарифы Savings Plans.
Эластичность
В отличие от жесткой инфраструктуры локальных кластеров, EMR изолирует вычислительные ресурсы и постоянные хранилища, позволяя независимо масштабировать их и воспользоваться преимуществом многоуровневого хранения Amazon S3. EMR позволяет выделить от одного до сотен или тысяч вычислительных инстансов либо контейнеров для обработки данных любого масштаба. Количество инстансов можно увеличивать или уменьшать вручную либо автоматически, используя сервис Auto Scaling (который позволяет управлять размером кластеров в соответствии с уровнем использования). Оплате подлежат только реально используемые ресурсы.
Надежность
Сэкономьте время на настройке и мониторинге кластера. Сервис EMR оптимизирован для работы в облаке и постоянно контролирует кластер: повторно запускает задания, которые не удалось выполнить, и автоматически заменяет инстансы с низкой производительностью. Кластеры характеризуются высокой доступностью и возможностью автоматически обрабатывать отказы узлов. EMR предоставляет наиболее актуальное стабильное ПО с открытым исходным кодом, что исключает необходимость в управлении обновлениями и исправлении ошибок. Это упрощает работу и позволяет тратить меньше усилий на поддержание среды.
Безопасность
EMR автоматически настраивает брандмауэр EC2, управляющий сетевым доступом к инстансам, и запускает кластеры в Amazon Virtual Private Cloud (VPC). Можно применять шифрование на стороне сервера или на стороне клиента с использованием AWS Key Management Service или собственных ключей пользователя. EMR позволяет без труда включать и другие варианты шифрования, например шифрование при передаче и при хранении, и усиленную аутентификацию с помощью Kerberos. Для точного контроля доступа к данным в базах данных, таблицах и столбцах можно использовать AWS Lake Formation или Apache Ranger.
Гибкость
Вы полностью контролируете свои кластеры EMR и отдельные задания EMR. Вы можете запускать кластеры EMR с настраиваемыми AMI Amazon Linux и легко настраивать кластеры с помощью сценариев для установки дополнительных сторонних пакетов ПО. EMR позволяет на лету перенастраивать приложения на работающих кластерах без необходимости их перезапуска. Кроме того, вы можете настроить среду выполнения для отдельных заданий. Для этого необходимо указать библиотеки и зависимости времени выполнения в контейнере Docker, а затем подтвердить их вместе с заданием.
Варианты развертывания
Amazon EMR для Amazon EC2
Вы можете развернуть EMR для Amazon EC2 и воспользоваться преимуществами инстансов по требованию, а также зарезервированных и спотовых инстансов. EMR обеспечивает контроль выделения, управления и масштабирования инстансов EC2. AWS предлагает больше вариантов инстансов, чем какой-либо поставщик облачных услуг, что позволяет вам выбрать инстанс, который обеспечивает лучшую производительность или стоимость для вашей рабочей нагрузки.
Amazon EMR для Amazon EKS
Вы можете выполнять задания с большими данными по требованию в Amazon Elastic Kubernetes Service (EKS), при этом вам не нужно выделять кластеры EMR, чтобы усовершенствовать применение ресурсов и упростить управление инфраструктурой. Amazon EKS обеспечивает необходимую гибкость для запуска, использования и масштабирования приложений в облаке AWS или локально. Amazon EMR для EKS обеспечивает совместное использование вычислительных ресурсов и ресурсов памяти для всех приложений и использование единого набора инструментов Kubernetes для централизованного мониторинга и управления инфраструктурой.
Amazon EMR для AWS Outposts
Amazon EMR доступен для AWS Outposts, что позволяет настраивать, развертывать, управлять и масштабировать EMR в локальных средах так же, как в облаке. AWS Outposts позволяет использовать сервисы, инфраструктуру и операционные модели AWS практически в любых центрах обработки данных, колокационных средах или на локальных объектах.
Примеры использования
Машинное обучение
Используйте встроенные в EMR инструменты машинного обучения (в том числе Apache Spark MLlib, TensorFlow и Apache MXNet) для работы с масштабируемыми алгоритмами машинного обучения. С помощью настраиваемых AMI и скриптов при начальной загрузке добавляйте выбранные библиотеки и инструменты, чтобы создать собственный инструментарий для прогнозной аналитики.
Извлечение, преобразование и загрузка данных
EMR можно использовать для быстрого и экономичного выполнения рабочих нагрузок по трансформации данных (извлечение, преобразование и загрузка данных) – сортировке, агрегированию, слиянию – на больших наборах данных.
Анализ истории посещений
Анализируйте данные о посещениях от Amazon S3, используя Apache Spark и Apache Hive, чтобы разделять пользователей на категории, выяснять их предпочтения и показывать более эффективную рекламу.
Потоковая передача в режиме реального времени
Анализируйте события от Apache Kafka, Amazon Kinesis и других потоковых источников данных в режиме реального времени с помощью Apache Spark Streaming и Apache Flink, чтобы создавать долгосрочные и устойчивые к ошибкам конвейеры потоковых данных с обеспечением высокой доступности. Сохраняйте преобразованные наборы данных в S3 или HDFS, а аналитические выводы – в Amazon Elasticsearch Service.
Интерактивная аналитика
Блокноты EMR Notebooks предоставляют управляемую аналитическую среду на основе решения Jupyter с открытым исходным кодом, с помощью которой специалисты по работе с данными, аналитики и разработчики могут подготавливать и визуализировать данные, совместно работать с коллегами, создавать приложения и выполнять интерактивный анализ.
Геномика
EMR можно использовать для быстрой и эффективной обработки больших объемов данных генома и других больших наборов научных данных. Исследователям предоставляется бесплатный доступ к данным генома, хранящимся в AWS.
Аналитическое исследование
Новые возможности
Начать работу с AWS

Узнайте, как выполнить миграцию больших данных с локальных серверов в AWS.

Получите мгновенный доступ к уровню бесплатного пользования AWS.
Миграция больших данных с локальных серверов в AWS
Подробнее о больших данных и аналитике на AWS