Перейти к главному контенту

Начало работы с Amazon EMR

Amazon EMR

  • Обзор
  • Цены

Как использовать EMR?

1. Выберите предпочтительную модель развертывания EMR

Amazon EMR позволяет обрабатывать большие объемы данных с использованием инструментов с открытым исходным кодом, таких как Apache Spark, Hive, Flink, Trino и другие. Просто выберите предпочтительную модель развертывания EMR.

  • Бессерверная конфигурация EMR: запускайте приложения без управления кластерами с автоматическим масштабированием ресурсов в зависимости от рабочей нагрузки.
  • EMR в EC2: полностью контролируйте конфигурацию кластера, включая типы инстансов и пользовательские AMI.
  • EMR в EKS: объединяйте аналитики с другими приложениями на базе Kubernetes в общем кластере Amazon EKS.

2. Создайте приложение обработки данных

Amazon EMR поддерживает широкий спектр фреймворков и языков, что позволяет создавать решения: от стандартных ETL-процессов до подготовки данных для генеративного искусственного интеллекта в крупных масштабах.

Языки: используйте Python (PySpark) для задач анализа данных и машинного обучения, SQL (через Hive или Trino) – для аналитических запросов, а Java и Scala – для высокопроизводительных приложений на базе Spark.

Фреймворки: разрабатывайте и запускайте приложения с использованием Apache Spark для обработки больших данных, Apache Flink – для потоковой обработки в реальном времени, Trino – для быстрых SQL-запросов к разнородным источникам данных, а также Apache Hudi или Iceberg – для управления транзакционными озерами данных.

3. Подготовьте и загрузите данные

Чтобы начать обработку, данные должны быть доступны для Amazon EMR. Хотя стандартным уровнем хранения для приложений EMR является Amazon S3, существует несколько высокоскоростных способов передачи данных из локальной среды или других сервисов AWS.

  • Прямая загрузка: для немедленной обработки загружайте объекты напрямую в Amazon S3 с помощью консоли управления AWS, интерфейс командной строки (CLI) или SDK.
  • Высокоскоростное подключение: используйте AWS Direct Connect, чтобы обойти Интернет общего пользования и установить частное выделенное сетевое соединение между своим центром обработки данных и AWS. Это обеспечивает стабильную пропускную способность и снижает задержки при передаче больших объемов данных.
  • Потоковая передача в реальном времени: применяйте Amazon Data Firehose или Управляемую потоковую передачу Amazon для Apache Kafka (MSK) для передачи данных напрямую в приложения EMR по мере их генерации, что позволяет выполнять аналитику почти в реальном времени.
  • Интеграция с нулевым использованием ETL: анализируйте данные из Amazon Aurora или Amazon Redshift с помощью возможностей без ETL, которые позволяют EMR получать доступ к операционным данным без необходимости построения конвейеров вручную.
  • Гибридный доступ: если данные находятся в локальной среде Hadoop HDFS, используйте Коннектор S3 для прямого чтения данных в EMR или синхронизации отдельных наборов данных для обработки в облаке.

4. Запустите и контролируйте выполнение

Amazon EMR предоставляет упрощенный процесс развертывания как для разовых задач, так и для непрерывных производственных конвейеров.

  • Запуск через Студию EMR: откройте блокнот Студии EMR и подключите его к бессерверному приложению или существующему кластеру EC2. Одним нажатием можно выполнить код на Spark или Hive в полностью управляемой среде.
  • Бессерверная конфигурация: при использовании бессерверной конфигурации EMR отправляйте задания через консоль, интерфейс командной строки (CLI) или API. EMR автоматически выделяет необходимые вычислительные ресурсы и память, масштабируясь под пиковые нагрузки и снижая использование до нуля после завершения работы.
  • Запуск через Единую студию SageMaker: в Единой студии SageMaker можно открыть бессерверный блокнот и сразу подключить его к бессерверному приложению EMR или кластеру EMR в EC2. 

5. Отслеживайте и оптимизируйте процесс выполнения

EMR обеспечивает прозрачность работы конвейеров обработки данных благодаря встроенным инструментам, которые помогают выявлять узкие места и автоматически оптимизировать затраты.

Отслеживайте ход выполнения заданий и состояние кластера через консоль управления EMR, интерфейс командной строки AWS (CLI) или SDK. EMR имеет встроенную интеграцию с Amazon CloudWatch для получения метрик в реальном времени, журналов и автоматических оповещений.

Получайте доступ к интерфейсам Spark UI или Tez UI прямо из консоли – анализируйте выполняющиеся задачи в реальном времени и после завершения бессерверных заданий, просматривая планы выполнения и DAG (ориентированные ациклические графы).

Вы готовы запустить свой первый кластер?

Нажмите здесь, чтобы запустить кластер с помощью консоли управления Amazon EMR. На странице создания кластера перейдите в раздел расширенных настроек кластера, нажмите серую кнопку Configure Sample Application (Создать демонстрационное приложение) в верхнем правом углу, если вы хотите запустить демонстрационное приложение с образцами данных.

Обучение и справка

    Если вам нужна помощь в проверке опытного образца или по настройке приложений EMR, то в AWS есть глобальная служба поддержки, которая специализируется на EMR. Свяжитесь с нами, если вам потребуется дополнительная информация о платных краткосрочных проектах поддержки (от 2 до 6 недель).

    Курс «Работа с большими данными на платформе AWS» разработан для практического обучения использованию сервисов Amazon Web Services с целью взаимодействия с рабочими нагрузками, связанными с большими данными. AWS научит вас использовать Amazon EMR для обработки данных с помощью развитой системы инструментов Hadoop, таких как Pig или Hive. Кроме того, вы научитесь создавать в облаке среды с большими данными с помощью Amazon DynamoDB и Amazon Redshift, понимать достоинства Amazon Kinesis, а также выбирать лучшие методы создания сред с большими данными для повышения качества аналитики, безопасности и экономичности. Чтобы узнать больше о курсе по большим данным, нажмите здесь.

    Адаптируемые стационарные курсы Scale Unlimited предназначены для быстрого обучения сотрудников вашей компании работе с EMR и другими технологиями больших данных. Для получения дополнительной информации нажмите здесь.