icon1

Зарегистрируйте аккаунт AWS и войдите в систему

Войдите в консоль.

Видео

Техническое введение в Amazon EMR (50:44)
Тщательный анализ Amazon EMR и рекомендации (49:12)

Оставайтесь в курсе дел с вебинарами AWS.

Как использовать Amazon EMR

  1. Создайте приложение обработки данных. Можно использовать Java, Hive (язык на основе SQL), Pig (язык обработки данных), Cascading, Ruby, Perl, Python, R, PHP, C++ или Node.js. Amazon EMR предоставляет образцы кода и руководства, чтобы помочь вам начать работу и быстро запустить приложение.
  2. Загрузите приложение и данные в Amazon S3. Если требуется загрузить большой объем данных, можно воспользоваться решением AWS Import/Export Snowball для загрузки данных с помощью физического устройства хранения или сервисом AWS Direct Connect для загрузки данных из вашего ЦОД в сервис AWS с помощью выделенного сетевого соединения. Можно также записать данные напрямую в работающий кластер.
  3. Настройте и запустите кластер. С помощью Консоли управления AWS, интерфейса командной строки AWS, SDK или API укажите число инстансов Amazon EC2, выделяемых для кластера, типы используемых инстансов (стандартные, с преобладанием памяти, с преобладанием ресурсов ЦП, с высокой производительностью ввода-вывода и т. д.), приложения для установки (Hive, Pig, HBase и т. д.), а также местоположение приложений и данных. Для установки дополнительного ПО или изменения настроек по умолчанию можно использовать установочные скрипты.
  4. Мониторинг кластера (необязательно). Вы можете отслеживать состояние и выполнение работы кластера с помощью консоли управления, интерфейса командной строки, SDK или API. EMR интегрируется с Amazon CloudWatch для мониторинга и отправки оповещений и поддерживает такие широко распространенные инструменты мониторинга, как Ganglia. Если объем обрабатываемых данных возрастет или сократится, вы в любой момент можете добавить или удалить ресурсы. Для удобства решения проблем в консоли есть простой графический пользовательский интерфейс для отладки.
  5. Получите выходные данные. Получить выходные данные можно из хранилища Amazon S3 или HDFS кластера. Визуализация данных выполняется с помощью таких инструментов, как Tableau и MicroStrategy. Amazon EMR автоматически остановит кластер после завершения обработки. Можно не останавливать кластер, а назначить новые задания.

Вы готовы запустить свой первый кластер?

Нажмите здесь, чтобы запустить кластер с помощью консоли управления Amazon EMR. На странице создания кластера перейдите в раздел расширенных настроек кластера, нажмите на серую кнопку «Создать демонстрационное приложение» в верхнем правом углу, если вы хотите запустить демонстрационное приложение с образцами данных.

Учебные пособия

Spark

Узнайте, как настроить Apache Kafka на EC2, использовать Spark Streaming на EMR для обработки данных, приходящих в темы Apache Kafka, и выполнять запросы к данным потоковой передачи с помощью Spark SQL на EMR.

Узнайте, как Intent Media использует Spark и Amazon EMR в своих процессах моделирования.

HBase

Узнайте, как подключиться к Phoenix, используя JDBC, создать представление по существующей таблице HBase и создать дополнительный индекс для повышения скорости чтения

Узнайте, как запустить кластер EMR с помощью HBase и восстановить таблицу из снимка состояния в Amazon S3

Узнайте, как подключиться к потоку заданий Hive, запущенному на Amazon Elastic MapReduce, чтобы создать безопасную и расширяемую платформу для создания отчетов и аналитики.

Presto

Узнайте, как настроить кластер Presto и использовать Airpal для обработки данных, хранящихся в S3.

Hive

Узнайте, как запустить кластер EMR с помощью HBase и восстановить таблицу из снимка состояния в Amazon S3

Узнайте, как подключиться к потоку заданий Hive, запущенному на Amazon Elastic MapReduce, чтобы создать безопасную и расширяемую платформу для создания отчетов и аналитики.

В этом руководстве описывается эталонная архитектура для последовательного, масштабируемого и надежного конвейера обработки потоков на основе Apache Flink с использованием Amazon EMR, Amazon Kinesis и Amazon Elasticsearch Service.

Обучайтесь в удобном темпе, используя другие руководства.

Обучение и справка

Краткосрочные проекты

Если вам нужна помощь в проверке опытного образца или по настройке приложений EMR, то в AWS есть глобальная служба поддержки, которая специализируется на EMR. Свяжитесь с нами, если вам потребуется дополнительная информация о краткосрочных проектах (от 2 до 6 недель).

Учебный курс AWS Big Data

Курс Big Data on AWS разработан для практического обучения использованию сервисов Amazon Web Services для обработки больших данных. AWS научит вас использовать Amazon EMR для обработки данных с помощью развитой системы инструментов Hadoop, таких как Pig или Hive. Кроме того, вы научитесь создавать в облаке среды с большими данными с помощью Amazon DynamoDB и Amazon Redshift, понимать достоинства Amazon Kinesis, а также выбирать лучшие методы создания сред с большими данными для повышения качества аналитики, безопасности и экономичности. Чтобы узнать больше о курсе по большим данным, нажмите здесь.

Дополнительное обучение

Адаптируемые стационарные курсы Scale Unlimited предназначены для быстрого обучения сотрудников вашей компании работе с EMR и другими технологиями больших данных. Для получения дополнительной информации нажмите здесь.

Дополнительные ресурсы по Amazon EMR

Перейти на страницу ресурсов
Готовы приступить к разработке?
Начало работы с Amazon EMR
Есть вопросы?
Свяжитесь с нами