Как использовать Amazon EMR
- Создайте приложение обработки данных. Можно использовать Java, Hive (язык на основе SQL), Pig (язык обработки данных), Cascading, Ruby, Perl, Python, R, PHP, C++ или Node.js. Amazon EMR предоставляет образцы кода и руководства, чтобы помочь вам начать работу и быстро запустить приложение.
- Загрузите приложение и данные в Amazon S3. Если требуется загрузить большой объем данных, можно воспользоваться решением AWS Import/Export Snowball для загрузки данных с помощью физического устройства хранения или сервисом AWS Direct Connect для загрузки данных из ЦОД в AWS с помощью выделенного сетевого подключения. Можно также записать данные напрямую в работающий кластер.
- Настройте и запустите кластер. С помощью Консоли управления AWS, интерфейса командной строки AWS, SDK или API укажите число инстансов Amazon EC2, выделяемых для кластера, типы используемых инстансов (стандартные, с преобладанием памяти, с преобладанием ресурсов ЦП, с высокой производительностью ввода-вывода и т. д.), приложения для установки (Apache Spark, Apache Hive, Apache HBase, Presto и т. д.), а также местоположение приложений и данных. Для установки дополнительного ПО или изменения настроек по умолчанию можно использовать скрипты при начальной загрузке.
- Следите за работой кластера. Вы можете отслеживать состояние и выполнение работы кластера с помощью консоли управления, интерфейса командной строки, SDK или API. EMR интегрируется с Amazon CloudWatch для мониторинга и отправки оповещений и поддерживает такие широко распространенные инструменты мониторинга, как Ganglia. Если объем обрабатываемых данных возрастет или сократится, вы в любой момент можете добавить или удалить ресурсы. Для удобства решения проблем в консоли есть простой графический пользовательский интерфейс для отладки.
- Получите выходные данные. Получить выходные данные можно из хранилища Amazon S3 или HDFS кластера. Визуализируйте данные с помощью таких инструментов, как Amazon QuickSight, Tableau и MicroStrategy. Amazon EMR автоматически остановит кластер после завершения обработки. Можно не останавливать кластер, а назначить новые задания.
Вы готовы запустить свой первый кластер?
Нажмите здесь, чтобы запустить кластер с помощью консоли управления Amazon EMR. На странице создания кластера перейдите в раздел расширенных настроек кластера, нажмите на серую кнопку «Создать демонстрационное приложение» в верхнем правом углу, если вы хотите запустить демонстрационное приложение с образцами данных.
Учебные пособия
Spark
Real-time stream processing using Apache Spark streaming and Apache Kafka on AWS
Узнайте, как настроить Apache Kafka на EC2, использовать Spark Streaming на EMR для обработки данных, приходящих в темы Apache Kafka, и выполнять запросы к данным потоковой передачи с помощью Spark SQL на EMR.
Large-scale machine learning with Spark on Amazon EMR
Узнайте, как Intent Media использует Spark и Amazon EMR в своих процессах моделирования.
HBase
Работа с SQL-запросами с низкими задержками и вторичными индексами с помощью Phoenix и HBase
Узнайте, как подключиться к Phoenix, используя JDBC, создать представление по существующей таблице HBase и создать дополнительный индекс для повышения скорости чтения
Использование HBase вместе с Hive для выполнения аналитических нагрузок в базах данных NoSQL
Узнайте, как запустить кластер EMR с помощью HBase и восстановить таблицу из снимка состояния в Amazon S3
Presto
Запуск кластера Amazon EMR с Presto и Airpal
Узнайте, как настроить кластер Presto и использовать Airpal для обработки данных, хранящихся в S3.
Hive
Использование HBase вместе с Hive для выполнения аналитических нагрузок в базах данных NoSQL
Узнайте, как запустить кластер EMR с помощью HBase и восстановить таблицу из снимка состояния в Amazon S3.
Process and analyze big data using Hive on Amazon EMR and MicroStrategy Suite
Узнайте, как подключиться к потоку заданий Hive, запущенному на Amazon Elastic MapReduce, чтобы создать безопасную и расширяемую платформу для создания отчетов и аналитики.
Flink
Build a real-time stream processing pipeline with Apache Flink on AWS
В этом учебном пособии описывается эталонная архитектура для последовательного, масштабируемого и надежного конвейера обработки потоков на основе Apache Flink с использованием Amazon EMR, Amazon Kinesis и Amazon Elasticsearch Service.
Обучайтесь в удобном темпе, используя другие руководства.
Обучение и справка
Краткосрочные проекты
Если вам нужна помощь в проверке опытного образца или по настройке приложений EMR, то в AWS есть глобальная служба поддержки, которая специализируется на EMR. Свяжитесь с нами, если вам потребуется дополнительная информация о платных краткосрочных проектах поддержки (от 2 до 6 недель).
Учебный курс AWS в области больших данных
Курс Big Data on AWS разработан для практического обучения использованию сервисов Amazon Web Services для обработки больших данных. AWS научит вас использовать Amazon EMR для обработки данных с помощью развитой системы инструментов Hadoop, таких как Pig или Hive. Кроме того, вы научитесь создавать в облаке среды с большими данными с помощью Amazon DynamoDB и Amazon Redshift, понимать достоинства Amazon Kinesis, а также выбирать лучшие методы создания сред с большими данными для повышения качества аналитики, безопасности и экономичности. Чтобы узнать больше о курсе по большим данным, нажмите здесь.
Дополнительное обучение
Адаптируемые стационарные курсы Scale Unlimited предназначены для быстрого обучения сотрудников вашей компании работе с EMR и другими технологиями больших данных. Для получения дополнительной информации нажмите здесь.
Дополнительные ресурсы
Создайте пример кластера Amazon EMR в Консоли управления AWS.
Получите мгновенный доступ к уровню бесплатного пользования AWS.
Дополнительные ресурсы по Amazon EMR