- Аналитика›
- Amazon EMR›
- Начало работы
Начало работы с Amazon EMR
Как использовать EMR
1. Создайте приложение обработки данных
Можно использовать Java, Hive (язык на основе SQL), Pig (язык обработки данных), Cascading, Ruby, Perl, Python, R, PHP, C++ или Node.js. Amazon EMR предоставляет примеры кода и учебные пособия, которые помогут вам быстро приступить к работе.
Процессоры с таковой частотой 2, Загрузите приложение и данные в Amazon S3
Если требуется загрузить большой объем данных, можно воспользоваться решением AWS Import/Export Snowball для загрузки данных с помощью физического устройства хранения или сервисом AWS Direct Connect для загрузки данных из центра обработки данных в AWS с помощью выделенного сетевого подключения. Можно также записать данные напрямую в работающий кластер.
3. Настройте и запустите кластер
С помощью Консоли управления AWS, AWS CLI, SDK или API укажите число инстансов Amazon EC2, выделяемых для кластера, типы используемых инстансов (стандартные, с преобладанием памяти, с преобладанием ресурсов ЦП, с высокой производительностью ввода-вывода и т. д.), приложения для установки (Apache Spark, Apache Hive, Apache HBase, Presto и т. д.), а также местоположение приложений и данных. Для установки дополнительного ПО или изменения настроек по умолчанию можно использовать действия при начальной загрузке.
4. Следите за работой кластера
Вы можете отслеживать состояние и выполнение работы кластера с помощью консоли управления, интерфейса командной строки, SDK или API. EMR интегрируется с Amazon CloudWatch для мониторинга и отправки оповещений и поддерживает такие широко распространенные инструменты мониторинга, как Ganglia. Если объем обрабатываемых данных возрастет или сократится, вы в любой момент можете изменить размер кластера, добавив или удалив ресурсы. Для удобства устранения неполадок в консоли предусмотрен простой графический пользовательский интерфейс для отладки.
5. Получите выходные данные
Получить выходные данные можно из хранилища Amazon S3 или HDFS кластера. Визуализируйте данные с помощью таких инструментов, как Amazon QuickSight, Tableau и MicroStrategy. Amazon EMR автоматически остановит кластер после завершения обработки. Можно не останавливать кластер, а назначить новые задания.
Вы готовы запустить свой первый кластер?
Учебные пособия
Обучение и справка
Курс Big Data on AWS разработан для практического обучения использованию сервисов Amazon Web Services для взаимодействия с рабочими нагрузками, связанными с большими данными. AWS покажет вам, как запускать задания Amazon EMR для обработки данных с помощью таких широких инструментов Hadoop, как Pig and Hive. Кроме того, вы научитесь создавать в облаке среды с большими данными с помощью Amazon DynamoDB и Amazon Redshift, понимать достоинства Amazon Kinesis, а также выбирать лучшие методы создания сред с большими данными для повышения качества аналитики, безопасности и экономичности. Для того чтобы узнать больше о курсе по большим данным, нажмите здесь.
Адаптируемые стационарные курсы Scale Unlimited предназначены для быстрого обучения сотрудников вашей компании работе с EMR и другими технологиями больших данных. Чтобы узнать больше, нажмите здесь.