Видео «A Technical Introduction to Amazon EMR» (AWS re:Invent, октябрь 2015 г., общее время 50 минут)

Amazon EMR – это управляемая среда, которая позволяет легко, экономично и безопасно запускать в AWS инфраструктуры обработки данных, такие как Apache Hadoop, Apache Spark и Presto. Данная презентация знакомит с ключевыми принципами, на которых основана работа этих инфраструктур в облаке, и возможностями, предоставляемыми Amazon EMR. Мы обсудим преимущества разъединения вычислительных ресурсов и хранилищ, а также стратегии наиболее эффективного использования возможностей масштабирования и параллельной обработки данных, предоставляемых облаком, с одновременным сокращением затрат. Кроме того, старший инженер-программист AOL расскажет о том, как компания использовала упомянутые стратегии для переноса рабочих нагрузок Hadoop в облако AWS, и о выводах, которые были при этом сделаны.

 

Видео «Amazon EMR, Deep Dive and Best Practices» (AWS re:Invent, октябрь 2015 г., общее время 49 минут)

Эта презентация знакомит с шаблонами проектирования Amazon EMR, такими как использование Amazon S3 вместо HDFS, использование преимуществ долговременных и кратковременных кластеров, и с другими рекомендациями по архитектуре Amazon EMR. Мы расскажем о том, как динамически масштабировать кластер в сторону увеличения или уменьшения, и о способах тонкой настройки кластера. Мы также поделимся рекомендациями по снижению стоимости использования кластера Amazon EMR. Наконец, будет рассказано о некоторых нововведениях, что позволит вам оставаться в курсе наших последних разработок.

  1. Создайте приложение обработки данных. Можно использовать Java, Hive (язык нa основе SQL), Pig (язык обработки данных), Cascading, Ruby, Perl, Python, R, PHP, C++ или Node.js. Amazon EMR предоставляет образцы кода и руководства, чтобы помочь вам начать работу и быстро запустить приложение.
  2. Загрузите приложение и данные в Amazon S3. Если требуется загрузить большой объем данных, можно воспользоваться решением AWS Import/Export Snowball для загрузки данных с помощью физического устройства хранения или сервисом AWS Direct Connect для загрузки данных из вашего ЦОД в сервис AWS с помощью выделенного сетевого соединения. Можно также записать данные напрямую в работающий кластер.
  3. Настройте и запустите кластер. С помощью Консоли управления AWS, интерфейса командной строки AWS, SDK или API укажите число инстансов Amazon EC2, выделяемых для кластера, типы используемых инстансов (стандартные, с преобладанием памяти, с преобладанием ресурсов ЦП, с высокой производительностью ввода-вывода и т. д.), приложения для установки (Hive, Pig, HBase и т. д.), а также местоположение приложений и данных. Для установки дополнительного ПО или изменения настроек по умолчанию можно использовать установочные скрипты.
  4. Мониторинг кластера (необязательно). Вы можете отслеживать состояние и выполнение работы кластера с помощью консоли управления, интерфейса командной строки, SDK или API. EMR интегрируется с Amazon CloudWatch для мониторинга и отправки оповещений и поддерживает такие широко распространенные инструменты мониторинга, как Ganglia. Если объем обрабатываемых данных возрастет или сократится, вы в любой момент можете добавить или удалить ресурсы. Для удобства решения проблем в консоли есть простой графический пользовательский интерфейс для отладки.
  5. Получите выходные данные. Получить выходные данные можно из хранилища Amazon S3 или HDFS кластера. Визуализация данных выполняется с помощью таких инструментов, как Tableau и MicroStrategy. Amazon EMR автоматически остановит кластер после завершения обработки. Можно не останавливать кластер, а назначить новые задания.

Вы готовы запустить свой первый кластер?

Нажмите здесь, чтобы запустить кластер с помощью консоли управления Amazon EMR. На странице создания кластера перейдите в раздел расширенных настроек кластера, нажмите на серую кнопку «Создать демонстрационное приложение» в верхнем правом углу, если вы хотите запустить демонстрационное приложение с образцами данных.

Для просмотра пошагового руководства нажмите здесь. В данном руководстве объясняется процесс создания кластера, который подсчитывает частоту употребления слов в текстовом файле.

Начните работу с Amazon EMR

Создать бесплатный аккаунт

Есть вопросы? Задайте их нам!

Если вам нужна помощь в проверке концепции или по настройке приложений EMR, то в AWS есть глобальная служба поддержки, которая специализируется на EMR.  Свяжитесь с нами, если вам потребуется дополнительная информация о краткосрочных проектах (от 2 до 6 недель).

Курс Big Data on AWS разработан для практического обучения использованию сервисов Amazon Web Services для обработки больших данных. AWS научит вас использовать Amazon EMR для обработки данных с помощью развитой системы инструментов Hadoop, таких как Pig или Hive. Кроме того, вы научитесь создавать в облаке среды с большими данными с помощью Amazon DynamoDB и Amazon Redshift, понимать достоинства Amazon Kinesis, а также выбирать лучшие методы создания сред с большими данными для повышения качества аналитики, безопасности и экономичности.  Чтобы узнать больше о курсе Big Data on AWS, нажмите здесь.

Если вы планируете выполнять обработку данных объемом более 1 ТБ в день, вы можете подать заявку на участие в онлайн-семинаре EMR Bootcamp, который включает практическую и теоретическую составляющие. В семинаре принимает участие архитектор решений AWS, специализирующийся на работе с EMR.  Чтобы получить дополнительную информацию, нажмите здесь или свяжитесь с нами.

Адаптируемые стационарные курсы Scale Unlimited предназначены для быстрого обучения сотрудников вашей компании работе с EMR и другими технологиями больших данных.  Для получения дополнительной информации нажмите здесь.