Сервис Amazon EMR программно устанавливает и настраивает приложения проекта Hadoop, включая Hadoop MapReduce, YARN, HDFS и Apache Tez на всех узлах кластера.

Apache Hadoop в сервисе Amazon EMR

Преимущества Apache Hadoop для EMR

Apache™ Hadoop® – это программный проект с открытым исходным кодом, предназначенный для эффективной обработки больших наборов данных. Вместо одного большого компьютера для обработки и хранения данных Hadoop предлагает использовать для параллельного анализа огромных наборов данных кластеры на базе стандартного аппаратного обеспечения.

В семействе Hadoop представлено множество приложений и механизмов выполнения, предлагающих различные инструменты для обработки аналитических рабочих нагрузок. Сервис Amazon EMR позволяет без труда создавать полностью настроенные эластичные кластеры инстансов Amazon EC2 для запуска Hadoop и других приложений, а также управлять этими кластерами.

Приложения и интерфейсы семейства Hadoop

Open all

Обзор

Под Hadoop обычно понимается проект Apache Hadoop, включающий MapReduce (платформу исполнения), YARN (менеджер ресурсов) и HDFS (распределенное хранилище). Можно также установить Apache Tez, платформу следующего поколения, для использования вместо Hadoop MapReduce в качестве механизма выполнения. Сервис Amazon EMR также содержит связующую библиотеку EMRFS, которая позволяет Hadoop использовать Amazon S3 в качестве уровня хранения.

Однако в семействе Hadoop существуют и другие приложения и платформы, включая инструменты для создания запросов с низкими задержками, графические интерфейсы для создания интерактивных запросов, различные интерфейсы наподобие SQL и распределенные базы данных NoSQL. Семейство Hadoop содержит множество инструментов с открытым исходным кодом, предназначенных для разработки дополнительных функциональных возможностей на базе основных компонентов Hadoop. С помощью Amazon EMR можно без труда установить и настроить в своем кластере такие инструменты, как Hive, Pig, Hue, Ganglia, Oozie и HBase. Помимо Hadoop, в Amazon EMR можно запускать другие интерфейсы, например Apache Spark для обработки данных в памяти или Presto для создания интерактивных SQL‑запросов.

Hadoop: основные компоненты

Open all

Обзор

Обработка данных с помощью Hadoop MapReduce, Tez и YARN

Хранилище на базе Amazon S3 и EMRFS

Файловая система EMR File System (EMRFS), которая применяется в кластерах Amazon EMR, позволяет использовать сервис Amazon S3 в качестве уровня хранения для Hadoop. Amazon S3 – это высокомасштабируемый экономичный сервис, предлагающий высокую надежность, благодаря чему он отлично подходит в качестве хранилища при обработке больших данных. Хранение данных в Amazon S3 дает возможность отделить уровень вычислений от уровня хранения, что позволяет задать размер кластера Amazon EMR с учетом необходимого объема ресурсов ЦП и памяти для обработки рабочих нагрузок. Это избавляет от необходимости включать в структуру кластера избыточные узлы, предназначенные для повышения объема кластерного хранилища. Кроме того, вы сможете останавливать кластер Amazon EMR в периоды простоя для экономии средств, при этом данные будут по‑прежнему доступны в Amazon S3.

Файловая система EMRFS оптимизирована под Hadoop и позволяет эффективно осуществлять параллельные операции чтения и записи данных с сервисом Amazon S3 напрямую, а также обрабатывать объекты, зашифрованные с помощью серверного и клиентского шифрования Amazon S3. EMRFS позволяет использовать Amazon S3 в качестве озера данных, при этом Hadoop в Amazon EMR можно задействовать в качестве уровня эластичных запросов.

Кластерное хранилище с системой HDFS

Преимущества Hadoop в Amazon EMR

Open all

Скорость и быстрота реагирования

Упрощение администрирования

Интеграция с другими сервисами AWS

Оплачивайте работу кластеров только тогда, когда они необходимы

Повышенная доступность и аварийное восстановление

Гибкое выделение ресурсов

В чем связь Hadoop с большими данными?

Благодаря широчайшим возможностям масштабирования Hadoop обычно используется для обработки больших данных. Для повышения производительности обработки кластера Hadoop добавьте дополнительные серверы с необходимыми объемами ресурсов ЦП и памяти.

Hadoop предлагает высокий уровень надежности и доступности при параллельной обработке вычислительных аналитических рабочих нагрузок. Благодаря сочетанию высокой доступности, надежности и масштабируемости процесса обработки Hadoop является наилучшим решением для работы с большими данными. Сервис Amazon EMR позволяет за несколько минут создать и настроить кластер инстансов Amazon EC2 для запуска Hadoop и начать извлекать пользу из своих данных.

Примеры использования

Apache и Hadoop – товарные знаки Apache Software Foundation.

Анализ навигации

Обработка данных журналов

Аналитика в масштабе нескольких петабайтов

Геномика

Извлечение, преобразование и загрузка данных (ETL)

Начало работы с Apache Hadoop на Amazon EMR

Pricing

Сведения о ценах на Amazon EMR

Перейти на страницу цен

Console

Готовы приступить к разработке?

Начало работы с Amazon EMR

Выберите настройки файлов cookie

Apache Hadoop в сервисе Amazon EMR

Преимущества Apache Hadoop для EMR

Page topics

Приложения и интерфейсы семейства Hadoop

Обзор

Hadoop: основные компоненты

Обзор

Обработка данных с помощью Hadoop MapReduce, Tez и YARN

Хранилище на базе Amazon S3 и EMRFS

Кластерное хранилище с системой HDFS

Преимущества Hadoop в Amazon EMR

Скорость и быстрота реагирования

Упрощение администрирования

Интеграция с другими сервисами AWS

Оплачивайте работу кластеров только тогда, когда они необходимы

Повышенная доступность и аварийное восстановление

Гибкое выделение ресурсов

В чем связь Hadoop с большими данными?

Примеры использования

Apache и Hadoop – товарные знаки Apache Software Foundation.

Анализ навигации

Обработка данных журналов

Аналитика в масштабе нескольких петабайтов

Геномика

Извлечение, преобразование и загрузка данных (ETL)

Начало работы с Apache Hadoop на Amazon EMR

Сведения о ценах на Amazon EMR

Готовы приступить к разработке?

Прекращение поддержки Internet Explorer