Начать работу с проектом

5 шагов  |  60 минут

Analyze_Big_Data_HERO-ART_SM

Amazon EMR – это управляемый сервис, который позволяет быстро, просто и экономично использовать Apache Hadoop и Spark для обработки больших объемов данных. Amazon EMR поддерживает использование эффективных и проверенных инструментов Hadoop, таких как Presto, Hive, Pig, HBase и т. д. В рамках данного проекта можно всего за пару минут выполнить развертывание кластера Hadoop, готового к анализу данных журналов. Для начала нужно запустить кластер Amazon EMR, затем с помощью скрипта HiveQL обработать данные из образца журнала, сохраненные в корзине Amazon S3. HiveQL – это похожий на SQL язык скриптов для хранения и анализа данных. Используя аналогичные процедуры, можно начать анализ своих файлов журналов.

aws-project_analyze-big-data_diagram
Начать работу с проектом

В рамках проекта выполняются следующие задачи.

Запуск полнофункционального кластера Hadoop с помощью Amazon EMR.

Определение схемы и создание таблицы для данных из образца журнала, сохраненного в Amazon S3.

Анализ данных с помощью скрипта HiveQL и запись результатов в Amazon S3.

Загрузка и просмотр результатов на компьютере пользователя.

Что потребуется для начала работы.

Аккаунт AWS. Для выделения ресурсов, на которых будет размещен веб-сайт, потребуется аккаунт AWS. Регистрация в AWS.

Опыт работы с ИТ-системами. Рекомендуется наличие опыта работы с Hadoop, но для выполнения данного проекта это не обязательно.

Опыт работы с AWS. Рекомендуется наличие базовых знаний о парах ключей Amazon S3 и Amazon EC2, но для выполнения данного проекта это не обязательно.

Оценка стоимости.

Стоимость выполнения данного проекта. Расчетная стоимость выполнения проекта составляет 1,05 USD. Расчет произведен с учетом следующих факторов: аккаунт находится на уровне бесплатного пользования AWS, пользователь придерживается рекомендованных настроек, а все ресурсы, использованные в рамках проекта, удаляются в течение часа после создания. В конкретном случае пользователю могут потребоваться другие настройки, что повлечет за собой изменение стоимости. Рассчитать стоимость в соответствии с конкретными требованиями можно с помощью Калькулятора.

Оценка ежемесячной стоимости использования. Общая стоимость проекта может отличаться в зависимости от объемов использования и настроек конфигурации. При использовании конфигурации по умолчанию, рекомендованной в данном руководстве, ежемесячная стоимость данного проекта составит 769 USD. В основе ценообразования AWS лежит использование каждого отдельного сервиса. Ежемесячный счет на оплату формируется на основе суммарного использования всех сервисов. На вкладках ниже приводится описание того, какую работу выполняет каждый сервис и как это отражается на итоговом счете. Чтобы узнать, из чего будут складываться расходы на использование связанных сервисов, см. раздел Используемые сервисы и цены.


Подробнее о решениях AWS для работы с большими данными и регистрация для участия в вебинаре.

Подробнее о возможностях, преимуществах и основных способах использования Amazon EMR.

Требуется больше ресурсов, чтобы начать работу с AWS? Подробнее о них см. на странице центра ресурсов для начала работы.