Начать работу с проектом

5 шагов  |  60 минут

Analyze_Big_Data_HERO-ART_SM

Вопрос: Что такое Amazon EMR?

Amazon EMR – управляемый сервис Hadoop, который позволяет запускать на полностью настраиваемых кластерах последние версии систем для работы с большими данными, включая Apache Spark, Presto, HBase, Hive и другие. Amazon EMR предоставляет пользователю полный контроль над конфигурацией кластеров и устанавливаемым на них ПО.

Вопрос: Для чего предназначен сервис Amazon EMR?

Amazon EMR позволяет мгновенно выделить нужное количество ресурсов для запуска популярных систем с открытым исходным кодом, таких как Hadoop и Spark, в целях выполнения задач по интенсивной обработке данных. Типичные примеры использования включают индексацию интернет-ресурсов, интеллектуальный анализ данных, анализ файлов журналов, задачи в области извлечения, трансформации и загрузки данных (ETL), машинное обучение, финансовый анализ, научное имитационное моделирование и исследования в области биоинформатики. Amazon EMR позволяет сконцентрироваться на задачах по обработке или анализу данных, не тратя время на создание и настройку кластеров Hadoop, а также управление ими или вычислительными мощностями, на которых они работают.

Amazon EMR идеально подходит для задач, требующих быстрой и эффективной обработки больших объемов данных. Интерфейсы этого веб-сервиса позволяют организовать потоковую обработку заданий и программный мониторинг работы запущенных кластеров. Пользователи могут развертывать кластеры и следить за выполнением сложных вычислительных задач через простой веб-интерфейс Консоли управления AWS.

Вопрос: Можно ли использовать данный проект для анализа своих файлов журналов?

Да. Достаточно загрузить файлы журналов в корзину Amazon S3 и обработать данные в аналогичном кластере. Обратите внимание: данный проект не предназначен для использования в рабочей среде.

Вопрос: Как отправить данные в хранилище Amazon S3?
Консоль управления AWS позволяет легко и безопасно создавать корзины, загружать объекты и настраивать доступ к ним. Руководство по началу работы с Amazon S3 содержит необходимые сведения, позволяющие начать работу с сервисом Amazon S3 с помощью Консоли управления AWS.

Amazon S3 также интегрирован с рядом других сервисов AWS и коннекторами сторонних разработчиков, помогающими выполнять передачу данных в облако и из него. Подробнее об инструментах миграции данных в облако.

Вопрос: Насколько защищены мои данные?

Amazon S3 безопасен по умолчанию. Лишь владельцы корзин и объектов изначально имеют доступ к создаваемым ими ресурсам Amazon S3. Amazon S3 поддерживает аутентификацию пользователей для управления доступом к данным. Существует также возможность в безопасном режиме выгружать и загружать данные в сервис Amazon S3 через конечные точки SSL, используя протокол HTTPS. Для управления доступом и разрешениями можно использовать инструменты AWS Identity and Access Management (IAM), такие как пользователи и роли IAM. Например, определенным пользователям можно открыть доступ к кластерам для чтения, но не для записи. Кроме того, можно использовать конфигурации безопасности Amazon EMR для настройки различных вариантов шифрования данных при хранении и передаче, включая поддержку шифрования для Amazon S3. Подробнее об управлении доступом к кластеру и возможностях шифрования Amazon EMR.

Начать работу с проектом