Apache Hadoop в сервисе Amazon EMR
Преимущества Apache Hadoop для EMR
Apache™ Hadoop® – это программный проект с открытым исходным кодом, предназначенный для эффективной обработки больших наборов данных. Вместо одного большого компьютера для обработки и хранения данных Hadoop предлагает использовать для параллельного анализа огромных наборов данных кластеры на базе стандартного аппаратного обеспечения.
В семействе Hadoop представлено множество приложений и механизмов выполнения, предлагающих различные инструменты для обработки аналитических рабочих нагрузок. Сервис Amazon EMR позволяет без труда создавать полностью настроенные эластичные кластеры инстансов Amazon EC2 для запуска Hadoop и других приложений, а также управлять этими кластерами.
В чем связь Hadoop с большими данными?
Благодаря широчайшим возможностям масштабирования Hadoop обычно используется для обработки больших данных. Для повышения производительности обработки кластера Hadoop добавьте дополнительные серверы с необходимыми объемами ресурсов ЦП и памяти.
Hadoop предлагает высокий уровень надежности и доступности при параллельной обработке вычислительных аналитических рабочих нагрузок. Благодаря сочетанию высокой доступности, надежности и масштабируемости процесса обработки Hadoop является наилучшим решением для работы с большими данными. Сервис Amazon EMR позволяет за несколько минут создать и настроить кластер инстансов Amazon EC2 для запуска Hadoop и начать извлекать пользу из своих данных.