Apache HBase – это распределенное хранилище больших данных с огромными возможностями масштабирования в системе инструментов Apache Hadoop. Эта нереляционная база данных с открытым исходным кодом и возможностью контроля версий работает на базе Amazon S3 (с использованием EMRFS) или распределенной файловой системы Hadoop (HDFS). Она создана для обеспечения строго непротиворечивого произвольного доступа к таблицам, состоящим из миллиардов строк и миллионов столбцов, в режиме реального времени. С Apache HBase интегрирован механизм Apache Phoenix для SQL‑доступа с низкой задержкой к таблицам Apache HBase и вторичной индексации в целях повышения производительности. Кроме того, база данных Apache HBase тесно интегрирована с Apache Hadoop, Apache Hive и Apache Pig, что позволяет без труда объединить массово‑параллельную аналитику и быстрый доступ к данным. Благодаря своей модели работы с данными, пропускной способности и отказоустойчивости Apache HBase отлично справляется с рабочими нагрузками в области рекламных технологий, интернет‑аналитики, финансовых сервисов и приложений, использующих временные ряды данных, а также со многими другими задачами.
Amazon EMR обладает встроенной поддержкой Apache HBase, что позволяет быстро и просто создавать управляемые кластеры Apache HBase через Консоль управления AWS, интерфейс командной строки AWS или API сервиса Amazon EMR. Amazon EMR также предлагает дополнительные возможности, такие как использование сервиса Amazon S3 в качестве хранилища данных для сокращения расходов, создание кластеров реплик чтения для увеличения доступности, выбор аппаратного обеспечения кластера из множества инстансов Amazon EC2 и томов Amazon EBS, резервное копирование и восстановление в сервисе Amazon S3 с использованием файловой системы Amazon EMR File System (EMRFS), автоматическая замена узлов, а также простые команды для изменения размера кластера путем добавления или удаления инстансов. Можно также использовать интерфейс Hue для визуализации таблиц HBase и просмотра данных. Подробнее об Apache HBase и Apache HBase в Amazon EMR.
Возможности и преимущества
Производительность при любом масштабе
База данных Apache HBase рассчитана на обеспечение высокой производительности при увеличении масштаба до сотен узлов для работы с миллионами столбцов и миллиардами строк. Она использует Amazon S3 (с EMRFS) или распределенную файловую систему Hadoop (HDFS) в качестве отказоустойчивого хранилища данных. Сервис Amazon EMR поддерживает множество типов инстансов и томов Amazon EBS, что позволяет индивидуально настраивать аппаратное обеспечение кластера для оптимизации затрат и производительности. Можно также использовать Apache Phoenix для отправки SQL‑запросов к массивным таблицам HBase с низкими задержками или создания вторичных индексов с целью повышения производительности.
Аналитические процессы
Тесная интеграция с проектами семейства Apache Hadoop упрощает выполнение массово‑параллельных аналитических операций с данными в таблицах HBase. Вместе с Apache HBase в кластере Amazon EMR можно без труда установить Apache Phoenix, Apache Hadoop, Apache Hive, Apache Pig и другие приложения с открытым исходным кодом для работы с большими данными, а также использовать их для создания отчетов, SQL‑запросов и выполнения других аналитических операций с данными в таблицах Apache HBase. Кроме того, эти инструменты можно использовать для пакетного перемещения (импорта / экспорта) данных в таблицах Apache HBase. Для объединения данных Apache HBase с внешними таблицами в Amazon S3 можно применять Apache Hive.
Интеграция с Amazon EMR
Запустить полностью настроенный кластер Amazon EMR с Apache HBase и другими приложениями семейств Apache Hadoop и Apache Spark можно очень просто, за считаные минуты. Сервис Amazon EMR производит автоматическую замену низкопроизводительных узлов и позволяет без труда изменять размер кластера в соответствии с потребностями. Управлять таблицами и просматривать данные в Apache HBase можно с помощью пользовательского интерфейса Hue, а резервировать и восстанавливать таблицы в Amazon S3 очень просто благодаря файловой системе EMRFS и Hadoop MapReduce. Вдобавок хранилище Apache HBase поддерживает авторизацию Amazon EMR, аутентификацию по протоколу Kerberos и набор возможностей шифрования. Нажмите здесь, чтобы получить дополнительные сведения о возможностях сервиса Amazon EMR.
Хранилище Amazon S3 для HBase
Amazon EMR позволяет применять Amazon S3 в качестве хранилища данных для Apache HBase с использованием файловой системы EMR. Разделение хранилища и вычислительных узлов кластера путем использования Amazon S3 в качестве хранилища данных обеспечивает ряд преимуществ по сравнению с файловой системой HDFS на кластере. Можно сэкономить, определив размер кластера на основе требований к вычислительным ресурсам, а не требований к хранилищу данных HDFS, и получить при этом доступное и надежное хранилище на базе S3. Можно масштабировать вычислительные узлы без влияния на базовое хранилище, прекращать работу кластера для сокращения расходов, а затем быстро его восстанавливать. Кроме того, можно создать и настроить кластер реплики чтения в другой зоне доступности Amazon EC2, обеспечивающий доступ только для чтения к тем же данным, что и основной кластер. Это гарантирует непрерывный доступ к используемым данным, даже если основной кластер становится недоступным.
Истории успеха клиентов, использующих HBase и Amazon EMR

Агентство по регулированию деятельности финансовых институтов (FINRA) – это крупнейший независимый орган контроля рынка ценных бумаг в США, который занимается отслеживанием и регулированием процедур финансовой торговли. Агентство FINRA использует сервис Amazon EMR для запуска Apache HBase на Amazon S3, чтобы обеспечить работу интерактивного приложения для поиска и отображения связанных событий рынка. Приложение получает произвольный доступ к 3 трлн записей, количество которых увеличивается на миллиарды в день. Благодаря разделению вычислительных ресурсов и ресурсов хранения агентство FINRA может хранить в Amazon S3 одну копию данных и адаптировать размер кластера для получения необходимого объема вычислительных ресурсов, а не для хранения данных в файловой системе HDFS с трехкратной репликацией. Такой подход сокращает ежегодные затраты на 60 %, позволяет без труда масштабировать вычислительные ресурсы и выполнять восстановление кластера в новой зоне доступности EC2 менее чем за 30 минут, а не за несколько дней.

Компания Monster, мировой лидер в сфере поиска работы и персонала, использует Apache HBase в Amazon EMR для хранения истории посещений и данных рекламных кампаний с целью их последующего анализа. Это позволяет отслеживать эффективность рекламных кампаний для разных категорий клиентов с детализацией вплоть до отдельного показа. Группа аналитиков компании Monster может без труда найти по строкам количество просмотров и переходов каждого пользователя, чтобы определить активность кампании. Кроме того, они пользуются преимуществами тесной интеграции Apache HBase с семейством инструментов Apache Hadoop. C помощью системы Apache Hive, установленной на отдельном кластере Amazon EMR, компания Monster отправляет SQL‑запросы к таблице Apache HBase, что позволяет проводить дополнительный анализ и экспортировать данные из Apache HBase в Amazon Redshift.
Публикации в блоге


Подробнее о ценах на Amazon EMR