Apache HBase – это распределенное хранилище для больших объемов данных, принадлежащее к семейству инструментов Apache Hadoop, с огромными возможностями масштабирования. Эта нереляционная база данных с открытым исходным кодом и функцией контроля версий работает на базе файловой системы Hadoop Distributed Filesystem (HDFS). Она создана для обеспечения стабильного произвольного доступа к таблицам, состоящим из миллиардов строк и миллионов столбцов, в режиме реального времени. Apache Phoenix интегрирован с Apache HBase для SQL-доступа с низкими задержками к таблицам Apache HBase и вторичной индексации с целью повышения производительности. Кроме того, база данных Apache HBase тесно интегрирована с Apache Hadoop, Apache Hive и Apache Pig, что позволяет легко объединить массово-параллельную аналитику и быстрый доступ к данным. Благодаря своей модели данных, пропускной способности и отказоустойчивости Apache HBase отлично справляется с рабочими нагрузками рекламных технологий, интернет-аналитики, финансовых операций и приложений, использующих временные ряды данных, а также со многими другими задачами.
Сервис Amazon EMR обеспечивает нативную поддержку Apache HBase, что позволяет быстро и просто создавать управляемые кластеры Apache HBase через Консоль управления AWS, интерфейс командной строки AWS или API Amazon EMR. Кроме того, в сервисе Amazon EMR доступны дополнительные возможности, включая выбор аппаратного обеспечения кластера из множества инстансов Amazon EC2 и томов Amazon EBS, резервное копирование и восстановление в сервисе Amazon S3 с использованием файловой системы Amazon EMR File System (EMRFS), автоматическую замену узлов, а также простые команды добавления или удаления инстансов для изменения размера кластера. Можно также использовать интерфейс Hue для визуализации таблиц HBase и просмотра данных. Подробнее об Apache HBase в Amazon EMR.
База данных Apache HBase рассчитана на поддержание высокой производительности при увеличении масштаба до сотен узлов для работы с миллиардами строк и миллионами столбцов. Она использует файловую систему Hadoop Distributed Filesystem (HDFS) в качестве отказоустойчивого хранилища данных, в котором файлы хранятся с трехкратной репликацией по всему кластеру. Сервис Amazon EMR поддерживает множество типов инстансов и томов Amazon EBS, что позволяет индивидуально настраивать аппаратное обеспечение кластера, оптимизируя затраты и производительность. Можно также использовать Apache Phoenix для отправки SQL-запросов с низкими задержками к массивным таблицам HBase или создания вторичных индексов для повышения производительности.
Тесная интеграция с проектами семейства Apache Hadoop позволяет легко выполнять массово-параллельные аналитические операции с данными в таблицах HBase. Вместе с Apache HBase в кластере Amazon EMR можно легко установить Apache Phoenix, Apache Hadoop, Apache Hive, Apache Pig и другие приложения с открытым исходным кодом для работы с большими данными, а также использовать их для создания отчетов, SQL-запросов и выполнения других аналитических операций с данными в таблицах Apache HBase. Кроме того, можно использовать эти инструменты для пакетного перемещения (импорта/экспорта) данных между Amazon S3 или HDFS и таблицами Apache HBase, или же с помощью Apache Hive объединять данные Apache HBase с внешними таблицами в Amazon S3.
Apache HBase – это колоночное хранилище, позволяющее задавать произвольные столбцы для каждой строки с целью фильтрации. Кроме того, HBase присваивает каждой ячейке временную метку и может сохранять предыдущие версии, обеспечивая простой доступ к истории изменений пакетов данных. Каждая ячейка представляет собой байтовый массив и способна хранить мегабайты полезных данных, обеспечивая гибкий выбор типов данных, хранимых в таблице. Apache Phoenix и Apache Hive позволяют получать SQL-доступ к таблицам Apache HBase.
Запустить полностью настроенный кластер Amazon EMR с установленным хранилищем Apache HBase и другими приложениями семейств Apache Hadoop и Apache Spark легко, сделать это можно за считаные минуты. Сервис Amazon EMR производит автоматическую замену низкопроизводительных узлов и позволяет легко изменять размер кластера в соответствии с потребностями. Вы можете управлять таблицами и просматривать данные в хранилище Apache HBase с помощью пользовательского интерфейса Hue, а также с легкостью резервировать и восстанавливать таблицы в Amazon S3, используя файловую систему EMRFS и Hadoop MapReduce. Вдобавок хранилище Apache HBase поддерживает наборы возможностей авторизации и шифрования сервиса Amazon EMR. Нажмите здесь, чтобы получить дополнительные сведения о возможностях сервиса Amazon EMR.
Компания Monster, мировой лидер в сфере поиска работы и персонала, использует Apache HBase в Amazon EMR для хранения истории посещений и данных рекламных кампаний с целью их последующего анализа. Это позволяет отслеживать реакцию различных пользователей в ходе той или иной кампании с детализацией вплоть до индивидуальной реакции. Группа аналитиков компании Monster может легко найти по строкам количество просмотров и кликов каждого пользователя, чтобы определить активность кампании. Кроме того, они пользуются преимуществами тесной интеграции Apache HBase с семейством инструментов Apache Hadoop. C помощью приложения Apache Hive, установленного на отдельном кластере Amazon EMR, компания Monster отправляет SQL-запросы к таблице Apache HBase, что позволяет провести дополнительный анализ и экспортировать данные из Apache HBase в Amazon Redshift.
- Инструкции по созданию кластера Amazon EMR c Apache HBase
- Подробнее о хранилище HBase см. на сайте Apache Software Foundation, посвященном проекту HBase
- Публикация в блоге AWS о запуске HBase 1.2 на Amazon EMR
- Руководство Работа с SQL-запросами с низкими задержками и вторичными индексами с помощью Phoenix и HBase