Apache HBase – это распределенное хранилище для больших объемов данных, принадлежащее к семейству инструментов Apache Hadoop, с огромными возможностями масштабирования. Эта нереляционная база данных с открытым исходным кодом и функцией контроля версий работает на базе сервиса Amazon S3 (использующего EMRFS) или файловой системы Hadoop Distributed Filesystem (HDFS). Она создана для обеспечения стабильного произвольного доступа к таблицам, состоящим из миллиардов строк и миллионов столбцов, в режиме реального времени. Apache Phoenix интегрирован с Apache HBase для SQL-доступа с низкими задержками к таблицам Apache HBase и вторичной индексации с целью повышения производительности. Кроме того, база данных Apache HBase тесно интегрирована с Apache Hadoop, Apache Hive и Apache Pig, что позволяет легко объединить массово-параллельную аналитику и быстрый доступ к данным. Благодаря своей модели работы с данными, пропускной способности и отказоустойчивости Apache HBase отлично справляется с рабочими нагрузками рекламных технологий, интернет-аналитики, финансовых операций и приложений, использующих временные ряды данных, а также со многими другими задачами.

Сервис Amazon EMR обладает встроенной поддержкой Apache HBase, что позволяет быстро и просто создавать управляемые кластеры Apache HBase через Консоль управления AWS, интерфейс командной строки AWS или API Amazon EMR. В сервисе Amazon EMR доступны дополнительные возможности, включая использование сервиса Amazon S3 в качестве хранилища данных для сокращения расходов, создание кластеров реплик чтения для увеличения доступности, выбор аппаратного обеспечения кластера из множества инстансов Amazon EC2 и томов Amazon EBS, резервное копирование и восстановление в сервисе Amazon S3 с использованием файловой системы Amazon EMR File System (EMRFS), автоматическая замена узлов, а также простые команды добавления или удаления инстансов для изменения размера кластера. Можно также использовать интерфейс Hue для визуализации таблиц HBase и просмотра данных. Подробнее об Apache HBase в Amazon EMR.

hbase_logo_with_orca_large

Начните работу с Apache HBase в Amazon EMR

Создать бесплатный аккаунт

Есть вопросы? Задайте их нам!


S3_Sketch_Available

База данных Apache HBase рассчитана на поддержание высокой производительности при увеличении масштаба до сотен узлов для работы с миллиардами строк и миллионами столбцов. Она использует Amazon S3 (с EMRFS) или файловую систему Hadoop Distributed Filesystem (HDFS) в качестве отказоустойчивого хранилища данных. Сервис Amazon EMR поддерживает множество типов инстансов и томов Amazon EBS, что позволяет индивидуально настраивать аппаратное обеспечение кластера, оптимизируя затраты и производительность. Можно также использовать Apache Phoenix для отправки SQL-запросов с низкими задержками к массивным таблицам HBase или создания вторичных индексов для повышения производительности.

S3_Sketch_HighPerformance

Тесная интеграция с проектами семейства Apache Hadoop позволяет легко выполнять массово-параллельные аналитические операции с данными в таблицах HBase. Вместе с Apache HBase в кластере Amazon EMR можно легко установить Apache PhoenixApache Hadoop, Apache Hive, Apache Pig и другие приложения с открытым исходным кодом для работы с большими данными, а также использовать их для создания отчетов, SQL-запросов и выполнения других аналитических операций с данными в таблицах Apache HBase. Кроме того, эти инструменты можно использовать для пакетного перемещения (импорта/экспорта) данных из таблиц Apache HBase или же с помощью Apache Hive объединять данные Apache HBase с внешними таблицами в Amazon S3.

Benefit_Compliance_Orange

Apache HBase – это колоночное хранилище, позволяющее задавать произвольные столбцы для каждой строки с целью фильтрации. Кроме того, HBase присваивает каждой ячейке временную метку и может сохранять предыдущие версии, обеспечивая простой доступ к истории изменений пакетов данных. Каждая ячейка представляет собой байтовый массив и способна хранить мегабайты полезных данных, обеспечивая гибкий выбор типов данных, хранимых в таблице. Apache Phoenix и Apache Hive позволяют получать SQL-доступ к таблицам Apache HBase.

Benefit_Integration_Green

Запустить полностью настроенный кластер Amazon EMR с установленным хранилищем Apache HBase и другими приложениями семейств Apache Hadoop и Apache Spark легко, сделать это можно за считаные минуты. Сервис Amazon EMR производит автоматическую замену низкопроизводительных узлов и позволяет легко изменять размер кластера в соответствии с потребностями. Вы можете управлять таблицами и просматривать данные в хранилище Apache HBase с помощью пользовательского интерфейса Hue, а также с легкостью резервировать и восстанавливать таблицы в Amazon S3, используя файловую систему EMRFS и Hadoop MapReduce. Вдобавок хранилище Apache HBase поддерживает авторизацию Amazon EMR, аутентификацию по протоколу Kerberos и набор возможностей шифрования. Щелкните здесь, чтобы получить дополнительные сведения о возможностях сервиса Amazon EMR.

Benefit_Simple_Red

Amazon EMR позволяет использовать Amazon S3 в качестве хранилища данных для Apache HBase, использующего файловую систему EMR. Разделение хранилища и вычислительных узлов кластера путем использования Amazon S3 в качестве хранилища данных обеспечивает ряд преимуществ по сравнению с файловой системой HDFS на кластере. Можно сократив расходы, определив размер кластера на основе требований к вычислительным ресурсам, а не требований к хранилищу данных HDFS, получить доступность и надежность хранилища S3, масштабировать вычислительные узлы без влияния на базовое хранилище, прекращать работу кластера для сокращения расходов, а затем быстро его восстанавливать. Можно также создавать и настраивать кластер реплики чтения в другой зоне доступности Amazon EC2, обеспечивающей доступ только для чтения к тем же данным, что и основной кластер, и обеспечивать непрерывный доступ к используемым данным, даже если основной кластер становится недоступным.


FINRA

Агентство по регулированию деятельности финансовых институтов (FINRA) – это крупнейший независимый орган контроля рынка ценных бумаг в США, который занимается контролем и регулированием процедур финансовой торговли. Агентство FINRA использует сервис Amazon EMR для запуска Apache HBase на Amazon S3 и предоставления произвольного доступа к 3 трлн записей (количество которых увеличивается на миллиарды в день) с помощью интерактивного приложения, которое создано для поиска и отображения связанных событий рынка. За счет разделения вычислительных ресурсов и ресурсов хранения агентство FINRA может хранить одну копию данных в Amazon S3 и изменять размер кластера для получения необходимого объема вычислительных ресурсов, вместо того чтобы изменять размер кластера для обеспечения хранения данных в файловой системе HDFS с трехкратной репликацией. Такой подход позволяет сократить ежегодные затраты на 60 %, легко масштабировать вычислительные ресурсы, а также сократить время восстановления кластера в новой зоне доступности EC2 с нескольких дней до менее 30 минут.

Monster.com

Компания Monster, мировой лидер в сфере поиска работы и персонала, использует Apache HBase в Amazon EMR для хранения истории посещений и данных рекламных кампаний с целью их последующего анализа. Это позволяет отслеживать реакцию различных пользователей в ходе той или иной кампании с детализацией вплоть до индивидуальной реакции. Группа аналитиков компании Monster может легко найти по строкам количество просмотров и кликов каждого пользователя, чтобы определить активность кампании. Кроме того, они пользуются преимуществами тесной интеграции Apache HBase с семейством инструментов Apache Hadoop. C помощью приложения Apache Hive, установленного на отдельном кластере Amazon EMR, компания Monster отправляет SQL-запросы к таблице Apache HBase, что позволяет провести дополнительный анализ и экспортировать данные из Apache HBase в Amazon Redshift.