Apache HBase là gì?

Apache HBase là kho dữ liệu lớn phân tán, NoSQL, nguồn mở, cho phép truy cập ngẫu nhiên, hoàn toàn nhất quán, theo thời gian thực vào hàng petabyte dữ liệu. HBase rất hiệu quả trong việc xử lý các tập dữ liệu lớn, thưa thớt.

HBase tích hợp liền mạch với Apache Hadoop và hệ sinh thái Hadoop, đồng thời hoạt động dựa trên Hệ thống tệp phân tán Hadoop (HDFS) hoặc Amazon S3 sử dụng hệ thống tệp Amazon Elastic MapReduce (EMR) hay EMRFS. HBase đóng vai trò là đầu vào và đầu ra trực tiếp đối với khung Apache MapReduce cho Hadoop và hoạt động với Apache Phoenix để cho phép truy vấn tương tự SQL trên các bảng HBase. 

Logo HBase

HBase hoạt động như thế nào?

HBase là cơ sở dữ liệu phi quan hệ, hướng cột. Như vậy có nghĩa là dữ liệu được lưu trữ trong các cột riêng lẻ và được lập chỉ mục bằng một khóa hàng đơn nhất. Kiến trúc này cho phép truy xuất nhanh chóng các hàng và cột riêng lẻ, cũng như quét hiệu quả qua các cột riêng lẻ trong một bảng. Cả dữ liệu và yêu cầu đều được phân phối trên tất cả các máy chủ trong một cụm HBase. Nhờ đó, bạn có thể truy vấn kết quả trên hàng petabyte dữ liệu trong vài mili giây. HBase phát huy hiệu quả tốt nhất khi lưu trữ dữ liệu phi quan hệ, được truy cập thông qua API HBase. Apache Phoenix thường được dùng làm lớp SQL trên HBase nhằm giúp bạn có thể sử dụng cú pháp SQL quen thuộc để chèn, xóa và truy vấn dữ liệu lưu trữ trong HBase.

HBase mang lại những lợi ích gì?

Có khả năng mở rộng

HBase được thiết kế để xử lý việc điều chỉnh quy mô trên hàng nghìn máy chủ và quản lý quyền truy cập vào hàng petabyte dữ liệu. Với độ linh hoạt của Amazon EC2 và khả năng điều chỉnh quy mô của Amazon S3, HBase có thể xử lý hoạt động truy cập trực tuyến vào các tập dữ liệu cực lớn.

Nhanh

HBase cho phép truy cập đọc và ghi ngẫu nhiên với độ trễ thấp vào hàng petabyte dữ liệu bằng cách phân phối yêu cầu từ các ứng dụng trên một cụm máy chủ. Mỗi máy chủ đều có quyền truy cập vào dữ liệu trong HDFS và S3, cũng như phân phối các yêu cầu đọc và ghi trong vài mili giây.

Có khả năng chịu lỗi

HBase tách dữ liệu lưu trữ trong các bảng trên nhiều máy chủ trong cụm và được xây dựng để chịu được các lỗi máy chủ riêng lẻ. Vì dữ liệu được lưu trữ trên HDFS hoặc S3 nên HBase sẽ tự động chọn máy chủ hoạt động tốt để lưu trữ dữ liệu từng được máy chủ bị lỗi phân phối. Dữ liệu này sẽ tự động chuyển sang trạng thái trực tuyến.

Nên sử dụng Hbase trong những trường hợp nào?

FINRA – Cơ quan quản lý ngành tài chính – là cơ quan quản lý chứng khoán độc lập lớn nhất tại Hoa Kỳ, có nhiệm vụ giám sát và điều chỉnh các hoạt động giao dịch tài chính. FINRA sử dụng Amazon EMR để chạy Apache HBase trên Amazon S3 nhằm truy cập ngẫu nhiên vào 3 nghìn tỷ bản ghi (tăng hàng tỷ mỗi ngày) trong một ứng dụng tương tác để tìm kiếm và hiển thị các sự kiện thị trường liên quan. Bằng cách tách dung lượng lưu trữ và điện toán, FINRA có thể lưu trữ một bản sao dữ liệu trong Amazon S3 và điều chỉnh kích thước cụm cho khả năng điện toán cần thiết, thay vì điều chỉnh kích thước cụm để lưu trữ dữ liệu trong HDFS với việc sao chép 3 lần. Nhờ đó, người dùng tiết kiệm hơn 60% chi phí mỗi năm, có khả năng điều chỉnh quy mô điện toán dễ dàng và giảm thời gian khôi phục của một cụm trong vùng sẵn sàng mới của EC2 từ vài ngày xuống còn chưa đến 30 phút.

Monster, công ty hàng đầu toàn cầu về kết nối người và việc, sử dụng Apache HBase trên Amazon EMR để lưu trữ dữ liệu về đường dẫn nhấp chuột và chiến dịch quảng cáo cho phân tích hạ nguồn. Bằng cách này, họ có thể theo dõi hiệu quả của các phân khúc khách hàng khác nhau trong một chiến dịch cụ thể với độ chi tiết đến từng lượt hiển thị. Nhóm phân tích của Monster có thể dễ dàng quét qua các hàng để tổng hợp số lượt xem và lượt nhấp trên mỗi người dùng nhằm xác định hoạt động của chiến dịch. Ngoài ra, họ tận dụng khả năng tích hợp chặt chẽ của Apache HBase với hệ sinh thái Apache Hadoop. Monster chạy Apache Hive trên cụm Amazon EMR riêng biệt để truy vấn bảng HBase của họ bằng SQL. Cách này rất có ích trong việc phân tích bổ sung và xuất dữ liệu từ Apache HBase sang Amazon Redshift.  

AWS có thể hỗ trợ HBase và Hadoop bằng cách nào?

Amazon EMR cung cấp khung Hadoop được quản lý dễ dàng nhất, nhanh nhất và tiết kiệm chi phí nhất, giúp khách hàng xử lý lượng dữ liệu khổng lồ trên các phiên bản EC2 có thể điều chỉnh quy mô linh hoạt. Khách hàng cũng có thể chạy các khung phân tán phổ biến khác như Apache HBase, Hive, Spark, Presto và Flink trong EMR. 

Tìm hiểu thêm về Amazon EMR

Bắt đầu sử dụng Apache HBase trên AWS bằng cách tạo tài khoản AWS miễn phí ngay hôm nay.

Các bước tiếp theo trên AWS

Tham khảo các tài nguyên bổ sung liên quan đến sản phẩm
Đổi mới sáng tạo nhanh hơn với bộ dịch vụ Cơ sở dữ liệu toàn diện nhất  
Đăng ký tài khoản miễn phí

Nhận ngay quyền sử dụng Bậc miễn phí của AWS.

Đăng ký 
Bắt đầu xây dựng trong bảng điều khiển

Bắt đầu xây dựng trong AWS Management Console.

Đăng nhập