Kho dữ liệu là gì?

Kho dữ liệu là một kho lưu trữ thông tin trung tâm có thể được phân tích để đưa ra các quyết định sáng suốt hơn. Dữ liệu truyền vào kho dữ liệu từ các hệ thống giao dịch, cơ sở dữ liệu quan hệ và các nguồn khác, thường là trên cơ sở đều đặn. Các nhà phân tích kinh doanh, kỹ sư dữ liệu, nhà khoa học dữ liệu và người ra quyết định truy cập dữ liệu thông qua các công cụ nghiệp vụ thông minh (BI), máy khách SQL và các ứng dụng phân tích khác.

Dữ liệu và phân tích đã trở thành những yếu tố không thể thiếu đối với các doanh nghiệp để có thể duy trì tính cạnh tranh. Người dùng doanh nghiệp dựa vào báo cáo, bảng thông tin và công cụ phân tích để trích xuất thông tin chuyên sâu từ dữ liệu, giám sát hiệu suất kinh doanh và hỗ trợ ra quyết định. Kho dữ liệu cung cấp dữ liệu cho các báo cáo, bảng thông tin và công cụ phân tích này bằng cách lưu trữ dữ liệu một cách hiệu quả để giảm thiểu đầu vào và đầu ra (I/O) của dữ liệu và nhanh chóng cung cấp kết quả truy vấn cho hàng trăm và hàng nghìn người dùng cùng lúc.

Kho dữ liệu được tạo kiến trúc như thế nào?

Kho dữ liệu có kiến trúc gồm các tầng. Tầng trên là máy khách frontend, biểu diễn kết quả thông qua các công cụ báo cáo, phân tích và khai thác dữ liệu. Tầng giữa bao gồm công cụ phân tích được dùng để truy cập và phân tích dữ liệu. Tầng dưới của kiến trúc là máy chủ cơ sở dữ liệu, nơi dữ liệu được tải và lưu trữ. Dữ liệu được lưu trữ theo hai cách khác nhau: 1) dữ liệu được truy cập thường xuyên sẽ được lưu trữ trong bộ nhớ rất nhanh (như ổ SSD) và 2) dữ liệu không thường xuyên được truy cập sẽ được lưu trữ trong một kho đối tượng giá rẻ, như Amazon S3. Kho dữ liệu sẽ tự động đảm bảo rằng dữ liệu được truy cập thường xuyên sẽ được chuyển vào bộ lưu trữ “nhanh” để tốc độ truy vấn được tối ưu hóa.

Kho dữ liệu hoạt động như thế nào?

Một kho dữ liệu có thể chứa nhiều cơ sở dữ liệu. Trong mỗi cơ sở dữ liệu, dữ liệu được sắp xếp thành các bảng và cột. Trong mỗi cột, bạn có thể xác định mô tả dữ liệu, chẳng hạn như số nguyên, trường dữ liệu hoặc chuỗi. Các bảng có thể được sắp xếp bên trong các lược đồ, có thể xem là các thư mục. Khi được nhập vào, dữ liệu sẽ được lưu trữ trong các bảng khác nhau được mô tả bởi lược đồ. Các công cụ truy vấn sử dụng lược đồ để xác định bảng dữ liệu nào cần truy cập và phân tích.

Lợi ích của việc sử dụng kho dữ liệu là gì?

Lợi ích của kho dữ liệu bao gồm:

  • Ra quyết định sáng suốt
  • Tổng hợp dữ liệu từ nhiều nguồn
  • Phân tích dữ liệu lịch sử
  • Dữ liệu có chất lượng, nhất quán và chính xác
  • Tách việc xử lý phân tích khỏi cơ sở dữ liệu giao dịch, giúp cải thiện hiệu suất của cả hai hệ thống

Kho dữ liệu, cơ sở dữ liệu và hồ dữ liệu hoạt động cùng nhau như thế nào?

Thông thường, các doanh nghiệp sử dụng kết hợp cơ sở dữ liệu, hồ dữ liệu và kho dữ liệu để lưu trữ và phân tích dữ liệu. Kiến trúc kho hồ của Amazon Redshift giúp việc tích hợp này trở nên dễ dàng.

Khi khối lượng và sự đa dạng của dữ liệu tăng lên, bạn nên tuân theo một hoặc nhiều mẫu phổ biến để làm việc với dữ liệu trên cơ sở dữ liệu, hồ dữ liệu và kho dữ liệu của bạn:

Hình ảnh (ở trên): Đặt dữ liệu trong cơ sở dữ liệu hoặc hồ dữ liệu, chuẩn bị dữ liệu, di chuyển dữ liệu đã chọn vào kho dữ liệu, sau đó thực hiện báo cáo.
Hình ảnh (ở trên): Đặt dữ liệu vào kho dữ liệu, phân tích dữ liệu, sau đó chia sẻ dữ liệu để sử dụng với các dịch vụ phân tích và máy học khác.
 
Kho dữ liệu được thiết kế đặc biệt để phân tích dữ liệu, liên quan đến việc đọc một lượng lớn dữ liệu để hiểu các mối quan hệ và xu hướng trên dữ liệu. Cơ sở dữ liệu được sử dụng để thu thập và lưu trữ dữ liệu, chẳng hạn như ghi lại chi tiết của một giao dịch.

Tìm hiểu về cơ sở dữ liệu »

Không giống như kho dữ liệu, hồ dữ liệu là một kho lưu trữ tập trung cho tất cả dữ liệu, bao gồm có cấu trúc, bán cấu trúc và không cấu trúc. Một kho dữ liệu yêu cầu dữ liệu được tổ chức theo định dạng bảng, đó là nơi lược đồ phát huy tác dụng. Định dạng bảng là cần thiết để SQL có thể được sử dụng để truy vấn dữ liệu. Nhưng không phải tất cả các ứng dụng đều yêu cầu dữ liệu ở định dạng bảng. Một số ứng dụng, như phân tích dữ liệu lớn, tìm kiếm toàn văn và máy học, có thể truy cập dữ liệu ngay cả khi dữ liệu ở dạng “bán cấu trúc” hoặc hoàn toàn không có cấu trúc.

Tìm hiểu về hồ dữ liệu »

Để so sánh chuyên sâu giữa kho dữ liệu và hồ dữ liệu, hãy truy cập trang so sánh chuyên dụng của chúng tôi về kho dữ liệu và hồ dữ liệu.

Tập hợp dữ liệu khác với kho dữ liệu như thế nào?

Tập hợp dữ liệu là kho dữ liệu phục vụ nhu cầu của một nhóm hoặc đơn vị cụ thể trong doanh nghiệp, chẳng hạn như bộ phận tài chính, tiếp thị hoặc kinh doanh của công ty. Tập hợp này nhỏ hơn, tập trung hơn và có thể chứa các bản tóm tắt dữ liệu phục vụ tốt nhất cộng đồng người dùng. Một tập hợp dữ liệu cũng có thể là một phần của kho dữ liệu.

Tìm hiểu về tập hợp dữ liệu »

Để so sánh chuyên sâu giữa tập hợp dữ liệu và kho dữ liệu, hãy truy cập trang so sánh chuyên dụng của chúng tôi về tập hợp dữ liệu và kho dữ liệu.

AWS có thể hỗ trợ các nỗ lực kho dữ liệu của bạn như thế nào?

AWS giúp bạn tận dụng tất cả các lợi ích cốt lõi liên quan đến điện toán theo yêu cầu: truy cập dung lượng lưu trữ và điện toán gần như vô hạn, mở rộng hệ thống song song với lượng dữ liệu ngày càng tăng được thu thập, lưu trữ và truy vấn và chỉ trả tiền cho các tài nguyên bạn cung cấp. AWS cung cấp một loạt các dịch vụ được quản lý tích hợp liền mạch với nhau để bạn có thể nhanh chóng triển khai giải pháp phân tích và kho dữ liệu toàn diện.

Hình minh họa sau đây cho thấy các bước chính của quy trình phân tích toàn diện, còn được gọi là ngăn xếp. AWS cung cấp nhiều dịch vụ được quản lý ở mỗi bước.

Amazon Redshift là dịch vụ kho dữ liệu nhanh chóng, được quản lý đầy đủ và tiết kiệm chi phí. Dịch vụ này giúp bạn phân tích kho dữ liệu quy mô petabyte và phân tích hồ dữ liệu quy mô exabyte cùng nhau trong một dịch vụ mà bạn chỉ trả tiền cho những gì bạn sử dụng.

Bắt đầu sử dụng kho dữ liệu trên AWS bằng cách tạo tài khoản ngay hôm nay.

Các bước tiếp theo trên AWS

Tham khảo các tài nguyên bổ sung liên quan đến sản phẩm
Xem các ưu đãi miễn phí dành cho dịch vụ Phân tích trên đám mây 
Đăng ký tài khoản miễn phí

Nhận ngay quyền sử dụng Bậc miễn phí của AWS.

Đăng ký 
Bắt đầu xây dựng trong bảng điều khiển

Bắt đầu xây dựng trong AWS Management Console.

Đăng nhập