Chuyển đến nội dung chính

Kho hồ dữ liệu là gì?

Kho hồ dữ liệu là một hệ thống quản lý dữ liệu cung cấp khả năng lưu trữ linh hoạt, tiết kiệm chi phí trên quy mô lớn, đồng thời cung cấp các khả năng phân tích như cấu trúc, quản trị và báo cáo. Nó cho phép bạn lưu trữ dữ liệu thô ở một loạt các định dạng từ hàng nghìn hoặc thậm chí hàng trăm nghìn nguồn theo cách tiết kiệm chi phí hơn ở một vị trí trung tâm. Dữ liệu có thể sử dụng nhiều hơn nữa bởi các công cụ phân tích để đào tạo các mô hình AI và tạo báo cáo và bảng thông tin. Kho hồ dữ liệu cung cấp nhiều khả năng cho phép bạn xử lý dữ liệu thô trong hồ để phân tích thêm.

Sự khác biệt giữa hồ dữ liệu, kho dữ liệu và kho hồ dữ liệu là gì?

Kiến trúc kho hồ dữ liệu xuất hiện bằng cách kết hợp thế mạnh của hai kho dữ liệu tập trung truyền thống: kho dữ liệu và hồ dữ liệu.

Kho dữ liệu

Kho dữ liệu là một hệ thống lưu trữ dữ liệu, lưu trữ dữ liệu có cấu trúc dựa trên lược đồ dữ liệu tiêu chuẩn. Lược đồ là kế hoạch chi tiết đã xác định trước giúp xác định định dạng dữ liệu, mối quan hệ và cấu trúc của thông tin trong cơ sở dữ liệu quan hệ.

Các tổ chức sử dụng hệ thống kho dữ liệu để truy cập nhanh vào quá trình xử lý dữ liệu, phân tích nghiệp vụ kinh doanh và tạo báo cáo doanh nghiệp. Kho dữ liệu cung cấp khả năng truy cập vào các công cụ phân tích nâng cao, quản trị dữ liệu mạnh mẽ và dễ sử dụng cho người dùng không có chuyên môn kỹ thuật. Ví dụ: Bạn có thể truy xuất báo cáo hiệu năng tiếp thị bằng cách sử dụng bảng thông tin trong kho dữ liệu.

Tuy nhiên, kho dữ liệu giới thiệu các bước bổ sung trong vòng đời dữ liệu. Để có được thông tin chuyên sâu sẵn sàng phân tích, dữ liệu trải qua một số quy trình trích xuất, chuyển đổi và tải (ETL) trước khi được lưu trữ trong kho dữ liệu. Hơn nữa, kho dữ liệu không thể xử lý dữ liệu phi cấu trúc và bán cấu trúc, điều mà khối lượng công việc trí tuệ nhân tạomáy học cần. Trong thiết lập kho dữ liệu, công suất lưu trữ và điện toán được kết hợp chặt chẽ, làm tăng chi phí điều chỉnh quy mô cơ sở hạ tầng.

Hồ dữ liệu

Hồ dữ liệu là một hệ thống lưu trữ giữ lại dữ liệu ở định dạng ban đầu. Các nhà khoa học dữ liệu sử dụng hồ dữ liệu để lưu trữ dữ liệu có cấu trúc, phi cấu trúc và bán cấu trúc. Quá trình lưu trữ dữ liệu trong hồ dữ liệu rất nhanh chóng vì thông tin không đi qua quy trình ETL. Thay vào đó, dữ liệu thô được lưu trữ như hiện có. Do đó, một hồ dữ liệu có thể lưu trữ khối lượng thông tin khổng lồ với tốc độ cao, bao gồm các luồng dữ liệu theo thời gian thực.

Do khối lượng dữ liệu, hồ dữ liệu trên đám mây là lựa chọn lý tưởng cho khám phá dữ liệu, máy học và các ứng dụng khoa học dữ liệu khác. Hồ dữ liệu cũng có giá cả phải chăng hơn để điều chỉnh quy mô nhờ lưu trữ lưu trữ chi phí thấp.

Không giống như kho dữ liệu, truy cập dữ liệu được lưu trữ trong hồ dữ liệu đòi hỏi chuyên môn kỹ thuật, hạn chế quyền truy cập dữ liệu cho một nhóm người dùng nhỏ hơn. Điều này có nghĩa là chỉ những người dùng thành thạo khoa học dữ liệu mới có thể trích xuất, thao tác và phân tích dữ liệu thô để có được thông tin chuyên sâu về kinh doanh. Ngoài ra, một hồ dữ liệu không được quản lý có thể dẫn đến đầm lầy dữ liệu. Đầm lầy dữ liệu là trạng thái dữ liệu vô tổ chức khiến việc trích xuất thông tin chuyên sâu có ý nghĩa trở nên khó khăn hơn.

Kho hồ dữ liệu

Kho hồ dữ liệu là một kiến trúc dữ liệu hợp nhất kết hợp những lợi thế của kho dữ liệu và hồ dữ liệu. Nó cung cấp không gian lưu trữ hiệu năng cao, giá cả phải chăng và thân thiện với quản trị cho các loại dữ liệu khác nhau.

Không giống như kho dữ liệu, kho hồ dữ liệu có thể lưu trữ dữ liệu bán cấu trúc và phi cấu trúc cho mục đích máy học. Ngoài ra, kiến trúc kho hồ dữ liệu bao gồm các công cụ phân tích SQL mà các nhà quản lý doanh nghiệp sử dụng để báo cáo và trích xuất thông tin chuyên sâu hữu ích.

Kho hồ dữ liệu có những tính năng chính nào?

Kho hồ dữ liệu cung cấp các tính năng quản lý dữ liệu cho các tổ chức để xây dựng các trung tâm xử lý dữ liệu có quy mô linh hoạt, phức tạp và độ trễ thấp. Chúng tôi chia sẻ một số tính năng chính của kho hồ dữ liệu bên dưới.

Hỗ trợ đa dạng các loại dữ liệu và khối lượng công việc

Kho hồ dữ liệu có thể lưu trữ đa dạng các loại dữ liệu, bao gồm văn bản, hình ảnh, video và tệp âm thanh mà không cần các bước chuyển đổi bổ sung hoặc lược đồ cứng nhắc. Điều này cho phép tải nhập dữ liệu nhanh chóng, đảm bảo độ mới của dữ liệu cho các ứng dụng được kết nối.

Để hỗ trợ đa dạng dữ liệu, một kho hồ dữ liệu lưu trữ dữ liệu thô trong một kho lưu trữ dựa trên đối tượng. Kho lưu trữ dựa trên đối tượng là một loại kiến trúc kho lưu trữ dữ liệu được tối ưu hóa để xử lý khối lượng lớn dữ liệu phi cấu trúc.

Hỗ trợ giao dịch

Một kho hồ dữ liệu cung cấp các tính năng quản lý dữ liệu để lưu trữ các giao dịch tuân thủ ACID, tương tự như các giao dịch được tìm thấy trong cơ sở dữ liệu thông thường. ACID là từ viết tắt của tính nguyên tử, tính nhất quán, tính cô lập và tính bền vững.

  • Tính nguyên tử coi tất cả các giao dịch dữ liệu như một đơn vị duy nhất, có nghĩa là giao dịch được thực hiện thành công hoặc không thành công.
  • Tính nhất quán đề cập đến hành vi có thể dự đoán được của cơ sở dữ liệu xảy ra khi cập nhật một bảng dữ liệu cụ thể. Mỗi bản cập nhật tuân theo các quy tắc được xác định trước, đảm bảo tính nhất quán của dữ liệu.
  • Tính cô lập cho phép nhiều giao dịch xảy ra mà không can thiệp lẫn nhau. Ngay cả khi nhiều người dùng đang cập nhật cơ sở dữ liệu một cách đồng thời, mỗi thao tác đều chạy độc lập, tức là một giao dịch kết thúc trước khi giao dịch tiếp theo bắt đầu.
  • Tính bền vững là khả năng của cơ sở dữ liệu trong việc giữ lại và lưu các thay đổi ngay cả khi hệ thống bị lỗi.

Khi kết hợp, các yếu tố của ACID đảm bảo tính toàn vẹn của dữ liệu, cho phép các đội ngũ phần mềm xây dựng các ứng dụng dựa vào kho lưu trữ dữ liệu giao dịch đáng tin cậy.

Tải nhập truyền liên tục

Luồng dữ liệu là một luồng thông tin liên tục có nguồn gốc từ các nguồn dữ liệu như thiết bị Internet vạn vật (IoT), giao dịch tài chính và dịch vụ ứng dụng.

Một số ứng dụng yêu cầu truyền dữ liệu để phản ánh và trực quan hóa các thay đổi dữ liệu gần theo thời gian thực. Kiến trúc kho hồ dữ liệu có thể tải nhập các luồng dữ liệu và chuẩn bị sẵn sàng dữ liệu cho các ứng dụng tương tác trực tiếp với người dùng. Ngoài ra, các nhà khoa học dữ liệu có thể xây dựng các công cụ phân tích trên các luồng dữ liệu và trực quan hóa bằng biểu đồ, bảng và đồ thị.

Tích hợp không ETL

Không ETL là quy trình dữ liệu bỏ qua các quy trình biến đổi dữ liệu phức tạp khi di chuyển dữ liệu. Cơ sở hạ tầng kho hồ dữ liệu cho phép tích hợp không ETL.

Thông thường, các tổ chức xây dựng khối lượng công việc trên kho dữ liệu và hồ dữ liệu. Các thiết lập dữ liệu này yêu cầu các quy trình ETL bổ sung để truy vấn và biến đổi dữ liệu. Với tích hợp không ETL, các nhà khoa học dữ liệu có thể truy vấn các lô cốt dữ liệu khác nhau mà không cần xây dựng các quy trình dữ liệu bổ sung.

Khi một kho hồ dữ liệu tải nhập dữ liệu, nó sẽ tự động biến đổi dữ liệu thành các định dạng phù hợp với yêu cầu phân tích kinh doanh. Ví dụ: Amazon Redshift hỗ trợ tích hợp không ETL với Amazon Aurora. Redshift là một kho dữ liệu, trong khi Aurora là một hệ thống quản lý cơ sở dữ liệu quan hệ. Khi được tích hợp, dữ liệu mà Aurora thu được sẽ tự động sao chép trên Redshift trong vòng vài giây. Bằng cách này, các tổ chức có thể tăng thời gian thu được thông tin chuyên sâu trong khi vẫn duy trì cơ sở hạ tầng dữ liệu đơn giản, tiết kiệm chi phí.

Phân tích hợp nhất

Kho hồ dữ liệu cung cấp một nền tảng dữ liệu hợp nhất để truy cập tất cả dữ liệu được lưu trữ. Hồ dữ liệu giúp các kiến trúc sư dữ liệu khắc phục tình trạng trùng lặp dữ liệu, thiếu nhất quán và phân mảnh trên nhiều hệ thống.

Một lợi ích quan trọng khác của phân tích tập trung là tránh các chuyển động dữ liệu không cần thiết giữa các kho lưu trữ trên đám mây. Thay vì truy vấn dữ liệu trong lô cốt, các đội ngũ dữ liệu lưu trữ, phân tích và chia sẻ dữ liệu từ một giao diện duy nhất kết nối với kho hồ dữ liệu. Ví dụ: Bạn có thể truy xuất dữ liệu phi cấu trúc cho khối lượng công việc máy học và tạo báo cáo hiệu năng tiếp thị từ một bản sao dữ liệu duy nhất.

Trình soạn thảo truy vấn

Các nhà phân tích dữ liệu, kỹ sư máy học và người dùng dữ liệu có thể dễ dàng truy cập dữ liệu trong kho hồ dữ liệu bằng cách sử dụng trình soạn thảo truy vấn SQL. Họ có thể tạo ra các lệnh SQL để phân tích dữ liệu, trực quan hóa, duyệt dữ liệu lịch sử, tạo lược đồ cơ sở dữ liệu, v.v. Trình soạn thảo truy vấn cũng cải thiện khả năng cộng tác bằng cách cho phép các kỹ sư dữ liệu dễ dàng chia sẻ các truy vấn mà họ tạo ra.

Hỗ trợ ML/AI

Các kho hồ dữ liệu được thiết kế để xây dựng, thử nghiệm và điều chỉnh quy mô khối lượng công việc trí tuệ nhân tạo và máy học (AI/ML). Ngoài việc cung cấp quyền truy cập trực tiếp vào dữ liệu phi cấu trúc, nhiều nhà cung cấp kho hồ dữ liệu cung cấp các thư viện, công cụ và phân tích máy học giúp đơn giản hóa việc phát triển AI.

Ví dụ: Lakehouse của Amazon SageMaker tích hợp liền mạch với Studio hợp nhất của Amazon SageMaker, cung cấp quyền truy cập vào các công cụ và phân tích để tăng tốc quy trình làm việc AI/ML.

Kho hồ dữ liệu hoạt động như thế nào?

Kho hồ dữ liệu kết hợp các khả năng phân tích nâng cao của kho dữ liệu với tính linh hoạt của hồ dữ liệu, cung cấp một nền tảng dữ liệu có quy mô linh hoạt, giá cả phải chăng và mạnh mẽ. Thay vì duy trì các hồ dữ liệu riêng biệt và cơ sở hạ tầng kho dữ liệu, các tổ chức chọn một kho hồ dữ liệu để có được thông tin chuyên sâu về kinh doanh nhanh hơn.

Kho hồ dữ liệu tải nhập dữ liệu từ nhiều tài nguyên khác nhau, tổ chức dữ liệu trong nội bộ và phục vụ dữ liệu cho người dùng dữ liệu khác nhau ở các định dạng khác nhau. Hơn nữa, điện toán của hồ dữ liệu tách biệt với kho lưu trữ. Với kho lưu trữ và điện toán riêng biệt, bạn có thể điều chỉnh quy mô các chức năng này một cách độc lập để tiết kiệm tối đa chi phí.

Dưới đây, chúng tôi chia sẻ các lớp dữ liệu tạo thành một kho hồ dữ liệu.

Lớp tải nhập

Lớp tải nhập kết nối kho hồ dữ liệu với nhiều loại nguồn dữ liệu khác nhau, bao gồm bản ghi ứng dụng, cơ sở dữ liệu và nguồn cấp dữ liệu mạng xã hội. Tại lớp này, dữ liệu được bảo tồn ở định dạng ban đầu.

Lớp lưu trữ

Lớp lưu trữ nhận dữ liệu thô đến và lưu trữ nó trong một kho lưu trữ chi phí thấp, có quy mô linh hoạt. Trong thiết lập kho hồ dữ liệu, lớp này thường liên kết với một kho lưu trữ đối tượng đám mây. Một kho lưu trữ đối tượng hỗ trợ các loại dữ liệu đa dạng, bao gồm dữ liệu có cấu trúc, bán cấu trúc và dữ liệu phi cấu trúc.

Tùy thuộc vào các trường hợp sử dụng, một số dữ liệu trải qua quá trình chuyển đổi sau khi lưu trữ trong kho lưu trữ đối tượng. Ví dụ: Nếu bạn muốn đào tạo một mô hình máy học bằng cách sử dụng dữ liệu đã tải nhập, kho hồ dữ liệu sẽ biến đổi và lưu trữ dữ liệu ở định dạng Parquet. Parquet là định dạng tệp mở được thiết kế để lưu trữ và xử lý dữ liệu có cấu trúc một cách hiệu quả bằng cách tách dữ liệu thành các cột.

Lớp tổ chức

Lớp tổ chức, hay lớp siêu dữ liệu, cung cấp hỗ trợ lược đồ để quản trị, tổ chức và tối ưu hóa dữ liệu được lưu trữ trong kho hồ dữ liệu. Lớp này cho phép bạn xác định các chính sách để đảm bảo chất lượng dữ liệu và tạo các biên bản có thể kiểm tra cho mục đích tuân thủ. Ngoài ra, các đội ngũ dữ liệu có thể tạo luồng công việc dữ liệu đáng tin cậy bằng cách sử dụng các giao dịch ACID, lập chỉ mục tệp, lập phiên bản dữ liệu và lưu trong bộ nhớ đệm, tương tự như các quy trình được tìm thấy trong kho dữ liệu truyền thống.

Lớp API

Lớp giao diện lập trình ứng dụng (API) cho phép các nhà phát triển phần mềm và ứng dụng truy vấn dữ liệu được lưu trữ trong kho hồ dữ liệu. Lớp này cung cấp quyền truy cập chi tiết vào dữ liệu cho phép các phân tích nâng cao hơn được xây dựng theo lập trình từ dữ liệu. Ví dụ: Đội ngũ phần mềm có thể thực hiện các lệnh gọi API để truy xuất các luồng dữ liệu trong thời gian thực để hỗ trợ bảng thông tin của một ứng dụng đầu tư.

Lớp ngữ nghĩa

Lớp ngữ nghĩa là lớp trên cùng của kho hồ dữ liệu. Lớp ngữ nghĩa còn được gọi là lớp tiêu thụ dữ liệu, bao gồm các công cụ phân tích dữ liệu và ứng dụng cung cấp quyền truy cập vào dữ liệu và lược đồ được lưu trữ. Người dùng doanh nghiệp có thể tạo báo cáo, tạo biểu đồ, truy vấn để có được thông tin chuyên sâu và tiến hành các bước phân tích dữ liệu khác với các công cụ họ tìm thấy ở lớp này.

AWS có thể hỗ trợ các yêu cầu của bạn về kho hồ dữ liệu như thế nào?

Lakehouse của Amazon SageMaker là một kho hồ dữ liệu mà các tổ chức sử dụng để xử lý hàng exabyte dữ liệu nhằm thu được thông tin chuyên sâu về kinh doanh và tăng cường khối lượng công việc AI. Lakehouse của Amazon SageMaker được tích hợp sâu với các kho lưu trữ dữ liệu, phân tích và công nghệ máy học của AWS để giúp bạn:

  • Truy cập dữ liệu tại chỗ để phân tích gần theo thời gian thực
  • Xây dựng các mô hình trí tuệ nhân tạo và máy học trên một trung tâm dữ liệu duy nhất
  • Truy cập, kết hợp và chia sẻ dữ liệu một cách an toàn với mức độ di chuyển hoặc sao chép tối thiểu

Với kiến trúc tách biệt điện toán và bộ lưu trữ để điều chỉnh quy mô hiệu quả, Lakehouse của Amazon SageMaker mang lại tỷ lệ giá/hiệu năng tốt hơn so với các hồ dữ liệu trên đám mây khác.

Lakehouse của Amazon SageMaker tích hợp với kho dữ liệu và hồ dữ liệu AWS:

  • Amazon Redshift là giải pháp kho dữ liệu mang lại tỷ lệ giá/hiệu năng chưa từng có ở quy mô lớn với SQL cho kho hồ dữ liệu của bạn
  • Amazon S3 là kho lưu trữ đối tượng hồ dữ liệu được xây dựng để truy xuất bất kỳ lượng dữ liệu nào từ bất cứ nơi nào

Bắt đầu sử dụng kho hồ dữ liệu trên AWS bằng cách tạo tài khoản miễn phí ngay hôm nay.