Amazon DataZone: Tự động hóa khám phá dữ liệu

Tổng quan

Tiết kiệm thời gian nhập thủ công các thuộc tính dữ liệu trong danh mục dữ liệu, điều này cũng gây ra các lỗi tiềm ẩn. Tạo bối cảnh kinh doanh và đề xuất phân tích cho tập dữ liệu, giúp nâng cao kết quả khám phá dữ liệu. Nhiều dữ liệu phong phú hơn trong danh mục dữ liệu kinh doanh cũng cải thiện trải nghiệm tìm kiếm. Giảm thời gian tìm kiếm và sử dụng dữ liệu từ vài tuần xuống còn vài ngày.

Page Topics

Tính năng chính

Tính năng chính

Danh mục dữ liệu kinh doanh Amazon DataZone hoạt động giống một sổ đăng ký tổ chức liên kết, cho phép siêu dữ liệu kỹ thuật có thể được gửi dưới dạng tài sản, đồng thời bạn có thể thêm ngữ cảnh kinh doanh phong phú. Bạn có thể hiển thị dữ liệu với ngữ cảnh kinh doanh để tất cả người dùng của bạn có thể nhanh chóng và dễ dàng tìm kiếm, hiểu và tin tưởng dữ liệu.

Tự động thêm tên và mô tả hoạt động kinh doanh vào dữ liệu, qua đó giúp bạn dễ dàng hiểu ngữ cảnh và tránh xử lý các tên kỹ thuật khó hiểu. Tính năng tự động hóa này có sự hỗ trợ của các mô hình ngôn ngữ lớn (LLM) để tăng độ chính xác và tính nhất quán. 

Tìm kiếm theo thuộc tính hoạt động trên danh mục dữ liệu kinh doanh để giúp đối tượng dùng và đối tượng tạo dữ liệu tìm thấy tài sản dữ liệu bằng cách sử dụng thông tin cấu trúc quen thuộc, chẳng hạn như tên bảng và cột, cũng như các thuật ngữ kinh doanh.

Đối với mỗi tập dữ liệu, tạo danh sách các cột có giá trị nhất và các trường hợp sử dụng phân tích khả thi. 

Với số liệu thống kê chất lượng dữ liệu trong Amazon DataZone, người dùng dữ liệu có thể xem các chỉ số chất lượng dữ liệu từ Chất lượng dữ liệu AWS Glue hoặc hệ thống của bên thứ ba. Người dùng dữ liệu có thể tin tưởng vào các nguồn dữ liệu mà họ sử dụng để đưa ra quyết định và có được bối cảnh chất lượng dữ liệu khi họ tìm kiếm tài nguyên. Các đối tượng tạo dữ liệu và đội ngũ CNTT cũng có thể sử dụng API để kết hợp số liệu thống kê về chất lượng dữ liệu từ các hệ thống của bên thứ ba vào một cổng thông tin hợp nhất, nằm ngoài bảng điều khiển. Các đối tượng tạo dữ liệu có thể cung cấp kết quả Chất lượng dữ liệu AWS Glue theo lịch trình để đảm bảo có được điểm số ở thời điểm hiện tại, ngay cả khi dữ liệu tiếp tục thay đổi.

Trường hợp sử dụng

Giảm thời gian thu thập thông tin chuyên sâu bằng cách tìm đúng dữ liệu, trong đúng ngữ cảnh. Dữ liệu chỉ đáng tin cậy khi nó nhất quán, chính xác, đầy đủ, kịp thời, có thể truy nguyên và có điểm chất lượng dữ liệu minh bạch. Với quyền sở hữu phân tán, mỗi bộ phận hoặc đội ngũ phân tích duy trì độ chính xác của tài sản để đối tượng dùng dữ liệu biết rằng họ đang sử dụng đúng dữ liệu.

Xây dựng danh mục dữ liệu kinh doanh bằng cách tìm kéo tài sản của bạn và đưa siêu dữ liệu kỹ thuật (không phải dữ liệu thực tế) vào để làm ngữ cảnh kinh doanh thêm phong phú. Ngữ cảnh kinh doanh có thể trở nên phong phú với các bảng chú giải và thuật ngữ được chuẩn hóa. Bạn cũng có thể tùy chỉnh siêu dữ liệu bổ sung bằng các biểu mẫu siêu dữ liệu.

Sử dụng đúng dữ liệu đòi hỏi phải hiểu ngữ cảnh dữ liệu. Amazon DataZone giúp xây dựng ngữ cảnh đó cho tất cả dữ liệu được lập danh mục bằng bảng chú giải thuật ngữ và biểu mẫu siêu dữ liệu. Giờ đây, chủ sở hữu dữ liệu có thể chia sẻ càng nhiều thông tin càng tốt để thiết lập ngữ cảnh dữ liệu, giúp đối tượng dùng dữ liệu có thể tìm kiếm, hiểu và sau đó đăng ký nhận dữ liệu. Điểm chất lượng dữ liệu giúp người dùng dữ liệu biết được tài sản dữ liệu có phù hợp với mục đích hay không.

Video

AWS re:Invent 2023 – Cách xây dựng danh mục kinh doanh thông qua Amazon DataZone (21:37)
AWS re:Invent 2023 – Hiểu dữ liệu của bạn dựa vào bối cảnh kinh doanh (55:40)

Câu hỏi thường gặp

Loại thông tin nào được sử dụng trong danh mục dữ liệu kinh doanh Amazon DataZone?

Trong danh mục dữ liệu kinh doanh Amazon DataZone, siêu dữ liệu kinh doanh cung cấp thông tin do doanh nhân tạo ra hoặc sử dụng và cung cấp ngữ cảnh cho dữ liệu tổ chức. Sau đây là các loại thông tin được sử dụng:

  • Quyền sở hữu: Các tổ chức hiện đại tập trung vào dữ liệu sẽ sử dụng quy trình quản lý dữ liệu phân tán, trong đó các lĩnh vực kinh doanh (LOB) chịu trách nhiệm quản lý dữ liệu của riêng họ. Một danh mục theo dõi quyền sở hữu đó để các bên quan tâm có thể tìm kiếm và yêu cầu truy cập vào dữ liệu như một phần trong các tác vụ kinh doanh của họ.
  • Phân loại: Khám phá dữ liệu là một tác vụ quan trọng mà siêu dữ liệu kinh doanh có thể hỗ trợ. Tính năng khám phá dữ liệu sử dụng nguyên tắc bản thể và phép phân loại được xác định tập trung của công ty để phân loại các nguồn dữ liệu và giúp bạn tìm các đối tượng dữ liệu có liên quan.
  • Mối quan hệ: Bạn có thể sử dụng danh mục dữ liệu kinh doanh Amazon DataZone để thêm thông tin mối quan hệ dưới dạng siêu dữ liệu. Như với lược đồ tập dữ liệu kỹ thuật, danh mục dữ liệu kinh doanh hiển thị mối quan hệ giữa các đối tượng trong danh mục, chẳng hạn như mối quan hệ giữa cơ sở dữ liệu, tập dữ liệu và cột của chúng.
  • Lược đồ: Các đề xuất AI cho mô tả có thể sử dụng lược đồ kỹ thuật và kinh doanh để tạo các mô tả và cách sử dụng được đề xuất cho dữ liệu.

Tôi có thể lập danh mục gì với Amazon DataZone?

Amazon DataZone hỗ trợ các tài sản dữ liệu được gửi trực tiếp từ Danh mục dữ liệu AWS Glue và Amazon Redshift. Hai nguồn này có thể được dùng để lập danh mục dữ liệu ở các vị trí sau:

  • Hồ dữ liệu của Dịch vụ lưu trữ đơn giản của Amazon (Amazon S3)
  • Nhiều cơ sở dữ liệu được xây dựng cho mục đích nhất định của AWS như Dịch vụ cơ sở dữ liệu quan hệ của Amazon (Amazon RDS) thông qua trình tìm kéo AWS Glue
  • Hơn 100 bộ kết nối Amazon AppFlow hỗ trợ mang dữ liệu từ các ứng dụng của bên thứ ba như Snowflake, Salesforce và Google Analytics