Danh mục Amazon SageMaker hiện đã có thể xuất siêu dữ liệu tài sản dưới dạng tập dữ liệu có thể truy vấn
Danh mục Amazon SageMaker hiện đã có thể xuất siêu dữ liệu tài sản dưới dạng bảng Apache Iceberg thông qua Bảng Amazon S3. Điều này cho phép các đội ngũ dữ liệu truy vấn kiểm kê danh mục và trả lời các câu hỏi như: "Có bao nhiêu tài sản đã đăng ký vào tháng trước?", "Tài sản nào được phân loại là bí mật?" hay "Tài sản nào thiếu mô tả kinh doanh?" bằng cách sử dụng SQL tiêu chuẩn mà không cần xây dựng cơ sở hạ tầng ETL tùy chỉnh cho việc báo cáo.
Tính năng này tự động chuyển đổi siêu dữ liệu tài sản danh mục thành bảng dễ truy vấn có thể truy cập từ Amazon Athena, sổ tay Studio hợp nhất của SageMaker, tác tử AI và các công cụ phân tích và BI khác. Bảng được xuất bao gồm siêu dữ liệu kỹ thuật (ví dụ như resource_id, resource_type), siêu dữ liệu kinh doanh (ví dụ như asset_name, business_description), thông tin chi tiết quyền sở hữu và dấu thời gian. Dữ liệu được phân vùng bằng snapshot_date cho các truy vấn về một thời điểm trong quá khứ sẽ tự động xuất hiện trong Studio hợp nhất của Amazon SageMaker trong vùng lưu trữ aws-sagemaker-catalog.
Tính năng này được cung cấp ở tất cả các Khu vực AWS nơi hỗ trợ SageMaker Catalog mà không tính thêm phí. Bạn chỉ thanh toán cho các dịch vụ nền, bao gồm dịch vụ lưu trữ Bảng S3 và truy vấn Amazon Athena. Bạn có thể kiểm soát chi phí lưu trữ bằng cách cài đặt chính sách lưu giữ cho các bảng đã xuất để tự động xóa các bản ghi cũ hơn khoảng thời gian bạn chỉ định.
Để bắt đầu sử dụng, hãy kích hoạt tính năng xuất tập dữ liệu bằng AWS CLI, rồi truy cập bảng tài sản thông qua Bảng S3 hoặc tab Dữ liệu của Studio hợp nhất của Amazon SageMaker trong vòng 24 giờ. Truy vấn bằng Amazon Athena, sổ tay Studio hoặc kết nối các công cụ BI bên ngoài thông qua điểm cuối Danh mục REST Iceberg của Bảng S3. Để biết chỉ dẫn, hãy xem hướng dẫn sử dụng của Amazon SageMaker.