Amazon SageMaker Catalog 现在将资产元数据导出为可查询的数据集
Amazon SageMaker Catalog 现在通过Amazon S3 表类数据存储服务将资产元数据导出为 Apache Iceberg 表。这使数据团队能够查询目录清单,并通过标准 SQL 回答诸如“上个月注册了多少资产?”、“哪些资产被归类为机密资产?”或“哪些资产缺少业务描述?”等问题,而无需为报告构建自定义 ETL 基础设施。
此功能可自动将目录资产元数据转换为可查询表,后者可从 Amazon Athena、SageMaker 融通式合作开发工作室笔记本、人工智能代理以及其他分析和 BI 工具进行访问。导出的表包含技术元数据(例如 resource_id、resource_type)、业务元数据(例如 asset_name、business_description)、所有权详细信息和时间戳。数据按 snapshot_date 进行分区,以支持时间穿梭查询,并在 SageMaker 融通式合作开发工作室的 aws-sagemaker-catalog 存储桶下自动显示。
此功能在支持 SageMaker Catalog 的所有 AWS 区域均可免费使用。您只需为底层服务付费,包括 S3 表类数据存储和 Amazon Athena 查询。您可以通过设置导出表的保留策略来控制存储成本,以自动删除早于指定期限的记录。
首先,使用 AWS CLI 激活数据集导出,然后在 24 小时内通过 S3 表类数据存储服务或 SageMaker 融通式合作开发工作室的 Data(数据)选项卡访问资产表。使用 Amazon Athena、Studio 笔记本进行查询,或通过 S3 表类数据存储服务 Iceberg REST Catalog 端点连接外部 BI 工具。有关说明,请参阅 Amazon SageMaker 用户指南。