자산 메타데이터를 쿼리 가능한 데이터세트로 내보내는 Amazon SageMaker Catalog

게시된 날짜: 2025년 12월 2일

이제 Amazon SageMaker 카탈로그는 Amazon S3 Tables를 통해 자산 메타데이터를 Apache Iceberg 테이블로 내보냅니다. 이를 통해 데이터 팀은 카탈로그 인벤토리를 쿼리하고 보고를 위한 사용자 지정 ETL 인프라를 구축하지 않고 표준 SQL을 사용하여 “지난 달에 등록된 자산은 몇 개입니까?”, “어떤 자산이 기밀로 분류되나요?“ 또는 “비즈니스 설명이 누락된 자산은 무엇입니까?“와 같은 질문에 답할 수 있습니다.

이 기능은 카탈로그 자산 메타데이터를 Amazon Athena, SageMaker Unified Studio 노트북, AI 에이전트 그리고 기타 분석 및 BI 도구에서 액세스할 수 있는 쿼리 가능한 테이블로 자동 변환합니다. 내보낸 테이블에는 기술 메타데이터(예: resource_id, resource_type), 비즈니스 메타데이터(예: 자산_이름, 비즈니스_설명), 소유권 세부 정보 및 타임스탬프가 포함됩니다. 데이터는 시간 여행 쿼리를 위해 snapshot_date로 파티셔닝되며 aws-sagemaker-catalog 버킷 아래의 SageMaker Unified Studio에 자동으로 표시됩니다.

이 기능은 SageMaker 카탈로그가 지원되는 모든 AWS 리전에서 추가 비용 없이 사용할 수 있습니다. 사용자는 S3 테이블 스토리지 및 Amazon Athena 쿼리를 비롯한 기본 서비스에 대해서만 비용을 지불하면 됩니다. 지정한 기간보다 오래된 기록을 자동으로 삭제하도록 내보낸 테이블에 보존 정책을 설정하여 스토리지 비용을 제어할 수 있습니다.

이 서비스를 시작하려면 AWS CLI를 사용하여 데이터세트 내보내기를 활성화한 다음 24시간 이내에 S3 테이블 또는 SageMaker Unified Studio의 데이터 탭을 통해 자산 테이블에 액세스하세요. Amazon Athena, Studio 노트북을 사용하여 쿼리하거나 S3 Tables Iceberg REST 카탈로그 엔드포인트를 통해 외부 BI 도구를 연결합니다. 자세한 지침은 Amazon SageMaker 사용 설명서를 참조하세요.