Amazon Web Services 한국 블로그

Amazon SageMaker Catalog 업데이트 – 사내 데이터 검색 향상을 위한 신규 비즈니스 메타데이터 양식 도입

Amazon SageMaker에 내장된 Amazon SageMaker Catalog는 데이터를 이해하는 데 필요한 비즈니스 컨텍스트와 함께 데이터를 수집하고 구성하는 데 도움이 될 수 있습니다. AWS GlueAmazon Redshift에서 생성된 자산을 자동으로 문서화하고, Amazon Quick Sight, Amazon Simple Storage Service(Amazon S3) 버킷, Amazon S3 Tables 및 AWS Glue Data Catalog(GDC)와 직접 연결됩니다.

몇 번의 클릭만으로 비즈니스 이름(자산 및 스키마), 설명(자산 및 스키마), 알림, 용어집 용어(자산 및 스키마), 메타데이터 양식을 추가하거나 업데이트하여 필요한 비즈니스 메타데이터가 포함된 데이터 인벤토리 자산을 큐레이팅할 수 있습니다. 또한 AI 생성 제안을 생성하고, 설명을 검토 및 수정하고, 강화된 자산 메타데이터를 카탈로그에 직접 게시할 수 있습니다. 이는 수동 문서화 작업을 줄이고, 메타데이터 일관성을 개선하고, 조직 전반의 자산 검색 가능성을 가속화하는 데 도움이 됩니다.

오늘부터 Amazon SageMaker Catalog 메타데이터의 새로운 기능을 사용하여 비즈니스 메타데이터와 검색을 개선할 수 있습니다.

  • 열 수준 메타데이터 양식 및 풍부한 설명 – 사용자 지정 메타데이터 양식을 생성하여 개별 열에 비즈니스별 정보를 직접 캡처할 수 있습니다. 또한 열은 포괄적인 데이터 문서화와 비즈니스 컨텍스트를 위해 마크다운 지원 리치 텍스트 설명을 지원합니다.
  • 자산 게시를 위한 용어집 용어에 메타데이터 규칙 적용 – 용어집 용어에 메타데이터 적용 규칙을 사용할 수 있습니다. 즉, 데이터 생산자는 자산을 게시할 때 승인된 비즈니스 용어를 사용해야 합니다. 메타데이터 관행을 표준화함으로써 조직은 규정 준수를 개선하고, 감사 준비를 강화하고, 액세스 워크플로를 간소화하여 효율성과 제어력을 개선할 수 있습니다.

이러한 새로운 SageMaker Catalog 메타데이터 기능은 일관된 데이터 분류를 처리하고 조직 카탈로그 전반의 검색 가능성을 개선하는 데 도움이 됩니다. 각 기능을 자세히 살펴보겠습니다.

열 수준의 메타데이터 양식 및 풍부한 설명
이제 열 수준에서 사용자 지정 메타데이터 양식과 리치 텍스트 설명을 사용할 수 있으며, 이를 통해 비즈니스 이름, 설명, 용어집 용어 분류에 대한 기존 큐레이션 기능을 확장할 수 있습니다. 사용자 지정 메타데이터 양식 필드 값과 리치 텍스트 콘텐츠는 실시간으로 인덱싱되며 검색을 통해 즉시 검색 가능합니다.

열 수준의 메타데이터를 편집하려면 프로젝트에 사용된 카탈로그 자산의 스키마를 선택하고 각 열에 대해 보기/편집 작업을 선택합니다.

열 중 하나를 자산 소유자로 선택하면 사용자 지정 키-값 메타데이터 양식과 마크다운 설명을 정의하여 세부 열 설명서를 제공할 수 있습니다.

이제 조직의 데이터 분석가는 기존 열 이름, 설명 및 용어집과 함께 사용자 지정 양식 필드 값과 리치 텍스트 콘텐츠를 사용하여 검색할 수 있습니다.

자산 게시를 위한 용어집 용어에 메타데이터 규칙 적용
게시 워크플로 중 데이터 자산에 대한 필수 용어집 용어 요구 사항을 정의할 수 있습니다. 이제 데이터 생산자는 게시 전에 조직 용어집에서 승인된 비즈니스 용어로 자산을 분류하여 일관된 메타데이터 표준을 장려하고 데이터 검색 가능성을 개선해야 합니다. 적용 규칙은 필수 용어집 용어가 적용되었는지 검증하여 적절한 비즈니스 컨텍스트 없이 자산이 게시되는 것을 방지합니다.

용어집 용어에 대해 새 메타데이터 규칙을 활성화하려면 관리 메뉴의 도메인 관리 섹션 아래에 있는 도메인 단위에서 추가를 선택합니다.

이제 메타데이터 양식 또는 용어집 연결을 규칙의 요구 사항 유형으로 선택할 수 있습니다. 용어집 연결을 선택하면 규칙당 최대 5개의 필수 용어집 용어를 선택할 수 있습니다.

필수 용어집 용어를 추가하지 않고 자산을 게시하려고 하면 용어집 규칙을 적용하라는 오류 메시지가 나타납니다.

메타데이터를 표준화하고 데이터 스키마를 비즈니스 언어에 맞게 조정하면 데이터 거버넌스와 검색 관련성이 향상되어 조직에서 게시된 데이터를 더 잘 이해하고 신뢰할 수 있습니다.

AWS Command Line Interface(AWS CLI)AWS SDK를 사용하여 이러한 특성을 사용할 수 있습니다. 자세히 알아보려면 Amazon SageMaker Unified Studio User Guide의 Amazon SageMaker Unified Studio data catalog를 참조하세요.

정식 출시
새로운 메타데이터 기능은 Amazon SageMaker Catalog가 제공되는 AWS 리전에서 지금 이용 가능합니다.

사용해 보시고 AWS re:Post for Amazon SageMaker Catalog로 또는 일반 AWS Support 담당자를 통해 피드백을 보내주세요.

Channy