Amazon DataZone: 데이터 검색 자동화

개요

잠재적인 오류를 유발하는 데이터 카탈로그의 데이터 속성을 수동으로 입력하는 시간을 제거할 수 있습니다. 비즈니스 컨텍스트를 생성하고 데이터 세트에 대한 분석을 추천하여 데이터 검색 결과를 향상할 수 있습니다. 비즈니스 데이터 카탈로그의 데이터가 더 많고 풍부해지면 검색 경험도 향상됩니다. 데이터의 검색과 사용에 소요되는 시간이 몇 주에서 며칠로 줄어듭니다.

Page Topics

주요 기능

주요 기능

Amazon DataZone 비즈니스 데이터 카탈로그는 기술 메타데이터를 자산으로 게시할 수 있고 풍부한 비즈니스 컨텍스트를 추가할 수 있는 연합 조직 레지스트리 역할을 합니다. 모든 사용자가 빠르고 쉽게 데이터를 찾고, 이해하고, 신뢰할 수 있도록 비즈니스 컨텍스트로 데이터를 가시화할 수 있습니다.

데이터에 비즈니스 설명과 이름을 자동으로 추가하면 문맥을 쉽게 파악할 수 있고 어려운 기술 명칭을 사용하지 않아도 됩니다. 이 자동화는 대규모 언어 모델(LLM)을 기반으로 하여 정확성과 일관성을 향상합니다. 

패싯 검색은 비즈니스 데이터 카탈로그를 기반으로 작동하여 데이터 소비자와 생산자가 테이블 및 열 이름, 비즈니스 용어 등 친숙한 구조 정보를 사용해 데이터 자산을 찾을 수 있도록 도와줍니다.

각 데이터 세트에 대해 가장 가치 있는 열과 분석에 사용될 가능성이 높은 열 목록을 생성할 수 있습니다. 

Amazon DataZone의 데이터 품질 통계는 데이터 소비자에게 AWS Glue Data Quality 또는 서드 파티 시스템의 데이터 품질 지표를 보여줍니다. 데이터 소비자는 의사 결정에 사용하는 데이터 소스를 신뢰할 수 있고 자산을 검색할 때 데이터 품질 컨텍스트를 파악할 수 있습니다. 생산자와 IT 팀은 API를 사용하여 서드 파티 시스템의 데이터 품질 통계를 콘솔 외부의 통합 포털에 통합할 수도 있습니다. 일정에 따라 AWS Glue Data Quality 결과를 가져오도록 하면 데이터가 계속해서 변경되더라도 점수를 최신 상태로 유지할 수 있습니다.

사용 사례

올바른 상황에서 올바른 데이터를 찾아 인사이트를 도출하는 시간을 단축합니다. 데이터는 일관되고, 정확하며, 완전하고, 시기적절하고, 추적 가능하고, 데이터 품질 점수가 투명한 경우에만 신뢰할 수 있습니다. 분산된 소유권을 통해 각 부서 또는 분석 팀은 자산의 충실도를 유지하여 데이터 소비자가 올바른 데이터를 사용하고 있음을 알 수 있도록 합니다.

자산을 크롤링하고 기술 메타데이터(실제 데이터가 아닌)를 가져와 비즈니스 컨텍스트를 풍부하게 하여 비즈니스 데이터 카탈로그를 구축합니다. 표준화된 용어집 및 용어로 비즈니스 컨텍스트를 풍부하게 만들 수 있습니다. 메타데이터 양식을 사용하여 추가 메타데이터를 사용자 지정할 수도 있습니다.

올바른 데이터를 사용하려면 데이터 컨텍스트를 이해해야 합니다. Amazon DataZone은 용어집 및 메타데이터 양식으로 카탈로그화된 모든 데이터에 대한 컨텍스트를 구축하는 데 도움이 됩니다. 이제 데이터 소유자는 최대한 많은 정보를 공유하여 데이터 소비자가 데이터를 찾고 이해한 다음 구독할 수 있도록 데이터 컨텍스트를 설정할 수 있습니다. 데이터 품질 점수는 데이터 소비자가 데이터 자산이 목적에 적합한지 이해하는 데 도움이 됩니다.

동영상

AWS re:Invent 2023 - How to build a business catalog with Amazon DataZone(21:37)
AWS re:Invent 2023 - Understand your data with business context(55:40)

FAQ

Amazon DataZone 비즈니스 데이터 카탈로그에는 어떤 종류의 정보가 사용되나요?

Amazon DataZone 비즈니스 데이터 카탈로그의 비즈니스 메타데이터는 비즈니스 담당자가 작성하거나 사용하는 정보를 제공하고 조직 데이터에 컨텍스트를 제공합니다. 여기에는 다음 정보가 포함될 수 있습니다.

  • 소유권: 현대적인 데이터 중심 조직에서는 각 사업 분야(Line of Business, LOB)가 자체 데이터를 관리하는 분산 데이터 관리 프로세스를 사용합니다. 카탈로그는 이 소유권을 추적합니다. 따라서 이해 관계자가 비즈니스 업무의 일환으로 데이터를 찾고 데이터에 대한 액세스를 요청할 수 있습니다.
  • 분류: 데이터 검색은 비즈니스 메타데이터로 지원할 수 있는 주요 태스크 중 하나입니다. 데이터 검색은 중앙에서 정의한 회사의 온톨로지 및 분류법을 사용하여 데이터 소스를 분류하고 관련된 데이터 객체를 찾을 수 있도록 돕습니다.
  • 관계: Amazon DataZone 비즈니스 데이터 카탈로그를 사용하면 관계 정보를 메타데이터로 추가할 수 있습니다. 기술 데이터 세트 스키마와 마찬가지로 비즈니스 데이터 카탈로그에는 데이터베이스, 데이터 세트 및 데이터 세트 열 간의 관계 등 카탈로그 내 객체 간의 관계가 표시됩니다.
  • 스키마: 설명에 대한 AI 추천은 기술 및 비즈니스 스키마를 사용하여 데이터에 대한 추천 설명과 사용법을 생성할 수 있습니다.

Amazon DataZone을 사용하여 무엇을 카탈로그화할 수 있나요?

Amazon DataZone은 AWS Glue 데이터 카탈로그 및 Amazon Redshift에서 직접 게시된 데이터 자산을 지원합니다. 이 두 소스는 다음 위치의 데이터를 카탈로그화하는 데 사용할 수 있습니다.