데이터 카탈로그란 무엇인가요?

데이터 카탈로그는 조직이 수집 및 처리하는 모든 데이터의 인벤토리입니다. 조직은 규제 요구 사항에 따라 수집에서 사용에 이르기까지 항상 데이터를 보호해야 합니다. 데이터 카탈로그는 데이터를 구성하고 분류하여 거버넌스 및 데이터 검색을 지원합니다. 모든 사람이 조직 내에서 특정 데이터 세트가 사용되는 이유 및 방법을 빠르게 이해할 수 있으므로 컨텍스트 공유를 통해 운영 효율성을 촉진합니다.

데이터 카탈로그를 사용하면 어떤 이점이 있나요?

조직 도구인 데이터 카탈로그는 데이터 검색 및 사용 대상 식별을 간소화합니다. 다음은 몇 가지 이점입니다.

신속한 자산 검색

데이터 카탈로그는 데이터 식별 프로세스를 간소화하여 직원 생산성을 높이는 데 도움이 됩니다. 또한 설명 태그로 데이터를 검색하여 관련 데이터를 빠르게 발견하는 동시에, 각 데이터 세트의 컨텍스트와 용도를 이해할 수 있습니다. 데이터의 출처, 시스템 내 이동 방식, 변환 방법에 대한 보기를 제공합니다.  경우에 따라 데이터 분석가가 IT 팀에 크게 의존하지 않고도 분석을 수행할 수 있으므로 더 빠르게 인사이트를 얻을 수 있습니다.

향상된 데이터 품질

데이터 카탈로그는 회사에서 새 데이터를 수집할 때 직원이 여러 필드를 작성하도록 요구합니다. 사용자는 카탈로그에 액세스할 때 데이터의 출처, 변환 프로세스 및 편집 날짜를 읽을 수 있기 때문에 상호 작용하는 정보를 더 신뢰할 수 있습니다. 높은 완성도 덕분에 데이터 거버넌스가 더 쉬워지고 데이터 품질이 개선됩니다. 또한 기업은 이 데이터 카탈로그 메타데이터의 생성을 자동화하여 포괄적인 데이터 카탈로그를 보다 쉽게 제공할 수 있습니다. 

효율성 증가

데이터 카탈로그는 명명, 정의 및 지표의 일관성을 증진하여 조직 내 여러 팀이 데이터를 이해하고 사용하는 데 있어 서로 일관성이 유지되도록 합니다. 모든 데이터 자산에 대한 가시성을 통해 데이터 중복을 줄여 중복 작업을 방지하고 스토리지 비용을 최소화할 수 있습니다. 데이터 사이언티스트가 경험하는 생산성 향상은 전체 비용을 줄이는 데에도 도움이 됩니다.

보안 강화

프라이버시 규정에 따라 조직들은 개인 데이터가 어디에 있고 누가 액세스했는지 알아야 합니다. 데이터 카탈로그는 민감한 데이터를 올바르게 취급하고 적절한 액세스 권한을 부여하는 데 도움이 될 수 있습니다. 조직은 데이터의 출처, 액세스한 사용자, 사용 방식을 추적하여 규정 준수 이니셔티브를 강화할 수 있습니다. 

데이터 카탈로그의 사용 사례로는 어떤 것들이 있나요?

데이터 카탈로그를 사용하여 스토리지 및 데이터 관리를 간소화할 수 있습니다. 다음은 데이터 카탈로그의 몇 가지 사용 사례입니다.

셀프 서비스 분석

데이터 카탈로그는 데이터에 포함된 내용과 기업에서 해당 데이터를 사용하는 용도에 대한 자세한 설명을 제공합니다. 또한 기업은 유사한 여러 데이터를 구분하고, 특히 엔터프라이즈 환경에서 데이터 검색 및 사용과 관련한 모든 프로세스의 속도를 높일 수 있습니다. 투명성이 향상되어 사용자가 어떤 데이터를 보고 있는지 신속하게 파악하고 필요한 모든 정보를 한곳에서 찾을 수 있습니다. 스토리지에 대량의 데이터가 있는 경우에도 비기술 데이터 사용자를 위한 셀프 서비스 분석 워크플로를 만들 수 있습니다.

지식 공유

데이터에서 유용한 인사이트를 도출하려면 협업이 무엇보다 중요합니다. 데이터 카탈로그는 사용자가 데이터 세트에 주석을 달고, 데이터 세트를 평가 및 검토할 수 있도록 하여 협업 환경을 조성합니다. 사용자는 특정 데이터 세트에 대한 경험과 지식을 공유함으로써 조직 전체에서 리스크를 줄이고 분석을 가속화하기 위해 협력할 수 있습니다.

데이터 계보 분석

데이터의 출처와 데이터가 다양한 시스템을 통과하는 방식을 이해하는 것은 데이터 문제를 해결하거나, 영향 분석을 수행하거나, 규정 준수 표준을 충족하는 데 있어 매우 중요합니다. 데이터 카탈로그는 데이터 계보에 대한 가시성을 제공하여 사용자에게 소스에서 최종 대상까지의 데이터 여정을 명확하게 보여줍니다. 기업은 모든 직원이 모든 데이터 자산의 정확한 이름을 알 수 있도록 내부 분류 문서를 만들 수 있습니다. 데이터 카탈로그에 참조 문서나 시트가 있으면 조직 전체의 데이터 일관성이 향상됩니다.

데이터 카탈로그에는 어떤 정보가 포함되나요?

데이터 카탈로그에는 데이터 자산 인벤토리를 설명하고 데이터에 포함된 내용에 대한 추가 정보를 제공하는 메타데이터가 포함되어 있습니다. 메타데이터 필드를 사용하면 빠르게 데이터를 검색하고 자산을 찾을 수 있습니다. 데이터 카탈로그에는 다음 예와 같은 다양한 메타데이터가 포함될 수 있습니다.

비즈니스 메타데이터

비즈니스 메타데이터는 비즈니스에 제공하는 가치와 관련된 모든 정보입니다. 여기에는 비즈니스에서의 데이터 사용, 규정 준수 세부 정보, 다른 사용자를 위한 유용한 비즈니스 컨텍스트에 대한 정보가 포함될 수 있습니다. 예를 들어 데이터 기밀 수준, 설명, 위치, 사용자, 부서 등의 데이터 프로젝트 주석을 포함할 수 있습니다. 일반적으로 조직에서는 필요한 비즈니스 데이터를 정확히 정의하고 여러 관련 필드를 포함합니다.

기술 메타데이터

기술 메타데이터는 데이터 세트의 전체 구조를 설명합니다. 데이터 객체의 구조를 설명하고 데이터 객체의 관계, 연결, 색인, 행, 열 및 표 형식에 대해 설명합니다. 또한 이 메타데이터는 데이터 전문가에게 변환 또는 분석 단계 진행 등, 데이터가 거쳐야 하는 프로세스에 대한 정황 정보를 제공합니다. 사용자는 조직이 어떻게 정보를 구성하고 표시했는지 빠르게 이해할 수 있습니다. 

운영 메타데이터

운영 메타데이터는 데이터의 출처와 변환, 업데이트, 카디널리티 및 기타 프로세스 식별 마커에 대한 설명을 제공합니다. 운영 메타데이터를 사용하면 데이터가 조직에 어떻게 유입되었는지, 어떤 변화를 거쳤는지, 그리고 기타 현재 상태 업데이트를 확인할 수 있습니다. 운영 메타데이터 필드를 사용하면 사용자가 데이터를 마지막으로 수정한 시점과 데이터 편집 권한을 가진 사용자를 확인할 수 있습니다.

데이터 카탈로그의 주요 기능은 무엇인가요?

최신 데이터 카탈로그 플랫폼은 다양한 주요 기능을 통해 사용을 간소화하고 효율성을 높입니다. 

Automation

자동화를 통해 데이터 카탈로그를 더 쉽게 관리할 수 있습니다. 통합 기능 덕분에 카탈로그는 다양한 소스에서 메타데이터를 자동으로 가져올 수 있습니다. 새 데이터 자산이 추가되거나 기존 데이터 자산이 업데이트될 때 카탈로그에는 최신 상태가 반영됩니다. 일부 고급 시스템은 기계 학습을 활용하여 시간 경과에 따른 데이터 분류 프로세스를 개선하고 정확성을 높이기도 합니다. 데이터 카탈로그 내의 자동화 기능은 데이터 볼륨이 계속 증가하는 상황에서도 민첩성을 높여줍니다.

효율적인 검색 옵션

데이터 카탈로그 검색 기능은 기본 키워드 검색을 뛰어넘어 추천을 제공합니다. 또한 필터를 통합하므로 사용자가 다양한 기준에 따라 데이터를 찾을 수 있습니다. 사용자 경험은 최신 검색 엔진과 유사하며 연관성이 높고 순위가 매겨져 빠르게 액세스할 수 있는 결과를 제공합니다. 데이터 검색의 효율성은 시간을 절약해주는 동시에 데이터 검색 및 탐색을 촉진합니다. 

범용 용어집

범용 용어집은 조직 전체의 용어 및 지표에 대한 표준화된 정의를 제공합니다. 모든 메타데이터 용어가 하나의 명확한 정의를 갖도록 합니다. 카탈로그에서 용어를 발견하면 용어집을 참조하여 의미를 찾을 수 있으므로, 전반적으로 일관된 이해와 사용이 보장됩니다. 이는 데이터 무결성을 유지하고 여러 팀 간의 명확한 커뮤니케이션을 보장하는 데 특히 중요합니다.

데이터 거버넌스와 데이터 카탈로그는 어떻게 다른가요?

데이터 거버넌스는 비즈니스 이니셔티브와 운영을 지원하기에 적합한 상태로 데이터를 유지하는 방법론입니다. ​올바른 거버넌스를 구축하려면 데이터 액세스와 제어의 균형을 맞추고, 사람들에게 데이터에 대한 신뢰와 확신을 주는 동시에 실험을 장려해야 합니다. 엔터프라이즈 데이터 및 기술을 사용할 때 사람들이 따를 수 있는 프레임워크를 제공합니다. 데이터 거버넌스는 양질의 데이터와 규제하에서의 적절한 사용을 보장하는 데 유용합니다.

데이터 카탈로그는 데이터 거버넌스 정책을 구현하는 기술입니다. 데이터 거버넌스는 데이터 사용 정책을 정의하는 반면, 데이터 카탈로그는 그 정책을 적용합니다. 이 같은 카탈로그를 통해 데이터 거버넌스를 보다 효과적으로 추적할 수 있습니다. 

AWS는 데이터 카탈로그 요구 사항을 어떻게 지원하나요?

AWS Glue는 데이터 분석, 기계 학습(ML) 및 애플리케이션 개발을 위해 여러 소스에서 데이터를 쉽게 탐색, 준비, 이동 및 통합할 수 있도록 하는 확장 가능한 서버리스 데이터 통합 서비스입니다. AWS Glue 데이터 카탈로그는 모든 데이터 자산의 정형 및 운영 메타데이터를 저장하는 중앙 리포지토리입니다. 해당 데이터 세트의 테이블 정의와 물리적 위치를 저장하고, 비즈니스 관련 속성을 추가하고, 시간이 지나면서 이 데이터가 어떻게 변경되는지 추적할 수 있습니다.

또한 데이터 카탈로그는 Amazon Athena, Amazon EMR, Amazon Redshift Spectrum과 통합됩니다. 데이터 카탈로그에 테이블 정의를 추가하면 이러한 서비스 간의 데이터를 일관되게 볼 수 있습니다.

AWS Glue는 메타데이터를 데이터 카탈로그에 채우는 다양한 방법을 제공합니다. 예를 들면,

  • 다양한 데이터 스토어를 스캔하고, 스키마와 파티션 구조를 자동으로 추론한 후, 그에 해당하는 테이블 정의 및 통계로 Glue 데이터 카탈로그를 채우도록 AWS Glue 크롤러를 설정합니다.
  • 크롤러가 정기적으로 실행되도록 일정을 예약하여 메타데이터가 항상 최신으로 유지되고 기본 데이터와 동기화되도록 합니다. 
  • AWS Glue 콘솔을 사용하거나 API를 호출하여 수동으로 테이블 세부 정보를 추가 및 업데이트합니다. 

지금 무료 계정을 만들어 AWS에서 데이터 카탈로그를 시작하세요.

AWS의 다음 단계

무료 계정에 가입

AWS 프리 티어에 즉시 액세스할 수 있습니다.

가입 
콘솔에서 구축 시작

AWS Management Console에서 구축을 시작하세요.

로그인