데이터 계보, Amazon DataZone 및 차세대 Amazon SageMaker에서 정식 버전으로 제공

게시된 날짜: 2024년 12월 3일

AWS는 Amazon DataZone과 차세대 Amazon SageMaker에서 데이터 계보를 정식 버전으로 제공한다고 발표했습니다. 이 기능은 AWS Glue와 Amazon Redshift에서 계보를 자동으로 캡처하여 소스에서 소비에 이르는 계보 이벤트를 시각화합니다. OpenLineage와 호환되는 이 기능을 통해 데이터 생산자는 OpenLineage 지원 시스템이나 API를 통해 캡처된 계보 이벤트로 자동화된 계보를 보강하여 데이터 소비자에게 포괄적인 데이터 이동 뷰를 제공할 수 있습니다.

이 기능은 일관성을 유지하고 오류를 줄이기 위해 도구에서 AWS Glue, Amazon Redshift 및 Spark 실행으로부터 데이터 자산 및 열의 스키마와 변환의 계보 캡처를 자동화합니다. 자동화 기능이 기본 제공되므로, 도메인 관리자와 데이터 생산자는 비즈니스 데이터 카탈로그에서 데이터 공유를 위한 데이터가 구성될 때 계보 이벤트의 캡처 및 저장을 자동화할 수 있습니다. 데이터 소비자는 계보에 대한 종합 뷰에서 자산의 출처를 신뢰할 수 있으며, 데이터 생산자는 소비를 이해함으로써 자산 변경이 미치는 영향을 평가할 수 있습니다. 또한 각 이벤트의 계보를 버전화하여 사용자가 언제든지 계보를 시각화하거나 자산 또는 작업 기록 전반에 걸쳐 전환을 비교할 수 있도록 합니다. 이러한 기록 계보는 데이터가 어떻게 진화해 왔는지에 대한 심층적인 이해를 제공하며, 이는 데이터 자산의 무결성 문제 해결, 감사 및 검증에 필수적입니다.

데이터 계보 기능은 Amazon DataZone과 차세대 Amazon SageMaker가 제공되는 모든 AWS 리전에서 정식 버전으로 사용할 수 있습니다.

자세히 알아보려면 Amazon DataZone과 차세대 Amazon SageMaker로 이동하세요.