Amazon Web Services 한국 블로그

AWS Glue Data Quality 미리보기 – 규칙 기반 자동 데이터 품질 기능 출시

1980년에 저는 두 번째 전문 프로그래밍 일을 하면서 미국 여러 주의 운전면허증 데이터를 분석하는 프로젝트를 진행하고 있었습니다. 당시 해당 유형의 데이터는 일반적으로 고정 길이 레코드에 저장되었으며 값은 각 필드에 신중하게(또는 인코딩되지 않은) 인코딩되었습니다. 데이터에 대한 스키마가 주어졌음에도 불구하고, 항상 개발자들이 미리 예상하지 못한 값을 나타내기 위해 트릭에 의존해야 한다는 것을 알게 되었습니다. 예를 들어, 서로 다른 색깔의 눈을 가진 홍채 이색증이 있는 사람을 위해 코딩하는 것입니다. 결국 우리는 알려진 데이터를 다루고 있는지 확인하기 위해 실제 시간과 비용이 많이 드는 분석을 실행하기 전에 데이터 전체를 스캔했습니다. 이상으로 데이터 품질, 즉 데이터 품질 부족에 대한 저의 소개였습니다.

AWS를 사용하면 규모에 관계없이 데이터 레이크데이터 웨어하우스를 쉽게 빌드할 수 있습니다. 수집, 처리 및 공유하는 데이터의 원하는 품질 수준을 그 어느 때보다 쉽게 측정하고 유지할 수 있기를 원합니다.

AWS Glue 데이터 품질 기능 소개
오늘은 평가판 형식으로 출시하는 AWS Glue의 새로운 기능 세트인 데이터 품질에 대해 말씀드리고자 합니다. 테이블을 분석하고 찾은 내용을 기반으로 규칙 세트를 자동으로 추천할 수 있습니다. 필요한 경우 이러한 규칙을 세밀하게 조정할 수 있으며 직접 규칙을 작성할 수도 있습니다. 이 게시글에서는 몇 가지 주요 내용을 보여 드릴 것이며, 이러한 기능이 평가판에서 일반 공급으로 진행될 때 전체 게시물을 작성하기 위해 세부 정보를 아껴두겠습니다.

각 데이터 품질 규칙은 Glue 테이블 또는 Glue 테이블의 선택된 열을 참조하고 특정 유형의 속성(예: 적시성, 정확성, 무결성 등)을 검사합니다. 예를 들어 테이블에 예상되는 열 수가 있어야 하고, 열 이름이 원하는 패턴과 일치하며, 특정 열을 기본 키로 사용할 수 있도록 규칙을 지정할 수 있습니다.

시작하기
Glue 테이블 중 하나에서 새 Data quality(데이터 품질) 탭을 열어 시작할 수 있습니다. 여기에서 규칙 세트를 수동으로 만들거나 Recommend ruleset(규칙 세트 추천)을 클릭하여 시작할 수 있습니다.

그런 다음 규칙 세트(RS1)의 이름을 입력하고 액세스 권한이 있는 IAM 역할을 선택한 다음 Recommend ruleset(규칙 세트 추천)을 클릭합니다.

클릭하면 데이터를 스캔하고 추천을 제시하는 Glue Recommendation 작업(특수한 유형의 Glue 작업)을 시작합니다. 작업이 완료되면 추천 사항을 검토할 수 있습니다.

Evaluate ruleset(규칙 세트 평가)를 클릭하여 데이터 품질을 확인합니다.

데이터 품질 작업이 실행되고 결과를 검토할 수 있습니다.

테이블에 첨부된 Rulesets(규칙 세트)를 만드는 것 외에도 Glue 작업의 일부로 사용할 수 있습니다. 평소와 같이 작업을 생성한 다음 Evaluate Data Quality(데이터 품질 평가) 노드를 추가합니다.

그런 다음 데이터 품질 정의 언어(DQDL) 빌더를 사용하여 규칙을 생성합니다. 20가지 규칙 유형 중에서 선택할 수 있습니다.

이 게시글에서는 데이터 품질 평가가 실패했을 때 어떤 일이 발생하는지 보여드리기 위해 이러한 규칙을 필요 이상으로 엄격하게 설정했습니다.

작업 옵션을 설정하고 원본 데이터 또는 데이터 품질 결과를 변환 출력으로 선택할 수 있습니다. 데이터 품질 결과를 S3 버킷에 쓸 수도 있습니다.

Ruleset(규칙 세트)를 만든 후 작업에 대해 원하는 다른 옵션을 설정하고 저장한 다음 실행합니다. 작업이 완료되면 데이터 품질 탭에서 결과를 찾을 수 있습니다. 여기서는 지나치게 엄격한 규칙을 몇 개 만들었기 때문에, 평가에서 데이터가 점수 0%로 올바르게 표시되었습니다.

더 많은 것이 있지만 다음 게시글을 위해 아껴두겠습니다!

주요 사항
Preview Regions(평가판 리전) – 오픈 평가판으로, 현재 미국 동부(오하이오, 버지니아 북부), 미국 서부(오레곤), 아시아 태평양(도쿄) 및 유럽(아일랜드) AWS 리전에서 액세스할 수 있습니다.

Pricing(가격) – 데이터 품질을 평가는 다른 Glue 작업과 동일한 방식 및 동일한 DPU당 가격으로 Glue 데이터 처리 장치(DPU)를 소비합니다.

Jeff;