게시된 날짜: Feb 11, 2021
이제 AWS Glue DataBrew에서 프로필 작업을 실행하여 열 수준 카디널리티, 수치 상관 관계, 고유 값, 표준 편차 및 기타 통계 등 40개 이상의 데이터 품질 통계를 자동 생성할 때, 분석하려는 데이터 세트의 크기를 구성 할 수 있습니다. 이를 통해 매우 큰 데이터 세트의 경우 데이터 세트의 x%에서 실행되도록 프로파일을 사용자 지정하거나 더 빠른 결과를 위해 데이터 세트의 하위 표본에 집중할 수 있습니다.
프로파일 작업이 분석 실행을 완료하면 DataBrew는 콘솔에 있는 시각적 프로파일 대시보드에 모든 통계를 표시하고 원본 통계를 JSON 객체로 Amazon S3 버킷에 저장합니다. 이를 통해 시간이 지남에 따라 수신 데이터의 품질을 모니터링하고, 예상치 못하거나 바람직하지 않는 데이터 변경을 감지하고, 코드 작성 없이 몇 시간, 며칠, 몇 주가 아닌 몇 분 이내에 자동화 된 데이터 품질 경고를 설정할 수 있습니다.
시작하려면 AWS Management Console을 참조하거나 Notebook 환경에 DataBrew 플러그인을 설치하고 DataBrew 설명서를 참조하세요.