게시된 날짜: Mar 30, 2021
이제 AWS Glue DataBrew에서 데이터 레이크, 웨어하우스 및 기타 JDBC에 액세스 가능한 데이터 원본의 데이터에서 시각적으로 이상치를 감지할 수 있습니다. 산술 및 알고리즘 방법(예: z 점수(평균값과의 차이를 찾아 표준 편차로 나눔), 수정된 z 점수(중앙값 절대 편차의 차이 계산), 사분위수 범위(첫 번째 사분위수와 세 번째 사분위수 사이의 값 계산))과 하나 이상의 변환(예: 플래그 열 생성, 기간 함수 적용)을 사용하거나 250개가 넘는 다른 변환 중에서 선택하여 이상치의 대체, 제거, 재조정 또는 플래그 지정을 통해 이상치를 추가적으로 처리할 수 있습니다.
분석 및 기계 학습 사용 사례의 경우 데이터 집합은 종종 측정 및 기록 오류로 인해 발생하는 무의미한 일탈이나 중요한 정보가 담긴 이상치를 포함하기도 합니다. 데이터 집합에서 이상치를 포함하거나 제외하면 분석 또는 기계 학습 모델의 결과와 이 데이터에 기반한 의사결정에 직접 영향을 줄 수 있습니다. 데이터 레이크 및 데이터 웨어하우스에서 작은 데이터 샘플을 작업할 때는 코드에서 데이터를 여러 번 쪼개어 데이터의 모든 이상치를 감지하고 처리해야 합니다. 이를 확인할 시각적 방법이 없기 때문입니다. 이제 DataBrew를 사용하면 데이터 집합 프로필에서 이상치를 시각적으로 미리 볼 수 있을 뿐만 아니라, 코드를 작성하지 않고도 적절히 처리할 수 있습니다.
AWS Glue DataBrew는 코드를 작성할 필요 없이 데이터 준비를 위해 사전 구축된 250개가 넘는 변환을 사용하여 데이터를 손쉽게 정리하고 정규화할 수 있는 시각적 데이터 준비 도구입니다.
자세한 내용은 이 시작하기 동영상을 시청하거나 샘플 데이터 집합을 사용하여 DataBrew를 탐색하세요. 시작하려면 AWS 관리 콘솔로 이동하거나 노트북 환경에 DataBrew 플러그인을 설치하고 DataBrew 설명서를 참조하세요.