게시된 날짜: Nov 30, 2022

Amazon SageMaker Data Wrangler를 사용하면 ML용 데이터를 집계하고 준비하는 데 걸리는 시간을 몇 주에서 몇 분으로 단축할 수 있습니다. 또한 데이터 준비 및 특성 추출 프로세스도 간편하게 진행할 수 있으며, 코드를 거의 사용하지 않는 시각적 인터페이스에서 데이터 선택, 시각화, 정리, 준비를 비롯한 데이터 준비 워크플로의 각 단계를 완료할 수 있습니다. 대다수 ML 전문가는 노트북에서 데이터 세트를 직접 탐색하여 정보 누락, 극한 값, 스큐된 데이터 세트, 바이어스 등 발생 가능한 데이터 품질 문제를 찾아내고자 합니다. 그러면 해당 문제를 해결하여 ML 모델 훈련용 데이터를 더 빨리 준비할 수 있기 때문입니다. ML 전문가가 용 코드를 작성하여 데이터 세트의 각 부분을 시각화 및 검사한 다음 발생 가능한 문제를 식별하고 해결하려면 몇 주가 걸릴 수도 있습니다.

오늘부터 Data Wrangler가 Amazon SageMaker Studio 노트북에서 기본 데이터 준비 기능을 제공합니다. 그러므로 ML 전문가는 노트북 내에서 클릭 몇 번만으로 데이터 특성을 시각적으로 검토하고 문제를 식별할 수 있으며 데이터 품질 문제를 해결할 수 있습니다. 사용자가 노트북에서 데이터 프레임(데이터의 테이블 형식 표현)을 표시하면 SageMaker Studio 노트북에서 차트를 자동으로 생성합니다. 따라서 사용자는 데이터 분산 패턴을 파악하고 잘못된 데이터/누락된 데이터/이상치 등의 발생 가능한 문제를 식별할 수 있습니다. 노트북에서는 이러한 문제를 해결할 수 있는 데이터 변환 방법을 제안합니다. 사용자는 새로운 기능을 통해 MML 모델 성능에 영향을 주는 대상 열 데이터 품질 문제(예: 데이터 불균형, 데이터 형식 혼합)도 확인할 수 있습니다. 새로운 기능은 이러한 문제를 해결할 수 있는 데이터 변환 방법을 제안합니다. ML 전문가가 데이터 변환 방법을 선택하면 SageMaker Studio 노트북 내에 해당 코드가 생성됩니다. 그러므로 노트북을 실행할 때마다 데이터 변환을 반복 적용할 수 있습니다.

이 기능은 현재 SageMaker Studio 노트북이 지원되는 모든 리전에서 추가 비용 없이 상용 버전으로 사용 가능합니다.