게시된 날짜: Aug 16, 2021
Amazon SageMaker Data Wrangler는 기계 학습(ML)을 위해 데이터를 집계하고 준비하는 시간을 몇 주에서 몇 분으로 단축합니다. SageMaker Data Wrangler를 통해 데이터 준비 및 특성 추출 프로세스를 간소화하고 단일 시각적 인터페이스에서 데이터 선택, 정리, 탐색 및 시각화를 포함한 데이터 준비 워크플로의 모든 단계를 완료할 수 있습니다. 오늘부터 다중공선성 감지, Amazon S3로의 손쉬운 결과 내보내기, 열 구분 기호 지원, 선택한 여러 데이터 집합에서 동일한 SageMaker Data Wrangler 흐름 재사용 등 Amazon SageMaker Data Wrangler의 새로운 기능을 사용할 수 있습니다.
다중공선성이란 데이터 집합 내의 두 개 이상의 기능이 서로 높은 상관관계를 나타낼 때 발생합니다. 다중공선성은 기계 학습 모델의 성능을 방해하기 때문에 데이터 집합 내에서 이를 감지하는 것이 중요합니다. 오늘부터 Amazon SageMaker Data Wrangler에서 세 가지 새로운 진단 시각화를 사용해 데이터 집합 내의 다중공선성 감지에 도움을 받을 수 있습니다. 첫 시각화를 통해서는 데이터 집합 내의 분산팽창요인(VIF)을 구분합니다. VIF가 높으면 다중공선성의 존재를 뜻할 수 있습니다. 두 번째 시각화는 주성분 분석(PCA)과 특잇값 분해(SVD)를 사용해 단일 값을 계산합니다. 단일 값의 분포가 지나치게 균등하지 못하면 이 또한 다중공선성을 뜻할 수 있습니다. 마지막으로 세 번째 시각화는 사용자의 데이터를 학습시킨 LASSO(Least absolute shrinkage and selection operator) 모델로부터 계수 값을 구하는 LASSO를 사용합니다. 0에 가까운 계수 값이 포함된 변수는 중복일 수 있으며 기계 학습 모델의 성능에 별다른 기여를 하지 않습니다.
또한 오늘부터 준비된 데이터를 클릭 몇 번으로 쉽게 내보낼 수 있습니다. Amazon SageMaker Data Wrangler의 새로운 내보내기 기능은 푸시버튼을 통한 데이터 내보내기 기능을 제공합니다. 준비 탭에서 ‘데이터 내보내기’를 클릭하고 결과를 저장할 Amazon S3 위치를 지정하면 됩니다. 그러면 다른 기계 학습 애플리케이션에서 사용할 수 있도록 결과가 S3에 직접 내보내집니다. 또한 이제 데이터를 쉼표, 탭, 파이프, 세미콜론, 콜론 등으로 구분된 다양한 데이터 형식으로 가져올 수 있습니다. 마지막으로, 이제 SageMaker Data Wrangler 데이터 흐름에 사용된 데이터 집합을 변경할 수 있습니다. 데이터 보기에서 소스 노드를 클릭하고 ‘데이터 집합 편집’을 선택하면 SageMaker Data Wrangler 흐름 파일에 사용된 소스 데이터를 수정할 수 있습니다.
Amazon SageMaker Data Wrangler의 새로운 기능을 시작하려면 Amazon SageMaker Studio를 열고 메뉴에서 파일> 새로 만들기> 흐름을 클릭하거나 SageMaker Studio 시작 관리자에서 ‘새 데이터 흐름’을 클릭합니다. 자세히 알아보려면 기능 페이지를 방문하거나 설명서를 확인하세요. 여기에서 최신 릴리스로 업그레이드하는 방법도 알아볼 수 있습니다.