게시된 날짜: Apr 1, 2022
Amazon SageMaker Data Wrangler를 사용하면 최초의 ML용 완전 통합형 개발 환경(IDE)인 Amazon SageMaker Studio에서 기계 학습(ML)을 위해 데이터를 집계하고 준비하는 시간을 몇 주에서 몇 분으로 단축할 수 있습니다. SageMaker Data Wrangler를 통해 데이터 준비 및 특성 추출 프로세스를 간소화하고 단일 시각적 인터페이스에서 데이터 선택, 정리, 탐색 및 시각화를 포함한 데이터 준비 워크플로의 모든 단계를 완료할 수 있습니다. Amazon Simple Storage Service(Amazon S3), Amazon Athena, Amazon Redshift 및 Snowflake와 같은 여러 데이터 원본에서 데이터를 가져올 수 있습니다. 오늘부터는 Databricks도 SageMaker Data Wrangler에서 데이터 원본으로 이용하여 Databricks의 데이터를 기계 학습용으로 손쉽게 준비할 수 있게 됩니다. Databricks는 AWS 파트너로서, 조직에서 자사 데이터를 분석용으로 준비하고 조직 전반의 데이터 과학 및 데이터 중심 의사 결정을 지원하며 신속하게 ML을 도입하도록 돕습니다.
Databricks를 SageMaker Data Wrangler 데이터 원본으로 활용하면 Databricks에 신속하고 간편하게 연결하여 SQL을 사용해 Databricks에 저장된 데이터를 대화형으로 쿼리하며, 데이터를 가져오기 전에 미리 볼 수 있습니다. 또한, Databricks의 데이터를 Amazon S3에 저장된 데이터와 결합하고 Amazon Athena, Amazon Redshift 및 Snowflake를 통해 쿼리한 데이터와 결합하여 ML 사용 사례에 적합한 데이터 세트를 만들 수도 있습니다. 데이터를 가져오고 나면 SageMaker Data Wrangler의 기본 제공 시각화를 사용하여 데이터를 탐색, 분석하여 잠재적인 오류와 극단값을 파악할 수 있습니다. 코드는 한 줄도 쓰지 않고 원핫(one-hot) 인코딩 및 데이터 밸런싱과 같은 ML별 변환 등 300여 가지 기본 제공 데이터 변환을 사용하여 데이터와 엔지니어 특성을 신속하게 정리할 수 있습니다. 또한 Amazon SageMaker Clarify로 바이어스를 탐지하고, 대상 유출을 찾아내며 신속 모델을 사용한 “what if” 분석을 수행해 ML 모델을 훈련하여 프로덕션에 배포하기도 전에 ML 모델에 영향을 미칠 수 있는 중요 기능 및 여타 데이터 품질 문제를 파악할 수도 있습니다. 마지막으로, 클릭 몇 번만으로 처리된 데이터를 직접 Amazon SageMaker Feature Store나 Amazon S3로 내보내 ML 모델을 SageMaker Autopilot 또는 SageMaker Training으로 훈련할 수도 있습니다. 또한 데이터 준비 워크플로를 내보내 SageMaker Processing 작업의 더 큰 데이터 세트에서 실행할 수도 있고, Amazon SageMaker Pipelines의 단계로 실행할 수도 있습니다.