게시된 날짜: Nov 2, 2023

이제 Amazon EMR Studio에서 Amazon SageMaker Data Wrangler를 시작하여 기계 학습(ML)을 위한 로우 코드 데이터를 준비할 수 있습니다. Amazon EMR은 Apache Spark, Apache Hive, Presto 같은 오픈 소스 프레임워크를 사용하여 페타바이트 규모의 데이터 처리, 대화식 분석 및 기계 학습을 지원하는 클라우드 빅 데이터 솔루션입니다. Amazon SageMaker Data Wrangler를 사용하면 기계 학습(ML)용 데이터를 집계하고 준비하는 시간을 몇 주에서 몇 분으로 단축할 수 있습니다. 새로운 통합은 코드를 작성하지 않고도 EMR Studio에서 SageMaker Data Wrangler를 실행하여 ML에 사용할 데이터를 준비할 수 있는 간소화된 경험을 제공합니다.

대량의 데이터를 분석, 변환 및 준비하는 과정은 ML 워크플로의 중요한 부분이자 가장 시간 소모적인 작업입니다. 오늘부터 고객은 EMR Studio에서 SageMaker Data Wrangler를 시작하여 기존 EMR 클러스터를 검색하고 연결할 수 있습니다. 그런 다음 Data Wrangler 시각적 인터페이스를 통해 데이터 품질 및 인사이트 보고서를 사용하여 데이터를 분석하고, Spark에서 지원하는 300개 이상의 변환 기능을 사용하여 기계 학습용으로 데이터를 정리하고 특성을 생성할 수 있습니다. 분산된 처리 작업을 통해 대규모 데이터 세트를 처리하도록 확장하고, 기본 제공 스케줄링 기능을 사용하여 데이터 준비를 자동화하며, SageMaker Pipeline과 통합하여 엔드 투 엔드 훈련 또는 추론을 수행할 수 있습니다. 아울러 SageMaker Data Wrangler와 SageMaker Autopilot 통합으로 시각적 인터페이스를 사용하여 기계 학습 모델을 자동으로 훈련하고 배포할 수 있습니다. 

새로운 통합은 EMR 및 SageMaker Data Wrangler가 제공되는 모든 상용 리전에서 사용할 수 있습니다. 자세한 내용은 기술 설명서를 참조하세요.