게시된 날짜: Aug 22, 2023

Amazon SageMaker Data Wrangler는 Amazon SageMaker Studio에서 기계 학습(ML)을 위해 데이터를 집계하고 준비하는 데 걸리는 시간을 몇 주에서 몇 분으로 단축합니다. SageMaker Data Wrangler를 사용하면 Amazon S3, Amazon Athena, Amazon Redshift, Amazon EMR, Snowflake 및 50개 이상의 다른 서드 파티 소스 등 널리 사용되는 다양한 소스의 데이터에 액세스할 수 있습니다. 오늘부터 EMR Hive 및 Presto 연결에서 AWS Lake Formation과 함께 역할 기반 액세스 제어를 사용하여 SageMaker Data Wrangler에서 ML용 데이터 세트를 생성할 수 있습니다. 

관리자가 Lake Formation으로 EMR 역할 기반 액세스를 구성하고 SageMaker Sudio에서 사용되는 IAM 역할에 데이터 액세스 권한을 제공하면 동일한 IAM 역할을 사용해 SageMaker Data Wrangler에서 EMR로 연결하여 Lake Formation으로 인증하고 권한을 부여할 수 있습니다. EMR Hive 및 Presto 연결을 사용하여 Lake Formation에서 관리하는 S3 데이터 레이크의 데이터를 탐색하고 ML용 데이터 세트를 생성할 수 있습니다. 그런 다음 코드를 작성하지 않고도 SageMaker Data Wrangler의 시각적 인터페이스와 Spark에서 지원하는 300개 이상의 기본 제공 분석 및 데이터 변환을 사용하여 데이터 품질을 빠르게 이해하고, 데이터를 정리하고, 특성을 생성할 수 있습니다. 또한 SageMaker Autopilot으로 모델을 훈련 및 배포하고, SageMaker Pipeline과의 통합을 사용하여 특성 추출, 훈련 또는 추론 파이프라인에서 데이터 준비 프로세스를 운영화할 수 있으며, 이 모든 작업을 SageMaker Data Wrangler에서 수행할 수 있습니다. 

SageMaker Data Wrangler는 현재 Data Wrangler가 제공되는 모든 리전에서 EMR 및 Lake Formation을 지원합니다. 자세한 내용은 이 블로그 게시물AWS 기술 설명서를 참조하세요.