게시된 날짜: May 6, 2022
Amazon SageMaker Data Wrangler를 사용하면 최초의 ML용 완전 통합형 개발 환경(IDE)인 Amazon SageMaker Studio에서 기계 학습(ML)을 위해 데이터를 집계하고 준비하는 시간을 몇 주에서 몇 분으로 단축할 수 있습니다. SageMaker Data Wrangler를 통해 데이터 준비 및 특성 추출 프로세스를 간소화하고 단일 시각적 인터페이스에서 데이터 선택, 정리, 탐색 및 시각화를 포함한 데이터 준비 워크플로의 모든 단계를 완료할 수 있습니다. SageMaker Data Wrangler는 기본적으로 ml.m5.4xlarge에서 실행됩니다. SageMaker Data Wrangler에는 기본 인스턴스에서 대용량 데이터 세트(최대 수백 기가바이트(GB) 데이터)를 효율적으로 처리할 수 있도록 PySpark로 작성된 내장 데이터 변환 및 분석이 포함되어 있습니다.
오늘부터, SageMaker Data Wrangler에서 CPU 또는 메모리가 더 많은 추가 M5 또는 R5 인스턴스 유형을 사용하여 데이터 준비 워크로드의 성능을 향상할 수 있습니다. Amazon EC2 M5 인스턴스는 다양한 워크로드를 위해 컴퓨팅, 메모리 및 네트워킹 리소스를 균형 있게 제공합니다. Amazon EC2 R5 인스턴스는 메모리 최적화 인스턴스입니다. M5 및 R5 인스턴스 유형은 매우 큰 데이터 집합(최대 테라바이트(TB) 크기 데이터)에 대해 기본 변환을 실행하거나 중간 데이터 세트(최대 수십 GB)에 Panda로 작성된 사용자 지정 변환을 적용하는 등 CPU 및 메모리 집약적 애플리케이션에 적합합니다.