게시된 날짜: Sep 22, 2022
Amazon SageMaker Data Wrangler는 최초의 ML용 완전 통합형 개발 환경(IDE)인 Amazon SageMaker Studio에서 기계 학습(ML) 데이터를 집계하고 준비하는 데 걸리는 시간을 몇 주에서 몇 분으로 단축합니다. SageMaker Data Wrangler를 통해 데이터 준비 및 특성 추출 프로세스를 간소화하고 단일 시각적 인터페이스에서 데이터 선택, 정리, 탐색 및 시각화를 포함한 데이터 준비 워크플로의 모든 단계를 완료할 수 있습니다. Amazon Simple Storage Service(Amazon S3), Amazon Redshift, Snowflake 및 Amazon Athena가 지원하는 26개의 연합 쿼리 데이터 소스와 같은 여러 데이터 소스에서 데이터를 가져올 수 있습니다. 오늘부터 Athena 데이터 소스에서 데이터를 가져오는 고객은 S3 쿼리 출력 위치와 데이터 보존 기간을 구성하여 Athena가 중간 데이터를 저장하는 위치와 기간을 제어할 수 있습니다.
Amazon Athena는 표준 SQL을 사용하여 Glue 데이터 카탈로그를 간편하게 탐색하고, Amazon S3와 26개의 연합 쿼리 데이터 소스에 있는 데이터를 직접 분석할 수 있는 대화형 쿼리 서비스입니다. Data Wrangler는 Athena Workgroup을 지원하여 사용자 지정 S3 쿼리 출력 위치를 제공합니다. 오늘부터 Athena 쿼리 출력용 사용자 지정 S3 위치를 지정하거나 Data Wrangler의 기존 기본 버킷을 계속 사용할 수 있습니다. 이제 Athena 쿼리 출력의 기본 데이터 보존 기간 5일을 활용하여 스토리지 비용을 관리할 수 있습니다. 이 데이터 보존 기간은 요구 사항과 조직의 데이터 보안 지침에 맞게 변경할 수 있습니다. Athena를 통해 데이터를 가져오면 Data Wrangler 시각적 인터페이스를 사용하여 여러 소스의 데이터를 조인하고, 데이터 품질 및 인사이트 보고서와 기타 내장 시각화를 통해 데이터를 탐색 및 분석하여 잠재적 오류와 극단 값을 식별할 수 있습니다. 300개 이상의 내장 데이터 변환을 사용하여 데이터를 빠르게 정리하고 특성을 추출할 수 있습니다. 대규모 데이터 세트를 처리하는 작업을 생성하거나 Data Wrangler에서 직접 SageMaker Autopilot 훈련 작업을 시작하여 준비된 데이터로 비즈니스 문제를 위한 최선의 모델을 자동으로 찾을 수 있습니다.