게시된 날짜: Dec 8, 2022
Amazon SageMaker Data Wrangler는 Amazon SageMaker Studio에서 기계 학습(ML)을 위해 데이터를 집계하고 준비하는 시간을 몇 주에서 몇 분으로 단축해 줍니다. SageMaker Data Wrangler를 이용하면 데이터 준비 및 특성 추출 프로세스를 간소화하고 단일 시각적 인터페이스에서 데이터 선택, 정리, 탐색 및 시각화를 포함한 데이터 준비 워크플로의 모든 단계를 완료할 수 있습니다. 오늘부터 빅 데이터 쿼리 엔진으로 Amazon EMR Presto를 연결하여 대규모 데이터 세트를 가져오고 Data Wrangler의 시각적 인터페이스에서 몇 분 만에 ML용 데이터를 준비할 수 있습니다.
대량의 데이터를 분석, 변환 및 준비하는 것은 ML 워크플로의 중요한 부분이자 가장 시간이 오래 걸리는 작업입니다. 데이터 과학자와 데이터 엔지니어는 현재 Amazon EMR에서 실행되는 Apache Spark, Apache Hive 및 Presto를 활용하여 대규모 데이터를 준비하고 있습니다. 오늘부터 고객은 시각적 인터페이스를 사용하여 Data Wrangler에서 Presto 엔드포인트를 실행하는 기존 EMR 클러스터를 검색하고 연결할 수 있습니다. 또한 데이터베이스, 테이블 및 스키마를 검색하고, Presto 쿼리를 작성하여 ML용 데이터 세트를 선택하고 미리 보고, 생성할 수 있습니다. 그런 다음 Data Wrangler 시각적 인터페이스를 통해 데이터 품질 및 인사이트 보고서를 사용하여 데이터를 분석하고 Spark 코드를 작성할 필요 없이 Spark에서 지원하는 300개 이상의 내장 변환을 사용하여 데이터를 정리하고 ML용 기능을 만들 수 있습니다. 그리고 SageMaker Autopilot과의 통합을 이용해 ML 모델을 자동으로 학습시키고 배포할 수 있습니다. 마지막으로 분산된 처리 작업을 통해 대규모 데이터 세트를 처리하도록 확장하고, 내장된 스케줄링 기능을 사용하여 데이터 준비를 자동화하며, SageMaker Pipeline을 통한 학습 또는추론을 위해 프로덕션 워크플로우에서 데이터 준비를 실행할 수 있습니다.
Data Wrangler는 현재 Data Wrangler가 지원하는 모든 리전에서 추가 요금 없이 EMR Presto를 지원합니다. 자세히 알아보려면 이 블로그 게시물과 AWS 기술 설명서를 참조하세요.