게시된 날짜: Mar 10, 2023
Amazon SageMaker Data Wrangler는 Amazon SageMaker Studio에서 기계 학습(ML)을 위해 데이터를 집계하고 준비하는 데 걸리는 시간을 몇 주에서 몇 분으로 단축합니다. Data Wrangler를 사용하면 널리 사용되는 다양한 소스(Amazon S3, Amazon Athena, Amazon Redshift, Amazon EMR Presto, Snowflake) 및 40개 이상의 다른 서드 파티 소스의 데이터에 액세스할 수 있습니다. 오늘부터 Amazon EMR Hive에 빅 데이터 쿼리 엔진으로 연결하여 기계 학습용으로 대규모 데이터 세트를 가져올 수 있습니다.
대량의 데이터를 집계하고 준비하는 작업은 기계 학습 워크플로에서 매우 중요한 부분입니다. 데이터 사이언티스트와 데이터 엔지니어는 Amazon EMR에서 실행되는 Apache Spark, Apache Hive 및 Presto를 활용하여 대규모 데이터를 처리합니다. 오늘부터 고객은 Data Wrangler의 시각적 인터페이스를 사용하여 Hive 엔드포인트를 실행하는 기존 EMR 클러스터를 검색하고 연결할 수 있습니다. 데이터베이스, 테이블 및 스키마를 탐색하고, Hive 쿼리를 작성하여 Data Wrangler의 SQL 탐색기로 데이터 세트를 선택하고, 미리 보고, 생성할 수 있습니다. 그런 다음 Spark에서 지원하는 300개 이상의 기본 제공 분석 및 변환 기능을 사용하여 코드를 작성하지 않고도 데이터를 시각적으로 분석하고 기계 학습 기능을 생성할 수 있습니다. 또한 고객은 Data Wrangler 시각적 인터페이스를 통해 SageMaker 파이프라인에서 SageMaker Autopilot을 사용하여 모델을 훈련 및 배포하고, 작업을 예약하거나, 데이터 준비를 진행할 수 있습니다.
Data Wrangler는 현재 Data Wrangler가 제공되는 모든 리전에서 EMR Hive를 지원합니다. 자세히 알아보려면 이 블로그 게시물과 AWS 기술 설명서를 참조하세요.