게시된 날짜: May 7, 2021
Amazon SageMaker Data Wrangler는 ML(기계 학습)을 위해 데이터를 집계하고 준비하는 시간을 몇 주에서 몇 분으로 단축합니다. SageMaker Data Wrangler를 통해 데이터 준비 및 피처 엔지니어링 프로세스를 간소화하고 단일 시각적 인터페이스에서 데이터 선택, 정리, 탐색 및 시각화를 포함한 데이터 준비 워크플로의 모든 단계를 완료할 수 있습니다. 오늘부터는 Amazon S3에 대한 교차 계정 액세스, 최대 1000개의 데이터 열 지원, 분산 작업 및 새로운 SageMaker Data Wrangler 노트북 환경을 포함하여 기계 학습을 위한 데이터를 더 쉽고 빠르게 준비할 수 있는 Amazon SageMaker Data Wrangler의 새로운 기능을 사용할 수 있습니다.
Amazon S3 교차 계정 액세스가 출시됨에 따라 액세스 권한이 있는 모든 S3 버킷에서 데이터를 가져오고 어떤 계정에 있는지에 관계없이 S3 버킷 내부의 데이터를 쉽게 검색할 수 있습니다. S3 버킷으로 이동한 후 대화식으로 S3 버킷의 콘텐츠를 탐색하고 클릭 한 번으로 Amazon SageMaker Data Wrangler로 가져올 수 있습니다. 또한 많은 기계 학습 애플리케이션은 수백 개의 열이 있는 데이터 세트의 준비를 필요로 합니다. 1000개의 열 데이터 세트에 대한 지원이 시작됨에 따라 기계 학습 애플리케이션을 위한 데이터를 쉽게 준비할 수 있습니다. 분산 작업을 사용하면 이제 여러 인스턴스에서 데이터 처리 워크로드를 확장하여 거의 모든 크기의 데이터를 처리 할 수 있습니다. 현재 ml.m5.4xlarge, ml.m5.12xlarge 및 ml.m5.24xlarge 인스턴스 유형에 대해 1개 이상의 인스턴스 수를 지정하여 데이터 처리 워크로드를 쉽게 확장할 수 있습니다. 마지막으로 SageMaker Data Wrangler의 새로운 노트북 환경을 통해 Jobs 노트북을 더 쉽게 사용할 수 있습니다. 노트북은 쉽게 구성할 수 있도록 재구성되었으며 더 빨리 시작할 수 있도록 설명서를 제공합니다.