게시된 날짜: Jan 28, 2022

Amazon SageMaker Autopilot은 데이터에 기반해 최상의 기계 학습 모델을 자동으로 구축, 훈련 및 튜닝하는 동시에 완전한 제어와 가시성을 유지 관리할 수 있도록 합니다. 오늘부터 SageMaker Autopilot은 Apache Parquet 파일 형식에 대한 지원을 제공합니다. Apache Parquet은 Apache Hadoop 에코시스템을 위한 무료 오픈 소스, 열 지향 데이터 스토리지 형식입니다. 이 형식은 효율적인 데이터 압축 및 향상된 성능의 인코딩 체계를 제공합니다. 이 새로운 기능을 사용하면 Apache Parquet 파일 형식으로 저장된 파일을 사용하여 SageMaker Autopilot 실험을 생성할 수 있습니다. 

이 릴리스를 통해 Autopilot 실험을 생성할 때에는 단일 Parquet 파일을 가리키거나 메타데이터를 포함하고 여러 Parquet 파일을 참조하는 매니페이스트 파일을 가리키는 입력 Parquet 데이터를 위한 Amazon S3 위치를 지정할 수 있습니다. Autopilot은 입력 위치 또는 매니페스트의 각 Parquet 파일에 대해 최대 2GB의 압축 데이터를 수락할 수 있습니다. 압축 Parquet 형식 파일에 대한 2GB 서비스 한도 기본값은 AWS Support Center 콘솔에서 서비스 한도 증가 요청을 제출하여 높일 수 있습니다. 입력을 위한 Amazon S3 폴더 또는 매니페이스 파일을 지정할 때에는 각 Parquet 파일에 대해 개별적으로 기본 2GB 한도가 적용됩니다. 이 릴리스는 대형 Parquet 데이터 집합에 대한 지원도 포함하고 있습니다. SageMaker Autopilot은 클래스 불균형을 고려하고 드문 클래스 레이블을 보존하는 동시에 Parquet 파일에 저장된 비압축 데이터를 최대 지원 한도에 맞도록 자동으로 하위 샘플링합니다.

Parquet 파일 형식은 SageMaker Autopilot을 사용할 수 있는 모든 AWS 리전에서 지원됩니다. 자세한 내용은 Amazon SageMaker Autopilot 개발자 안내서의 Data and Problem typesQuotas 주제와 AutoMLChannel API 레퍼런스ContentType을 참조하세요. 보다 심화된 내용은 이 기능 출시에 대한 미리 보기를 제공하는 AWS의 블로그 게시물샘플 노트북을 확인하세요. SageMaker Autopilot을 시작하려면 시작하기를 참조하거나 SageMaker Studio 내에서 Autopilot에 액세스하세요.