게시된 날짜: Dec 7, 2022
Amazon SageMaker 특성 저장소는 이제 오프라인 저장소에서 Apache Iceberg 테이블 형식으로 기능 그룹을 생성하는 기능을 지원합니다. 오프라인 저장소에는 논리적 기능 그룹으로 구성된 이전 ML 기능이 포함되어 있으며 모델 학습 및 일괄 추론에 사용됩니다. Apache Iceberg는 오프라인 저장소와 같은 대규모 분석 데이터 세트를 위한 오픈 테이블 형식입니다. 대량의 파일 컬렉션을 테이블로 관리하고 Amazon S3에서의 사용에 최적화된 최신 분석 데이터 레이크 작업을 지원합니다.
특히 스트리밍할 때 데이터를 수집하면 수 많은 작은 파일이 생성됨에 따라 파일 작업 수가 많아져 쿼리 성능에 부정적인 영향을 미칠 수 있습니다. Iceberg를 사용하면 작은 데이터 파일을 파티션의 더 적은 수의 대용량 파일로 압축하여 쿼리 속도를 크게 높일 수 있습니다. 이 압축 작업은 동시에 수행되며 기능 그룹에서 진행 중인 읽기 및 쓰기 작업에는 영향을 주지 않습니다. 새 기능 그룹을 생성할 때 Iceberg 옵션을 선택한 경우 SageMaker 특성 저장소는 Parquet 파일 형식을 사용하여 Iceberg 테이블을 생성하고 AWS Glue 데이터 카탈로그에 테이블을 등록합니다.
자세히 알아보려면 여기에서 설명서를 확인하십시오. 시작하려면 Amazon SageMaker 콘솔에서 SageMaker 스튜디오로 이동하십시오.