Amazon S3, Apache Iceberg 테이블에서 Apache Avro 및 ORC 형식 압축 지원

게시된 날짜: 2025년 7월 15일

Amazon S3가 Apache Iceberg 테이블에 대한 압축 지원을 Apache Avro 및 ORC 형식을 포함하도록 확장했으며, 이는 기존 Parquet 형식 기능을 보완합니다. 이번 개선 사항은 S3 테이블과 AWS Glue Data Catalog 최적화를 사용하는 범용 S3 버킷 모두에서 적용됩니다.

Parquet은 Iceberg 테이블의 기본 형식이지만, 특정 워크로드에서는 Avro 또는 ORC 형식으로 데이터를 쓸 수도 있습니다. 예를 들어 Avro를 사용하면 일일 구매 트랜잭션, 센서 데이터 스트리밍, 광고 노출 수집 등의 데이터 수집 및 스트리밍 사용 사례에서 쓰기 성능을 향상할 수 있습니다. S3 테이블은 작은 파일을 자동으로 더 큰 파일로 압축하여 스캔되는 데이터의 양을 최소화하고, 쿼리 성능을 높이며, 비용을 절감합니다. 기본적으로 압축 시 최적의 읽기 성능을 위해 Avro 및 ORC 파일은 Parquet으로 변환되지만, 테이블 속성에서 원하는 대상 형식을 지정할 수도 있습니다.

Apache Avro 및 ORC 형식에 대한 압축 지원은 S3 테이블 또는 AWS Glue Data Catalog를 통한 최적화를 사용할 수 있는 모든 AWS 리전에서 제공됩니다. S3 테이블 압축에 대해 자세히 알아보려면 S3 테이블 유지 관리 설명서를 살펴보세요. 범용 버킷 최적화에 대한 자세한 내용은 AWS Glue Data Catalog 최적화 설명서에서 확인할 수 있습니다.