게시된 날짜: Dec 4, 2018
이제 고객은 Amazon S3 Inventory 보고서를 Apache Parquet 출력 형식으로 이용할 수 있습니다. Amazon S3 Inventory는 객체의 플랫 파일 목록과 버킷 또는 공유된 접두사에 대해 선택한 메타데이터를 제공합니다. S3 Inventory를 사용하여 객체 상태를 목록화, 감사 및 보고하거나 비즈니스 워크플로 및 빅 데이터 작업을 간소화하고 속도를 높일 수 있습니다.
Parquet는 ORC와 유사한 칼럼 형식 스토리지 형식으로, 어떤 데이터 처리 프레임워크, 데이터 모델 또는 프로그래밍 언어를 선택하든지 관계없이 하둡 에코시스템의 모든 프로젝트에 사용할 수 있습니다. 이 컬럼 형식을 이용하면 현재 쿼리에 필요한 컬럼만 읽고, 압축 해제하고 처리할 수 있습니다. Amazon Athena 또는 Amazon Redshift Spectrum과 같은 AWS 서비스 또는 Apache Hive, Spark, HBase 또는 Presto와 같은 도구를 이용하여 S3 Inventory에 쿼리하는 경우, S3 Inventory 보고서를 Parquet 또는 ORC 형식으로 구성하여 쿼리 성능의 속도를 높이고 쿼리 비용을 낮추는 것이 좋습니다.
S3 Inventory의 Parquet 형식은 모든 AWS 상용 및 AWS GovCloud 리전에서 사용할 수 있습니다. AWS Management Console로 이동하여, 또는 S3 API, CLI 또는 SDK를 사용하여 S3 Inventory 구성을 설정하여 시작할 수 있습니다.