張貼日期: Dec 4, 2018
客戶現在可取得 Apache Parquet 檔案格式的 Amazon S3 庫存報告。Amazon S3 庫存可為儲存貯體或共用前綴提供物件和所選中繼資料的一般檔案清單。您可以使用 S3 庫存來羅列及稽核物件的狀態,並製成報告,或是簡化和加速業務工作流程和巨量資料任務。
Parquet 是一種單欄式儲存檔案格式,類似 ORC (優化的資料列單欄式),無論選擇何種資料處理架構、資料模型或程式設計語言,Hadoop 生態系統中的任何專案都可使用。此單欄式格式可讓您僅讀取、解壓縮及處理目前查詢所需的欄。要使用 Amazon Athena 或 Amazon Redshift Spectrum 等 AWS 服務,或是 Apache Hive、Spark、HBase 或 Presto 等工具查詢 S3 庫存,建議您在 Parquet 或 ORC 中設定 S3 庫存報告,以提高查詢效能及降低查詢成本。
所有 AWS 商業和 AWS GovCloud 區域均已提供 S3 庫存的 Parquet 格式。若要開始使用,請前往 AWS 管理主控台,或使用 S3 API、CLI 或 SDK 設定 S3 庫存組態。