Amazon S3 現在支援對 Apache Iceberg 資料表的 Apache Avro 和 ORC 格式進行壓縮
張貼日期:
2025年7月15日
Amazon S3 已將壓縮的支援範圍擴展為包含 Apache Iceberg 資料表的 Apache Avro 和 ORC 格式,從而與現有的 Parquet 格式功能形成互補。此增強功能同時適用於 S3 資料表和採用 AWS Glue Data Catalog 最佳化的一般用途 S3 儲存貯體。
雖然 Parquet 是 Iceberg 資料表的預設格式,但您也可以用 Avro 或 ORC 格式寫入特定工作負載的資料。例如,您可以使用 Avro 來提高資料擷取和串流使用案例的寫入效能,例如每日購買交易、串流感應器資料或收集廣告曝光率。S3 Tables 會自動將多個小型檔案壓縮為較大的單一檔案,以最大程度地減少掃描的資料量、改善查詢效能並降低成本。壓縮作業預設會將 Avro 和 ORC 檔案轉換為 Parquet,以獲得最佳讀取效能,但您可以在資料表屬性中指定偏好的目標格式。
Apache Avro 和 ORC 格式的壓縮支援,現在適用於提供 S3 資料表或使用 AWS Glue Data Catalog 進行最佳化的所有 AWS 區域。若要進一步了解 S3 資料表壓縮,請參閱 S3 資料表維護文件。如需了解一般用途儲存貯體最佳化,請參閱 AWS Glue Data Catalog 最佳化文件。