張貼日期: Sep 5, 2018

Amazon S3 宣布 S3 Select 的增強功能。S3 Select 是 Amazon S3 的一種功能,專門於物件取出您需要的特定資料,可大幅改善效能並減少應用程式存取 S3 資料的成本。

現在,Amazon S3 Select 可在以 CSV 和 JSON 格式存放的物件上運作。根據客戶意見回饋,我們很高興地宣布 S3 Select 支援 Apache Parquet 格式、JSON 陣列以及適用於 CSV 和 JSON 物件的 BZIP2 壓縮。我們也針對 S3 Select 增加了 CloudWatch 指標的支援,它能讓您監控應用程式的 S3 Select 使用情況。 

因為 Parquet 支援各種查詢引擎,例如 Hive、Presto 和 Impala,以及包括 Spark 和 MapReduce 在內的多個架構,因此被廣泛採用。S3 Select Parquet 可以讓您使用 S3 Select 從 S3 存放的資料中擷取特定的欄,而且支援使用 GZIP 或 Snappy 進行單欄式壓縮。您可以將結果中的格式指定為 CSV 或 JSON,還可以決定如何分隔結果中的記錄。 

透過 JSON 陣列支援,您可以重複利用 JSON 物件中的內部節點。您可以在 S3 Select 查詢的 FROM 子句中指定路徑導覽,以便查詢這些巢狀 JSON 物件。

BZIP2 是一種被廣泛採用的壓縮格式,可用於壓縮文字資料,且通常比許多其他類型的壓縮演算法更有效率。

您可以透過 S3 的 CloudWatch 指標,追蹤應用程式的運作狀態。這些指標每隔 1 分鐘提供一次,讓您可以快速識別操作問題並採取相應措施。新的 S3 Select 特定指標包括 S3 Select 請求計數、掃描的資料量和傳回的資料量。

從今天開始,所有 AWS 商業區域都提供這些適用於 Amazon S3 Select 的功能。

要進一步了解 Amazon S3 Select,請瀏覽 Amazon S3 Developer Guide 中的 Selecting Content from Objects 頁面。要進一步了解適用於 S3 的 Amazon CloudWatch 指標,請瀏覽 Amazon S3 Developer Guide 中的 Monitoring Metrics with Amazon CloudWatch 頁面。要開始使用,請瀏覽 AWS 管理主控台