发布于: Sep 5, 2018

Amazon S3 宣布增强 S3 Select 的功能。S3 Select 是 Amazon S3 的一项功能,专用于仅从对象中提取所需数据,从而显著提高性能,并降低访问 S3 中数据所需的应用程序成本。

现在,Amazon S3 Select 适用于以 CSV 和 JSON 格式存储的对象。根据客户反馈,我们很高兴地宣布 S3 Select 支持 Apache Parquet 格式、JSON 数组以及对 CSV 和 JSON 对象进行 BZIP2 压缩。我们还添加了对适用于 S3 Select 的 CloudWatch 指标的支持,这让您能够监控应用程序的 S3 Select 使用情况。 

Parquet 得到了广泛采用,因为它支持各种查询引擎(如 Hive、Presto 和 Impala)以及多个框架,包括 Spark 和 MapReduce。S3 Select Parquet 让您能够使用 S3 Select 从 S3 中存储的数据中检索特定列,并且它支持使用 GZIP 或 Snappy 进行列式压缩。您可以将结果中的格式指定为 CSV 或 JSON,并且可以决定结果中记录的分隔方式。 

借助对 JSON 数组的支持,您可以对 JSON 对象中的内部节点进行迭代。您可以在 S3 Select 查询的 FROM 子句中指定路径导航来查询这些嵌套的 JSON 对象。

BZIP2 是一种得到广泛采用的压缩格式,用于压缩文本数据,通常比许多其他类型的压缩算法更有效。

借助适用于 S3 的 CloudWatch 指标,您可以跟踪应用程序的运行状况。这些指标每隔 1 分钟提供一次,让您能够快速确定操作问题并采取相应措施。特定于 S3 Select 的新指标包括 S3 Select 请求计数、扫描的数据量和返回的数据量。

Amazon S3 Select 的这些新功能从今天开始将在所有商业 AWS 区域开放。

要了解有关 Amazon S3 Select 的更多信息,请访问《Amazon S3 开发人员指南》中的从对象中选择内容页面。要了解有关适用于 S3 的 Amazon CloudWatch 指标的更多信息,请访问《Amazon S3 开发人员指南》中的使用 Amazon CloudWatch 监控指标。要开始使用,请访问 AWS 管理控制台