发布于: Dec 4, 2018
客户现在可以获得 Apache Parquet 文件格式的 Amazon S3 清单报告。Amazon S3 清单可为您的存储桶或共享前缀提供对象和所选元数据的平面文件列表。您可以使用 S3 清单列出、审核和报告对象的状态,或者简化和加速业务工作流和大数据作业。
Parquet 是一种列式存储文件格式,类似于 ORC(优化的行列式),无论选择何种数据处理框架、数据模型或编程语言,它都可用于 Hadoop 生态系统中的任何项目。使用列式格式,您只能读取、解压缩和处理当前查询所需的那些列。要使用 AWS 服务(例如 Amazon Athena 或 Amazon Redshift Spectrum)或工具(例如 Apache Hive、Spark、HBase 或 Presto)查询 S3 清单,我们建议配置 Parquet 或 ORC 格式的 S3 清单报告,以便提高查询性能并降低查询成本。
S3 清单的 Parquet 格式适用于所有 AWS 商业区域和 AWS GovCloud 区域。您可以从访问 AWS 管理控制台或者使用 S3 API、CLI 或 SDK 设置 S3 清单配置来入手。