发布于: Aug 31, 2021
今天,我们宣布推出用于 Amazon Kinesis Data Firehose 的动态分区。使用动态分区,您可以使用数据中的密钥(例如“customer_id”或“transaction_id”)持续对 Kinesis Data Firehose 中的流式数据进行分区,并将按这些密钥分组的数据传输到相应的 Amazon Simple Storage Service (Amazon S3) 前缀,以便于您在 Amazon S3 中使用 Amazon Athena、Amazon EMR 和 Amazon Redshift Spectrum 对流式数据执行高性能、经济高效的分析。
对数据进行分区可最大限度减少扫描的数据量,从而优化 Amazon S3 分析查询性能和降低其成本,并增加对数据的精细访问。客户通常使用 Kinesis Data Firehose 传输流来捕获数据流并将其加载到 Amazon S3 中。要对一个流式数据集进行分区以进行基于 Amazon S3 的分析,客户需要在 Amazon S3 存储桶之间运行分区应用程序,才能使这些数据可供分析,但这一分析可能会变得非常复杂或代价高昂。
而现在,使用动态分区,Kinesis Data Firehose 会持续根据动态或静态定义的数据密钥将传输中的数据分组,并将它们传输到按密钥区分的各个 Amazon S3 前缀。这样可以将获得洞察的时间缩短数分钟或数小时,并降低成本和简化架构。当与 Apache Parquet 和 Apache ORC 格式转换功能结合使用时,此功能使 Kinesis Data Firehose 成为捕获和准备可进行分析的流式数据并将它们加载到 Amazon S3 的最佳平台。
请访问 Kinesis Data Firehose 用户指南以开始使用动态分区,或者访问定价页面以详细了解动态分区的按需定价。动态分区已在所有支持 Kinesis Data Firehose 的商业 AWS 区域推出。