推出用于 Amazon Kinesis Data Firehose 的动态分区

发布于: Aug 31, 2021

今天，我们宣布推出用于 Amazon Kinesis Data Firehose 的动态分区。使用动态分区，您可以使用数据中的密钥（例如“customer_id”或“transaction_id”）持续对 Kinesis Data Firehose 中的流式数据进行分区，并将按这些密钥分组的数据传输到相应的 Amazon Simple Storage Service (Amazon S3) 前缀，以便于您在 Amazon S3 中使用 Amazon Athena、Amazon EMR 和 Amazon Redshift Spectrum 对流式数据执行高性能、经济高效的分析。

对数据进行分区可最大限度减少扫描的数据量，从而优化 Amazon S3 分析查询性能和降低其成本，并增加对数据的精细访问。客户通常使用 Kinesis Data Firehose 传输流来捕获数据流并将其加载到 Amazon S3 中。要对一个流式数据集进行分区以进行基于 Amazon S3 的分析，客户需要在 Amazon S3 存储桶之间运行分区应用程序，才能使这些数据可供分析，但这一分析可能会变得非常复杂或代价高昂。

而现在，使用动态分区，Kinesis Data Firehose 会持续根据动态或静态定义的数据密钥将传输中的数据分组，并将它们传输到按密钥区分的各个 Amazon S3 前缀。这样可以将获得洞察的时间缩短数分钟或数小时，并降低成本和简化架构。当与 Apache Parquet 和 Apache ORC 格式转换功能结合使用时，此功能使 Kinesis Data Firehose 成为捕获和准备可进行分析的流式数据并将它们加载到 Amazon S3 的最佳平台。

请访问 Kinesis Data Firehose 用户指南以开始使用动态分区，或者访问定价页面以详细了解动态分区的按需定价。动态分区已在所有支持 Kinesis Data Firehose 的商业 AWS 区域推出。

推出用于 Amazon Kinesis Data Firehose 的动态分区

终止对 Internet Explorer 的支持