Amazon Data Firehose 是将流数据加载到数据存储和分析工具的最简单方式。Data Firehose 是一项完全托管式服务,让您可以轻松地从数十万个来源中捕获、转换大量流数据,并将其加载到 Amazon S3、Amazon Redshift、Amazon OpenSearch Service、Snowflake、Apache Iceberg 表、Amazon S3 表(预览版)、通用 HTTP 端点,以及 Datadog、New Relic、MongoDB 和 Splunk 等的服务提供商中,从而获得近乎实时的分析与见解。
Firehose 流
Firehose 流是 Firehose 的基础实体。您通过创建 Firehose 流然后向其发送数据的方式来使用 Firehose。
主要功能
轻松启动和配置
您只需在 AWS 管理控制台中单击几下,即可启动 Amazon Data Firehose 并创建传输流,从而将数据加载到 Amazon S3、Amazon Redshift、Amazon OpenSearch Service、Snowflake、Apache Iceberg 表、Amazon S3 表(预览版)、HTTP 端点、Datadog、New Relic、MongoDB 或 Splunk 中。您可以通过调用 Firehose API 或运行我们在数据来源上提供的 Linux 代理,将数据发送给传输流。然后,Data Firehose 将数据持续加载到指定的目标位置。
弹性扩展以处理各种不同的数据吞吐量
启动后,您的 Firehose 流将在限制范围内,自动纵向扩展,按每秒数 GB 或更高的输入数据速率进行处理,并在您为传输流指定的级别上维持数据延迟。无需人工干预或维护。
在几秒钟内加载新数据
您可以指定批处理大小或批处理间隔,以控制数据上传到目标位置的速度。例如,您可以将批处理间隔设置为从零秒到 15 分钟不等。此外,您还可以指定是否应压缩数据。该服务支持常见的压缩算法,包括 GZip、兼容 Hadoop 的 Snapy、Zip 和 Snapy。在上传数据前先对其进行批处理和压缩,以便您控制在目标位置接收新数据的速度。
支持多个数据来源
Firehose 可轻松读取来自 20 多个数据来源的数据,包括 Amazon MSK 和 MSK 无服务器集群、Amazon Kinesis Data Streams、数据库(预览版)、Amazon CloudWatch Logs、Amazon SNS、AWS IoT Core 等。
Apache Parquet 或 ORC 格式转换
Firehose 支持 Apache Parquet 和 Apache ORC 等列式数据格式适合用于通过 Amazon Athena、Amazon Redshift Spectrum、Amazon EMR 等服务和其他基于 Hadoop 的工具交付成本高效的存储和分析服务。在将数据存入 Amazon S3 之前,Firehose 可以将传入数据的格式从 JSON 转换成 Parquet 或 ORC 格式,这样您就可以节省存储和分析成本。
将分区数据交付给 S3
使用静态或动态定义的键(如“customer_id”或“transaction_id”),在交付给 S3 之前动态划分串流数据。 Firehose 通过这些键对数据进行分组,并交付到键唯一的 S3 前缀中,使您能够更轻松地使用 Athena、EMR 和 Redshift Spectrum 在 S3 中执行高性能、成本高效的分析。 了解详情 »
集成数据转换
您可以配置 Amazon Data Firehose 以便准备流数据,然后再将其加载到数据存储中。只需从 AWS 管理控制台中的 Amazon Data Firehose 流配置选项卡中选择一个 AWS Lambda 函数即可。 Amazon Data Firehose 会自动将该函数应用到每个输入数据记录,然后将转换后的数据加载到目标位置。 Amazon Data Firehose 可以提供预构建的 Lambda 蓝图,用于将 Apache 日志和系统日志等常用数据来源转换为 JSON 格式和 CSV 格式。您可以原样使用预构建的蓝图,对其进行进一步自定义,或者编写自己的自定义函数。您也可以对 Amazon Data Firehose 进行配置,使其自动重试失败的任务并备份原始流数据。 了解详情 »
支持多个数据目标位置
Firehose 可轻松读取来自 20 多个数据来源的数据,包括 Amazon MSK 和 MSK 无服务器集群、Amazon Kinesis Data Streams、Amazon CloudWatch Logs、Amazon SNS、AWS IoT Core 等。Amazon Data Firehose 目前支持 Amazon S3、Amazon Redshift、Amazon OpenSearch Service、Snowflake、Apache Iceberg 表、Amazon S3 表(预览版)、HTTP 端点、Datadog、New Relic、MongoDB 和 Splunk 作为目标。您可以指定目标位置 Amazon S3 存储桶、Amazon Redshift 表、Amazon OpenSearch Service 域、通用 HTTP 端点,或应在其中加载数据的服务提供商。
可选的自动加密
Amazon Data Firehose 提供在将数据上传到目标位置后自动加密数据的选项。作为 Firehose 流配置的一部分,您可以指定 AWS Key Management System(KMS)加密密钥。
性能监控指标
Amazon Data Firehose 通过控制台以及 Amazon CloudWatch 显示数个指标,包括提交的数据量、上传到目标位置的数据量、从来源传输到目标位置的时间、Firehose 流限制范围、限制的记录数,以及上传成功率。
即用即付定价模式
使用 Amazon Data Firehose,您只需为通过该服务传输的数据量和转换格式的数据量(如果适用)付费。您还需要支付适用的 Amazon VPC 交付和数据传输费用。没有最低费用,也没有预付承诺。无需人工操作、扩展和维护基础设施或自定义应用程序来捕获和加载流数据。