跳至主要内容

Amazon Data Firehose

Amazon Data Firehose 功能

为什么选择 Amazon Data Firehose?

Amazon Data Firehose 是将流数据加载到数据存储和分析工具的最简单方式。Data Firehose是一项完全托管的服务,可轻松捕获来自数十万个来源的大量流数据并将其加载到亚马逊S3、亚马逊Redshift、亚马逊OpenSearch服务、Snowflake、Apache Iceberg表、亚马逊S3表、通用HTTP终端节点以及Datadog、New Relic、MongoDB和Splunk等服务提供商,从而实现实时分析和洞察。

Firehose 流

全部打开

Firehose 流是 Firehose 的基础实体。您通过创建 Firehose 流然后向其发送数据的方式来使用 Firehose。

主要功能

全部打开

您只需在 AWS 管理控制台中点击几下,即可启动亚马逊数据消防队并创建传输流,将数据加载到亚马逊 S3、亚马逊 Redshift、亚马逊 OpenSearch 服务、Snowflake、Apache Iceberg 表、亚马逊 S3 表、HTTP 终端节点、Datadog、New Relic、MongoDB 或 Splunk。您可以通过调用 Firehose API 或运行我们在数据来源上提供的 Linux 代理,将数据发送给传输流。然后,Data Firehose 将数据持续加载到指定的目标位置。

启动后,您的 Firehose 流将在限制范围内,自动纵向扩展,按每秒数 GB 或更高的输入数据速率进行处理,并在您为传输流指定的级别上维持数据延迟。无需人工干预或维护。

您可以指定批处理大小或批处理间隔,以控制数据上传到目标位置的速度。例如,您可以将批处理间隔设置为从零秒到 15 分钟不等。此外,您还可以指定是否应压缩数据。该服务支持常见的压缩算法,包括 GZip、兼容 Hadoop 的 Snapy、Zip 和 Snapy。在上传数据前先对其进行批处理和压缩,以便您控制在目标位置接收新数据的速度。

Firehose 支持 Apache Parquet 和 Apache ORC 等列式数据格式适合用于通过 Amazon Athena、Amazon Redshift Spectrum、Amazon EMR 等服务和其他基于 Hadoop 的工具交付成本高效的存储和分析服务。在将数据存入 Amazon S3 之前,Firehose 可以将传入数据的格式从 JSON 转换成 Parquet 或 ORC 格式,这样您就可以节省存储和分析成本。

使用静态或动态定义的键(如“customer_id”或“transaction_id”),在交付给 S3 之前动态划分串流数据。  Firehose 通过这些键对数据进行分组,并交付到键唯一的 S3 前缀中,使您能够更轻松地使用 Athena、EMR 和 Redshift Spectrum 在 S3 中执行高性能、成本高效的分析。了解更多

您可以配置 Amazon Data Firehose 以便准备流数据,然后再将其加载到数据存储中。只需从 AWS 管理控制台中的 Amazon Data Firehose 流配置选项卡中选择一个 AWS Lambda 函数即可。 Amazon Data Firehose 会自动将该函数应用到每个输入数据记录,然后将转换后的数据加载到目标位置。 Amazon Data Firehose 可以提供预构建的 Lambda 蓝图,用于将 Apache 日志和系统日志等常用数据来源转换为 JSON 格式和 CSV 格式。您可以原样使用预构建的蓝图,对其进行进一步自定义,或者编写自己的自定义函数。您也可以对 Amazon Data Firehose 进行配置,使其自动重试失败的任务并备份原始流数据。  了解更多

Firehose 可轻松读取来自 20 多个数据源的数据,包括亚马逊 MSK 和 MSK 无服务器集群、亚马逊 Kinesis 数据流、亚马逊 CloudWatch 日志、亚马逊 SNS、AWS IoT Core 等。亚马逊数据 Firehose 目前支持亚马逊 S3、亚马逊 Relic、亚马逊 OpenSearch 服务、Snowflake、Apache Iceberg 表、亚马逊 S3 表、HTTP 终端节点、Datadog、New Relic、MongoDB 和 Splunk 作为目的地。您可以指定目标位置 Amazon S3 存储桶、Amazon Redshift 表、Amazon OpenSearch Service 域、通用 HTTP 端点,或应在其中加载数据的服务提供商。

Amazon Data Firehose 提供在将数据上传到目标位置后自动加密数据的选项。作为 Firehose 流配置的一部分,您可以指定 AWS Key Management System(KMS)加密密钥。

Amazon Data Firehose 通过控制台以及 Amazon CloudWatch 显示数个指标,包括提交的数据量、上传到目标位置的数据量、从来源传输到目标位置的时间、Firehose 流限制范围、限制的记录数,以及上传成功率。

使用 Amazon Data Firehose,您只需为通过该服务传输的数据量和转换格式的数据量(如果适用)付费。您还需要支付适用的 Amazon VPC 交付和数据传输费用。没有最低费用,也没有预付承诺。无需人工操作、扩展和维护基础设施或自定义应用程序来捕获和加载流数据。