Amazon Data Firehose 是將串流資料載入資料存放區和分析工具最簡單的方式。Data Firehose 是一種全受管服務,可輕鬆擷取來自成千上萬個來源的大量串流資料,並將這些資料進行轉換並載入 Amazon S3、Amazon Redshift、Amazon OpenSearch Service、Snowflake、Apache Iceberg 資料表、Amazon S3 資料表 (預覽版)、一般 HTTP 端點以及 Datadog、New Relic、MongoDB 和 Splunk 等服務供應商,以進行即時的分析及洞見。
Firehose 串流
Firehose 串流是 Firehose 的基礎實體。您透過建立 Firehose 串流,然後將資料傳入 Firehose 串流來使用 Firehose。
主要功能
輕鬆啟動和設定
您只要在 AWS 管理主控台按幾下滑鼠即可啟動 Amazon Data Firehose 並建立交付串流,將資料載入至 Amazon S3、Amazon Redshift、Amazon OpenSearch Service、Snowflake、Apache Iceberg 資料表、Amazon S3 資料表 (預覽版)、HTTP 端點、Datadog、New Relic、MongoDB 或 Splunk。a您可以呼叫 Firehose API 或執行我們在資料來源提供的 Linux 代理器,將資料傳送到交付串流。Data Firehose 接著會持續將資料載入指定目的地。
彈性擴展,以處理各種資料輸送量
啟動後,您的 Firehose 串流會自動向上擴展每秒處理的 GB 數或提高輸入資料速率,並在限制內維持您為串流指定的資料延遲等級。不需要進行干預或維護工作。
幾秒鐘內即可載入新資料
您可以指定批次大小或批次間隔,以控制資料上傳至目的地的速度。例如,您可在零秒到 15 分鐘之間設定批次間隔時間。此外,還可以指定是否要壓縮資料。服務支援常見的壓縮演算法,包含 GZip、Hadoop-Compatible Snappy、Zip 和 Snappy。上傳前對資料進行批次處理和壓縮,可讓您控制目的地收到新資料的速度。
支援多種資料來源
Firehose 可從 20 多個資料來源輕鬆讀取資料,包括 Amazon MSK 和 MSK Serverless 叢集、Amazon Kinesis Data Streams、Databases (預覽版)、Amazon CloudWatch Logs、Amazon SNS、AWS IoT Core 等。
Apache Parquet 或 ORC 格式轉換
Firehose 支援 Apache Parquet 和 Apache ORC 等單欄資料格式,已透過 Amazon Athena、Amazon Redshift Spectrum、Amazon EMR 等服務和其他 Hadoop 工具進行優化,可提供符合經濟效益的儲存和分析。Firehose 可將傳入資料的格式從 JSON 轉換成 Parquet 或 ORC 格式,然後將該資料存放到 Amazon S3,讓您節省儲存和分析的成本。
將分割的資料交付給 S3
使用靜態或動態定義的金鑰,例如 “customer_id” 或 “transaction_id”,在交付到 S3 之前,動態分割您的串流資料。 Firehose 依這些金鑰將資料分組,並交付到金鑰獨有的 S3 前綴中,讓您更容易使用 Athena、EMR 和 Redshift Spectrum,在 S3 中執行高效能、符合成本效益的分析。 進一步了解 »
整合的資料轉換
您可以設定 Amazon Data Firehose 先準備好串流資料,然後再將它載入資料存放區。只需從 AWS 管理主控台中的 Amazon Data Firehose 串流組態標籤選取一個 AWS Lambda 函數。 然後 Amazon Data Firehose 會自動將該函數套用到每筆輸入資料記錄,並將轉換過的資料載入目標。 Amazon Data Firehose 提供預先建立的 Lambda 藍圖,這些藍圖可將 Apache 日誌和系統日誌這類常見的資料來源轉換為 JSON 和 CSV 格式。您可以直接使用這些預先建立的藍圖,不需進行任何變更,或是進一步自訂它們,甚至是編寫您自己的自訂函數。您也可以設定 Amazon Data Firehose 自動重試失敗的任務,以及備份原始串流資料。 進一步了解 »
支援多個資料目的地
Firehose 從 20 多個資料來源輕鬆讀取資料,包括 Amazon MSK 和 MSK Serverless 叢集、Amazon Kinesis Data Streams、Amazon CloudWatch Logs、Amazon SNS、AWS IoT Core 等。Amazon Data Firehose 目前支援 Amazon S3、Amazon Redshift、Amazon OpenSearch Service、Snowflake、Apache Iceberg 資料表、Amazon S3 資料表 (預覽版)、HTTP 端點、Datadog、New Relic、MongoDB 和 Splunk 作為目的地。您可以指定目的地為 Amazon S3 儲存貯體、Amazon Redshift 表、Amazon OpenSearch Service 網域、一般 HTTP 端點或是要載入資料的服務供應商。
選用自動化加密
Amazon Data Firehose 提供的選項可讓您在將資料上傳到目的地之後自動加密資料。您可以在設定 Firehose 串流時,指定 AWS Key Management System (KMS) 加密金鑰。
監控效能的指標
Amazon Data Firehose 透過主控台和 Amazon CloudWatch 公開多個指標,其中包含提交的資料量、上傳到目的地的資料量、來源到目的地的時間、Firehose 串流限制、限制的記錄數及上傳成功率。
依用量計費定價
使用 Amazon Data Firehose 時,您只需就透過此服務傳輸的資料量付費,以及資料格式轉換費 (如適用)。另外,您需要支付 Amazon VPC 交付和資料傳輸費用 (如適用)。沒有最低費用,也無須前期承諾。您不需要指派人員操作、擴展和維護基礎設施,或自訂應用程式來擷取並載入串流資料。