使用 AWS Glue 需支付網路爬蟲程式 (探索資料) 和擷取、轉換和載入 (ETL) 任務 (處理和載入資料) 的費用,以每小時費率按秒計費。對於 AWS Glue Data Catalog,您只需支付存放和存取中繼資料的月費。存放的前一百萬個物件免費,前一百萬次存取也免費。如果要以互動方式開發 ETL 程式碼而佈建一個開發端點,則您的費用是以每小時費率按秒計費。對於 AWS Glue DataBrew,互動式工作階段按工作階段計費,而 DataBrew 任務按分鐘計費。使用 AWS Glue 結構描述登錄檔無須額外費用。
注意:定價會視 AWS 區域而異。
-
ETL 任務和互動式工作階段
-
資料型錄
-
爬蟲程式
-
DataBrew 互動式工作階段
-
DataBrew 任務
-
資料品質
-
ETL 任務和互動式工作階段
-
定價範例
ETL 任務:考慮一個執行 15 分鐘並使用 6 個 DPU 的 AWS Glue Apache Spark 任務。1 個 DPU 小時的價格是 0.44 USD。由於您的任務執行了 1/4 小時並使用了 6 個 DPU,AWS 將向您收取 6 個 DPU * 1/4 小時 * 0.44 USD,即 0.66 USD。
AWS Glue Studio Job Notebooks 和互動式工作階段:假設您使用 AWS Glue Studio 中的一個筆記本以互動方式開發 ETL 程式碼。依預設,一個互動式工作階段具有 5 個 DPU。如果工作階段持續執行 24 分鐘 (2/5 小時),我們將依照每 DPU 小時 0.44 USD 的費率,向您收取 5 個 DPU * 2/5 小時 (0.88 USD) 的費用。
ML 轉換:與 AWS Glue 任務執行類似,在資料上執行 ML 轉換 (包括 FindMatches) 的費用依資料大小、資料內容及使用的節點數目和類型而異。在下列的範例中,我們使用 FindMatches 整合多個資料來源的興趣點資訊。若資料集大小為約 11,000,000 列 (1.6GB),在 16 個 G.2x 類型的執行個體上執行約 8,000 列 (641 KB) 的標籤資料大小 (確實比對相符或比對不相符的範例) 時,將會產生 34 分鐘的標籤集產生執行期、費用為 8.23 USD,指標預計執行階段為 11 分鐘、費用為 2.66 USD,FindingMatches 任務執行期為 32 分鐘、費用 7.75 USD。
-
資料型錄
-
資料湖優化
AWS Glue Data Catalog 支援產生 AWS Glue 資料表的資料欄層級統計資料。這些統計資料現在已經與 Amazon Athena 和 Amazon Redshift Spectrum 以成本為基礎的優化工具 (CBO) 整合,以改善查詢效能,並實現可能的成本節省。請參閱我們的文件。
AWS Glue Data Catalog 支援 Apache Iceberg 資料表自動壓縮,讓您更輕鬆地保持交易資料湖始終高效。壓縮是一種儲存優化程序,能將大量的小型檔案合併為少量大型檔案。您可從 AWS Console、API 和 CLI 啟用壓縮。請參閱我們的文件。
我們會根據資料湖優化所用的資料處理單位 (或 DPU) 數量,以小時費率計費。單一資料處理單位 (DPU) 提供 4 個 vCPU 和 16 GB 記憶體。按秒計費,並進位至最接近的秒數,每次執行計費的最短持續時間為 10 分鐘。
定價範例
AWS Glue Data Catalog 免費方案:假設您在某個月於 Data Catalog 存放一百萬個表格,而請求存取這些表格一百萬次。因為用量未超出 AWS Glue Data Catalog 免費方案的範圍,所以需要支付的費用是 0 USD。每月所存放的前一百萬個物件和前一百萬次請求是免費的。
AWS Glue Data Catalog:現在假設您的儲存用量仍是每月一百萬個表格,但請求倍增至每月兩百萬次。假設您另外使用爬蟲程式尋找新表格,其執行時間為 30 分鐘,使用 2 個 DPU。
您的儲存費用仍是 0 USD,因為前一百萬個表格的儲存免費。前一百萬次請求也是免費的。您必須支付超出免費方案的一百萬次請求的費用,金額為 1 USD。爬蟲程式是以每 DPU 小時 0.44 USD 的費率計費,因此,我們將依照每 DPU 小時 0.44 USD 的費率,向您收取 2 個 DPU * 1/2 小時 (0.44 USD) 的費用。每月帳單總金額為 1.44 USD。
假設您使用資料湖優化來壓縮 Iceberg 資料表,或在 Parquet 資料表上產生資料欄統計資料,並且執行 30 分鐘並取用 2 個 DPU。
資料湖優化以每 DPU 小時 0.44 USD 的費率計費,因此,我們將依照每 DPU 小時 0.44 USD 的費率,向您收取 2 個 DPU * 1/2 小時 (0.44 USD) 的費用。 -
爬蟲程式
-
-
DataBrew 互動式工作階段
-
定價範例
AWS Glue DataBrew:每 30 分鐘互動式工作階段的價格為 1.00 USD。如果您在上午 9 點開始工作階段,立即離開主控台,然後在上午 9 點 20 分到 9 點 30 分返回,這將使用 1 個工作階段,總計 1.00 USD。
如果您在上午 9 點開始工作階段並在上午 9 點 50 分之前與 DataBrew 主控台互動,退出 DataBrew 專案空間,然後在上午 10 點 15 分返回進行最後的互動,這將使用 3 個工作階段,每個工作階段 1.00 USD,總計 3.00 USD。
-
DataBrew 任務
-
定價範例
AWS Glue DataBrew:如果一項 DataBrew 任務執行 10 分鐘並使用 5 個 DataBrew 節點,則價格為 0.40 USD。任務執行時間為 1/6 小時,使用 5 個節點,因此,我們將依照每節點小時 0.48 USD 的費率,向您收取 5 個節點 * 1/6 小時 * 每節點小時 0.48 USD,總計為 0.40 USD。
-
資料品質
-
定價範例
範例 1 – 取得有關 Data Catalog 中資料表的建議
例如,考慮一項具有 5 個 DPU 且在 10 分鐘內完成的推薦任務。須支付 5 個 DPU * 1/6 小時 * 0.44 USD,即 0.37 USD。
範例 2 – 評估 Data Catalog 中資料表的資料品質
檢閱建議後,您可以根據需要對其進行編輯,然後佈建 DPU 來排程資料品質任務。例如,考慮一項具有 5 個 DPU 且在 20 分鐘內完成的資料品質評估。
須支付 5 個 DPU * 1/3 小時 * 0.44 USD,即 0.73 USD。
範例 3 – 評估 AWS Glue ETL 任務中的資料品質
您還可以將這些資料品質檢查新增至 AWS Glue ETL 任務中,以防止不良資料進入資料湖。您可以在 AWS Glue Studio 上新增 Data Quality 轉換,或在 AWS Glue Studio 筆記本編寫的程式碼中使用 AWS Glue API 來實現這一點。考慮一項 AWS Glue 任務,在管道內設定資料品質規則之處執行該任務,並使用 6 個 DPU 執行 20 分鐘(1/3 小時)。須支付 6 DPU * 1/3 小時 * 0.44 USD,即 0.88 USD。或者,您可以使用 Flex,須為此支付 6 DPU * 1/3 小時 * 0.29 USD,即 0.58 USD。
注意:定價會視區域而異。
請檢視全球區域表以進一步了解 AWS Glue 可用性