AWS Glue

簡單、彈性且經濟實惠的 ETL

AWS Glue 是全受管的擷取、轉換和載入 (ETL) 服務,可讓客戶輕鬆準備資料,以及載入資料用於分析。只要在 AWS 管理主控台按幾下,就可以建立並執行 ETL 任務。只要將 AWS Glue 指向存放在 AWS 的資料,AWS Glue 就會探索您的資料,並將相關的中繼資料 (例如,表格定義和結構描述) 存放在 AWS Glue 資料型錄中。編入型錄之後,資料立即可供 ETL 搜尋、查詢和使用。AWS Glue 會產生程式碼以執行資料轉換和資料載入程序。

AWS Glue 會產生可自訂、可重複使用的可攜式程式碼。ETL 任務準備就緒之後,就可以排程在 AWS Glue 全受管、可擴展的 Apache Spark 環境執行。AWS Glue 提供彈性的排程器,具備相依性解決方案、任務監控和提醒等功能。

AWS Glue 是無伺服器服務,所以無須購買、設定或管理基礎設施。它會自動佈建完成任務所需的環境,客戶只需支付執行 ETL 任務時使用的運算資源費用。使用 AWS Glue,資料可在最短的時間內供分析之用。

AWS Glue 簡介 (1:47)

優勢

簡單

AWS Glue 將建立、維護和執行 ETL 任務的大部分工作自動化。AWS Glue 可網路爬取資料來源、識別資料格式,以及建議結構描述和轉換。AWS Glue 會自動產生程式碼以執行資料轉換和載入程序。

整合性

AWS Glue 與各式各樣的 AWS 服務整合,表示您使用時無需太多繁雜的工作。AWS Glue 原生支援存放在 Amazon Aurora 和所有其他 Amazon RDS 引擎、Amazon DynamoDB、Amazon Redshift 和 Amazon S3 的資料,以及在 Amazon EC2 上執行之 Virtual Private Cloud (Amazon VPC) 中的 MySQL、Oracle、Microsoft SQL Server 和 PostgreSQL 資料庫。AWS Glue 提供立即可用的 Amazon Athena、Amazon EMR、Amazon Redshift Spectrum 和所有 Apache Hive 中繼存放區相容應用程式的整合。

無伺服器

AWS Glue 是無伺服器服務。無須佈建或管理基礎設施。AWS Glue 可處理在全受管、可擴展的 Apache Spark 環境中執行 ETL 任務所需的資源佈建、組態和擴展。您只需支付執行任務時使用的資源費用。

支援開發人員

AWS Glue 使用熟悉的技術 – Scala、Python 和 Apache Spark,產生可自訂、可重複使用的可攜式 ETL 程式碼。您也可以將自訂讀取程式、寫入程式和轉換匯入自己的 AWS Glue ETL 程式碼。因為 AWS Glue 產生的程式碼是以開放架構為基礎,所以沒有鎖定。您可以在任何地方使用。

運作方式

選取資料來源和資料目標。AWS Glue 會以 Scala 或 Python 產生 ETL 程式碼,從來源擷取資料、轉換資料以符合目標結構描述,然後將資料載入目標。您可以透過主控台、偏好的 IDE 或任何筆記本編輯、偵錯和測試此程式碼。

步驟 1:建立資料型錄
screenshot-glue-step1-data-catalog2b

首先,使用 AWS 管理主控台註冊資料來源。AWS Glue 會網路爬取您的資料來源,並使用許多熱門來源格式和資料類型 (包含 JSON、CSV、Parquet 等) 的預先建立分類器來建構資料型錄。

步驟 2:產生和編輯轉換
screenshot-glue-step2-etl-generation4

接著,選取資料來源和資料目標。AWS Glue 會以 Scala 或 Python 產生 ETL 程式碼,從來源擷取資料、轉換資料以符合目標結構描述,然後將資料載入目標。您可以透過主控台、偏好的 IDE 或任何筆記本編輯、偵錯和測試此程式碼。

步驟 3:排程和執行任務
screenshot-glue-step3-orchestration2

AWS Glue 可讓您輕鬆排定重複執行的 ETL 任務、將多個任務鏈結在一起,或從其他服務 (例如 AWS Lambda) 隨需叫用任務。AWS Glue 可管理任務之間的相依性、自動擴展基礎資源,以及重試失敗的任務。

要進一步了解,請瀏覽 AWS Glue 功能頁面,或參閱我們的產品文件

使用案例

查詢 Amazon S3 資料湖

越來越多人使用資料湖存放和分析結構化及非結構化資料。如果您使用 Amazon S3 資料湖,AWS Glue 可讓您立即分析所有資料,無須移動資料。

product-page-diagram_Glue_Queries-Against-an-Amazo-S3-Data-Lake

分析資料倉儲中的日誌資料

使用 AWS Glue 清理、標準化和豐富資料集,以準備點擊流或處理日誌資料用於分析。AWS Glue 會產生半結構化資料的結構描述、建立 ETL 程式碼以轉換、平面化和豐富您的資料,並重複載入資料倉儲。

product-page-diagram_Glue_Analyze-Log-Data-in-Data-Warehouse

多個資料存放區的一致資料檢視

您可以使用 AWS Glue 資料型錄快速地探索和搜尋多個 AWS 資料集,無須移動資料。資料編入型錄之後,即可使用 Amazon Athena、Amazon EMR 和 Amazon Redshift Spectrum 搜尋和查詢。

product-page-diagram_Glue_Unified-View-of-Data-Across-Multiple-Data-Stores

事件驅動的 ETL 管道

AWS Glue 可根據事件執行 ETL 任務,像是取得新資料集。例如,您可以使用 AWS Lambda 函數,當新資料在 Amazon S3 可用時立即觸發執行 ETL 任務。您也可以在 AWS Glue 資料型錄註冊這個新資料集,做為 ETL 任務的一部分。

product-page-diagram_Glue_Event-driven-ETL-Pipelines

開始使用 AWS

icon1

註冊 AWS 帳戶

立即存取 AWS 免費方案
icon2

利用 10 分鐘教學了解

跟著 簡單的教學課程一同探索並學習。
icon3

開始使用 AWS 進行建置

運用逐步操作指南開始建置,協助您啟動 AWS 專案

進一步了解 AWS Glue

瀏覽功能頁面
準備好開始建立?
開始使用 AWS Glue
還有其他問題嗎?
聯絡我們