AWS Glue 是全受管的擷取、轉換和載入 (ETL) 服務,您可以用來編目、清理、充實資料內容,以及在資料存放區之間可靠的移動資料。使用 AWS Glue,您可以大幅降低成本、複雜性以及建立 ETL 任務所耗費的時間。AWS Glue 是無伺服器服務,所以無須設定或管理基礎設施。您只需支付執行任務時使用的資源費用。

準備好開始進行 ETL?

開始使用 AWS Glue
100x100_benefit_ingergration

AWS Glue 資料型錄是您所有資料資產的持久性中繼資料存放區,無論資料位於何處。資料型錄包含表格定義、任務定義和其他控制資訊,可協助您管理 AWS Glue 環境。它會自動運算統計值和註冊分割,以有效且經濟實惠的方式針對您的資料進行查詢。還會維護一份完整的結構描述版本歷史,讓您了解資料隨時間的變更情況。

100x100_benefit_automated

AWS Glue 網路爬取程式會連接到您的來源或目標資料存放區,依序處理已排定優先順序的分類器清單以判斷資料的結構描述,然後在 AWS Glue 資料型錄建立中繼資料。中繼資料存放在資料型錄的表格中,並在 ETL 任務的編寫程序使用。您可以依排程或隨需執行網路爬取程式,也可以根據事件觸發,以確保中繼資料是最新狀態。

100x100_benefit_code

AWS Glue 會自動產生程式碼以擷取、轉換和載入資料。只要將 Glue 指向資料來源和目標,Glue 就會建立 ETL 指令碼以轉換、平面化和豐富您的資料。此程式碼以 Python 產生,針對 Apache Spark 2.1 環境撰寫。

100x100_benefit_tools

如果您選擇以互動方式開發 ETL 程式碼,Glue 會提供開發終端節點讓您編輯、偵錯和測試為您產生的程式碼。您可以使用自己偏好的 IDE 或筆記本。您可以撰寫自訂讀取程式、寫入程式或轉換,並將它們匯入 ETL 任務做為自訂程式庫。您也可以在我們的 GitHub 儲存庫使用並與其他開發人員共享程式碼。

100x100_benefit_monitoring-logging

您可以依排程、隨需或根據事件叫用 AWS Glue 任務。您可以平行啟動多個任務,或指定任務間的相依性以建立複雜的 ETL 管道。Glue 會處理所有任務間的相依性、篩選不良資料,並在任務失敗時重試。所有日誌和通知都會推送到 Amazon CloudWatch,讓您從一個集中的服務監控和取得提醒。

開始使用 AWS Glue 非常簡單。只要登入 AWS 管理主控台,然後導覽到 "Analytics" 類別下的 "Glue" 即可。

準備好開始進行 ETL?

開始使用 AWS Glue