整合的資料型錄

AWS Glue 資料型錄是您所有資料資產的持久性中繼資料存放區,無論資料位於何處。資料型錄包含表格定義、任務定義和其他控制資訊,可協助您管理 AWS Glue 環境。它會自動運算統計值和註冊分割,以有效且經濟實惠的方式針對您的資料進行查詢。還會維護一份完整的結構描述版本歷史,讓您了解資料隨時間的變更情況。

自動探索結構描述

AWS Glue 網路爬取程式會連接到您的來源或目標資料存放區,依序處理已排定優先順序的分類器清單以判斷資料的結構描述,然後在 AWS Glue 資料型錄建立中繼資料。中繼資料存放在資料型錄的表格中,並在 ETL 任務的編寫程序使用。您可以依排程或隨需執行網路爬取程式,也可以根據事件觸發,以確保中繼資料是最新狀態。

產生程式碼

AWS Glue 會自動產生程式碼以擷取、轉換和載入資料。只要將 Glue 指向資料來源和目標,Glue 就會建立 ETL 指令碼以轉換、平面化和豐富您的資料。此程式碼以 Scala 或 Python 產生,針對 Apache Spark 撰寫。

開發人員端點

如果您選擇以互動方式開發 ETL 程式碼,Glue 會提供開發端點讓您編輯、偵錯和測試為您產生的程式碼。您可以使用自己偏好的 IDE 或筆記本。您可以撰寫自訂讀取程式、寫入程式或轉換,並將它們匯入 ETL 任務做為自訂程式庫。您也可以在我們的 GitHub 儲存庫使用並與其他開發人員共享程式碼。

彈性任務排程器

您可以依排程、隨需或根據事件叫用 AWS Glue 任務。您可以平行啟動多個任務,或指定任務間的相依性以建立複雜的 ETL 管道。Glue 會處理所有任務間的相依性、篩選不良資料,並在任務失敗時重試。所有日誌和通知都會推送到 Amazon CloudWatch,讓您從一個集中的服務監控和取得提醒。

進一步了解 AWS Glue 定價。

瀏覽定價頁面
準備好開始建立?
開始使用 AWS Glue
還有其他問題嗎?
聯絡我們