探索

跨所有 AWS 資料集探索並搜尋

AWS Glue 資料型錄是您所有資料資產的持久性中繼資料存放區,無論資料位於何處。資料型錄包含表格定義、任務定義、結構描述和其他控制資訊,可協助您管理 AWS Glue 環境。它會自動運算統計值和註冊分割,以有效且經濟實惠的方式針對您的資料進行查詢。還會維護一份完整的結構描述版本歷史,讓您了解資料隨時間的變更情況。

自動探索結構描述

AWS Glue 網路爬取程式會連接到您的來源或目標資料存放區,依序處理已排定優先順序的分類器清單以判斷資料的結構描述,然後在 AWS Glue 資料型錄建立中繼資料。中繼資料存放在資料型錄的表格中,並在 ETL 任務的編寫程序使用。您可以依排程或隨需執行網路爬取程式,也可以根據事件觸發,以確保中繼資料是最新狀態。

管理並強制執行資料串流結構描述

AWS Glue 結構描述登錄檔是 AWS Glue 的一種無伺服器功能,讓您能夠使用已註冊的 Apache Avro 結構描述來驗證和控制串流資料的演變,而無需額外付費。透過 Apache 授權的序列化程式和還原序列化程式,結構描述登錄檔可與為 Amazon Managed Streaming for Apache Kafka (MSK)Amazon Kinesis Data Streams、Apache Flink、Amazon Kinesis Data Analytics for Apache FlinkAWS Lambda 開發的 Java 應用程式整合。將資料串流應用程式與結構描述登錄檔整合後,您可以利用控管結構描述演變的相容性檢查,以提高資料品質並防止意外變更。此外,您可以使用登錄檔內儲存的結構描述建立或更新 AWS Glue 資料表和分區。

根據工作負載自動擴展

AWS Glue 中的 Autoscaling 是 AWS Glue 中的一項無伺服器功能,可根據工作負載動態地向上和向下擴展資源。使用 Autoscaling,您的任務僅在需要時才分配給工作者。隨著任務的進行,它會進行進階轉換,AWS Glue 會根據它可以拆分工作負載的程度來新增和移除資源。您不再需要擔心過度佈建資源、花時間最佳化工作者數量或為空閒資源付費。

準備

透過內建機器學習刪除重複資料和清理資料

AWS Glue 可協助您清潔和準備資料以進行分析,而無須成為機器學習專家。其 FindMatches 功能可消除重複資料,並尋找彼此不完全相符的紀錄。例如,使用 FindMatches 在您的資料庫中尋找重複記錄,比方說,有一筆記錄列出地址為 “121 Main St.” 的 “Joe's Pizza”,另一筆記錄顯示 “Joseph's Pizzeria” 的地址為 “121 Main” 時。FindMatches 只會請您將一組記錄標記為 “matching” (相符) 或 “not matching” (不相符)。 然後這個系統就會學習您的標準,將一組記錄稱為 “match” (比對相符),然後建置 ETL 任務,以用於尋找資料庫中的重複記錄,或在兩個資料庫間比對相符的記錄。

透過開發人員端點編輯、偵錯及測試 ETL 程式碼

如果您選擇以互動方式開發 ETL 程式碼,AWS Glue 會提供開發端點讓您編輯、偵錯和測試為您產生的程式碼。您可以使用自己偏好的 IDE 或筆記本。您可以撰寫自訂讀取程式、寫入程式或轉換,並將它們匯入 AWS Glue ETL 任務做為自訂程式庫。您也可以在我們的 GitHub 儲存庫使用並與其他開發人員共享程式碼。

使用視覺化界面,無需程式碼即可標準化資料

AWS Glue DataBrew 為資料分析人員和資料科學家等使用者提供一個點按式互動視覺化界面,無需編寫程式碼即可清理和標準化資料。您可以直接從資料湖、資料倉儲和資料庫 (包括 Amazon S3、Amazon Redshift、Amazon Aurora 和 Amazon RDS) 輕鬆地視覺化、清理和標準化資料。您可以從 250 多種內建轉換中進行選擇,以合併、旋轉和轉置資料,並可透過直接將儲存的轉換套用於傳入的新資料,自動執行資料準備任務。

定義、偵測和修復敏感資料

AWS Glue 敏感資料偵測可讓您定義、識別和處理資料管道和資料湖中的敏感資料。識別後,您可以透過編輯、取代或報告個人身分識別資訊 (PII) 資料和其他類型的敏感資料來修復敏感資料。AWS Glue 敏感資料偵測簡化了敏感資料的識別和遮罩,包括姓名、SSN、地址、電子郵件和駕照等 PII。

整合

簡化資料整合任務開發

AWS Glue 互動式工作階段是任務開發的無伺服器功能,可簡化資料整合任務的開發。AWS Glue 互動式工作階段可讓資料工程師以互動方式探索和準備資料。工程師可以使用他們選擇的 IDE 或筆記本以互動方式探索、實驗和處理資料。

內建任務筆記本

AWS Glue Studio 任務筆記本提供了在 AWS Glue Studio 中進行極少設定的無伺服器筆記本,因此開發人員可以快速入門。Glue Studio 任務筆記本為 AWS Glue 互動式工作階段提供了一個內建介面,可讓使用者將其筆記本程式碼儲存並排程為 AWS Glue 任務。

利用簡單的任務排程建置複雜的 ETL 管道

您可以依排程、隨需或根據事件叫用 AWS Glue 任務。您可以平行啟動多個任務,或指定任務間的相依性以建立複雜的 ETL 管道。AWS Glue 會處理所有任務間的相依性、篩選不良資料,並在任務失敗時重試。所有日誌和通知都會推送到 Amazon CloudWatch,讓您從一個集中的服務監控和取得提醒。

轉換

透過拖放介面以視覺方式轉變資料

AWS Glue Studio 允許您編寫高度可擴展的 ETL 任務以進行分散式處理,而無須成為 Apache Spark 專家。在拖放任務編輯器中定義您的 ETL 程序,AWS Glue 則會自動產生程式碼以擷取、轉換和載入資料。此程式碼以 Scala 或 Python 產生,針對 Apache Spark 撰寫。

執行中清理和轉換串流資料

AWS Glue 中的無伺服器串流 ETL 任務持續取用包括 Amazon Kinesis 和 Amazon MSK 在內的串流來源中的資料,對資料進行即時清除和轉換,並使其在幾秒內即可用於在您的目標資料存放區中進行分析。使用這項功能處理 IoT 事件串流、點擊流和網路日誌等事件資料。AWS Glue 串流 ETL 任務可豐富和彙總資料,聯結批次和串流來源,以及執行各種複雜分析和機器學習操作。

使用 DevOps 最佳實務簡化 ETL 程式碼追蹤、測試和部署

AWS Glue DevOps 使客戶能夠更輕鬆地在整個組織中,以一致且可靠的方式管理其 Glue 任務的更新。它透過立即可用的原生工具簡化 ETL 程式碼追蹤、測試和部署。只需極少的設定即可輕鬆地將 Glue 任務遞交到 Git、GitHub、CodeCommit 或 BitBucket 儲存庫。遞交任務後,部署管道可以做出相應的反應,啟動測試或提升任務,而無需進行任何管道或版本控制整合工作。AWS Glue DevOps 還允許您下載和匯入 Glue Studio 視覺和筆記本任務的完整任務定義。它還支援跨 AWS 帳戶自動或手動移動 Glue Studio 任務。

透過靈活的任務執行降低非緊急工作負載的成本

AWS Glue Flex 是一個靈活的執行任務類別,允許您將非緊急資料整合工作負載 (例如預生產任務、測試、資料負載等) 的成本降低 35%。Glue 現有兩個任務執行類別:標準和靈活。標準執行類別非常適合需要快速任務啟動和專用資源的時間敏感型工作負載。Glue Flex 適用於開始和完成時間可能變化的非時間敏感型任務。

AWS Glue 定價
瀏覽定價頁面

探索 AWS Glue 的定價選項。

進一步了解 
註冊 AWS 帳戶
註冊免費帳戶

立即存取 AWS 免費方案。 

註冊 
開始在主控台進行建置
開始在主控台進行建置

開始在 AWS 管理主控台使用 AWS Glue 進行建置。

登入