AWS Glue
AWS 雲端
開始使用 AWS Glue

AWS Glue 是全受管的擷取、轉換和載入 (ETL) 服務,可讓客戶輕鬆準備資料,以及載入資料用於分析。只要在 AWS 管理主控台按幾下,就可以建立並執行 ETL 任務。只要將 AWS Glue 指向存放在 AWS 的資料,AWS Glue 就會探索您的資料,並將相關的中繼資料 (例如,表格定義和結構描述) 存放在 AWS Glue 資料型錄中。編入型錄之後,資料立即可供 ETL 搜尋、查詢和使用。AWS Glue 會產生程式碼以執行資料轉換和資料載入程序。

AWS Glue 會產生可自訂、可重複使用的可攜式 Python 程式碼。ETL 任務準備就緒之後,就可以排程在 AWS Glue 全受管、可擴展的 Spark 環境執行。AWS Glue 提供彈性的排程器,具備相依性解決方案、任務監控和提醒等功能。

AWS Glue 是無伺服器服務,所以無須購買、設定或管理基礎設施。它會自動佈建完成任務所需的環境,客戶只需支付執行 ETL 任務時使用的運算資源費用。使用 AWS Glue,資料可在最短的時間內供分析之用。

需要有 Adobe Flash 播放程式或最新的瀏覽器才能觀賞這個網站的影片。

glue-launch-video-image
1:47
無伺服器、全受管而且針對雲端進行優化的 ETL 服務

準備好開始進行 ETL?

開始使用 AWS Glue


自動探索結構描述和產生程式碼

簡單

AWS Glue 將建立、維護和執行 ETL 任務的大部分工作自動化。AWS Glue 可網路爬取資料來源、識別資料格式,以及建議結構描述和轉換。AWS Glue 會自動產生程式碼以執行資料轉換和載入程序。

無伺服器。無須設定和管理基礎設施

整合性

AWS Glue 與各式各樣的 AWS 服務整合。AWS Glue 支援存放在 Amazon Aurora、Amazon RDS MySQL、Amazon RDS PostreSQL、Amazon Redshift 與 Amazon S3 中的資料,也支援在 Amazon EC2 上執行的 Virtual Private Cloud (Amazon VPC) 中的 MySQL 和 PostgreSQL 資料庫。AWS Glue 提供立即可用的 Amazon Athena、Amazon EMR、Amazon Redshift Spectrum 和所有 Apache Hive 中繼存放區相容應用程式的整合。

與 AWS 平台的內建整合

無伺服器

AWS Glue 是無伺服器服務。無須佈建或管理基礎設施。AWS Glue 可處理在全受管、可擴展的 Spark 環境中執行 ETL 任務所需的資源佈建、組態和擴展。您只需支付執行任務時使用的資源費用。

經濟效益高

支援開發人員

AWS Glue 使用熟悉的技術 – Python 和 Spark,產生可自訂、可重複使用的可攜式 ETL 程式碼。您也可以將自訂讀取程式、寫入程式和轉換匯入自己的 Glue ETL 程式碼。因為 AWS Glue 產生的程式碼是以開放架構為基礎,所以沒有鎖定。您可以在任何地方使用。

screenshot-glue-step1-data-catalog2b
screenshot-glue-step1-data-catalog2b

按一下以放大

首先,使用 AWS 管理主控台註冊資料來源。AWS Glue 會網路爬取您的資料來源,並使用許多熱門來源格式和資料類型 (包含 JSON、CSV、Parquet 等) 的預先建立分類器來建構資料型錄。

screenshot-glue-step2-etl-generation2
screenshot-glue-step2-etl-generation2

按一下以放大

接著,選取資料來源和資料目標。AWS Glue 會以 Python 產生 ETL 程式碼,從來源擷取資料、轉換資料以符合目標結構描述,然後將資料載入目標。您可以透過主控台、偏好的 IDE 或任何筆記本編輯、偵錯和測試此程式碼。

screenshot-glue-step3-orchestration2
screenshot-glue-step3-orchestration2

按一下以放大

AWS Glue 可讓您輕鬆排定重複執行的 ETL 任務、將多個任務鏈結在一起,或從其他服務 (例如 AWS Lambda) 隨需叫用任務。AWS Glue 可管理任務之間的相依性、自動擴展基礎資源,以及重試失敗的任務。


要進一步了解,請閱讀這裡的 AWS Glue 功能,或參考我們的產品文件

使用 AWS Glue 清理、標準化和豐富資料集,以準備點擊流或處理日誌資料用於分析。AWS Glue 會產生半結構化資料的結構描述、建立 ETL 程式碼以轉換、平面化和豐富您的資料,並重複載入資料倉儲。

準備和載入資料用於分析

您可以使用 AWS Glue 資料型錄快速地探索和搜尋多個 AWS 資料集,無須移動資料。資料編入型錄之後,即可使用 Amazon Athena、Amazon EMR 和 Amazon Redshift Spectrum 搜尋和查詢。

建立一致的資料檢視

越來越多人使用資料湖存放和分析結構化及非結構化資料。如果您使用 Amazon S3 資料湖,AWS Glue 可讓您立即分析所有資料,無須移動資料。Glue 網路爬取程式可掃描資料湖,並保持 Glue 資料型錄與基礎資料同步。接著,您就可以透過 Amazon Athena 和 Amazon Redshift Spectrum 直接查詢資料湖。您也可以使用 Glue 資料型錄做為 Amazon EMR 上執行之大數據應用程式的外部 Apache Hive 中繼存放區。

建立一致的資料檢視

AWS Glue 可根據事件執行 ETL 任務,像是取得新資料集。例如,您可以使用 AWS Lambda 函數,當新資料在 Amazon S3 可用時立即觸發執行 ETL 任務。您也可以在 AWS Glue 資料型錄註冊這個新資料集,做為 ETL 任務的一部分。

新資料出現時自動執行 ETL 任務

開始使用 AWS Glue 非常簡單。只要登入 AWS 管理主控台,然後導覽到 "Analytics" 類別下的 "Glue" 即可。

準備好開始進行 ETL?

開始使用 AWS Glue