跳至主要內容

Amazon SageMaker 資料處理

Amazon SageMaker 資料處理

針對任何規模的分析和 AI 分析、準備和整合資料

為什麼選擇 SageMaker 資料處理?

利用亞馬遜雅典娜、亞馬遜 EMR、 AWS Glu e 和亞馬遜託管工作流程 (亞馬遜 MWAA) 提供的資料處理功能,準備、整合和協調您的資料。處理和整合您的資料,無論其位於何處,都能夠快速輕鬆地連線至數百個資料來源。

使用開放原始碼資料處理架構,例如 Apache Spark、Trino 和 Apache Flink。使用 Trino 大規模分析資料而無需管理基礎設施,以及使用 Apache Flink 和 Apache Spark 無縫建置即時分析。

透過自動化資料品質、敏感資料識別、傳統追蹤,以及強制執行精細的存取控制,相信您的資料是準確且安全的。

優勢

Amazon SageMaker 資料處理提供對資料和串流處理架構、開放原始碼分散式 SQL 查詢引擎以及最流行工具 (如筆記本、查詢編輯器和視覺化擷取、轉換和載入 (ETL)) 的全面存取。

您可以存取最受歡迎的架構,例如 Apache Spark,以準備和整合任何規模的資料。藉助 Apache Flink 和 Apache Spark Streaming 進行串流處理來回應即時業務需求,以及藉助 Trino 等領先的開放原始碼 SQL 架構分析資料。藉助與適用於 Amazon MWAA 的原生整合,簡化工作流程協同運作且無需管理基礎設施。

SageMaker 資料處理可從 Amazon SageMaker 中的湖泊中存取資料,讓您可以使用一份資料副本來處理和整合所有使用案例,包括分析、臨機查詢、機器學習 (ML) 和生成式 AI。

Amazon SageMaker 開放式湖泊架構整合亞馬遜簡易儲存服務 (Amazon S3) 資料湖和 Amazon Redshift 資料倉儲之間的資料,從而提供對資料的統一存取。您可以藉助數百個連接器、零 ETL 整合和聯合資料來源探索與分析資料湖中統一的資料,從而全面掌握業務狀況。SageMaker 可以立即與您現有的資料架構搭配使用,而不受特定的儲存格式或查詢引擎選擇限制。

透過 Apache Iceberg 資料表的快速查詢效能來提高效率。透過高效能且與開放原始碼 API 相容的 Apache Spark、Apache Airflow、Apache Flink、Trino 等版本,可以按照比傳統開放原始碼系統快 2 倍的速度取得洞見。

SageMaker 資料處理可讓您專注於轉換和分析資料,而無需管理運算容量或開放原始碼應用程式,從而節省時間並降低成本。您可以針對 Amazon Elastic Compute Cloud (Amazon EC2) 上的 Amazon EMR 或 Amazon Elastic Kubernetes Service (Amazon EKS) 上的 Amazon EMR 自動佈建容量。擴展規則可管理運算需求的變更,以最佳化效能和執行時間。

透過與 Amazon SageMaker Catalog 整合,利用自動化資料品質報告、敏感資料偵測以及資料和 AI 模型的歷史追蹤取得信任和透明度。透過自動測量、監控和資料品質規則建議,增加使用者對資料品質的信心。

遵守並強制執行在 Lakehouse 資料集上定義的精細存取控制,以安全地處理和分析資料,讓您能夠定義一次權限,並讓組織中的授權使用者存取資料。Lakehouse 與 AWS Glue 資料品質整合,將無伺服器資料整合、資料品質管理和進階機器學習功能在統一的環境中結合。

AWS 服務

簡化資料整合

AWS SageMaker 提供無伺服器資料整合,簡化來自多個來源的資料探索、準備和整合。連接到多種資料來源、管理集中式資料目錄中的資料,並以視覺化方式建立、執行、協調和監控 ETL 管道和工作,以將資料載入您的湖房。  如果 Apache Spark 作業失敗,您可以使用生成式 AI 疑難排解來識別根本原因並快速解決問題。Amazon SageMaker 會根據需求自動調整,因此您可以專注於從資料中獲取洞察,而無需管理基礎架構。

執行和擴展 Apache Spark、Apache Hive、Trino 和其他工作負載

藉助 Amazon EMR,可以更加輕鬆、經濟高效地執行 Apache Spark、Apache Airflow、Apache Flink、Trino 等資料處理工作負載。建置和執行資料處理管道,並以比內部部署解決方案更快的速度自動擴展。

追蹤成本

Athena 提供簡化且靈活的方式來分析任何規模的資料。Athena 是一項互動式查詢服務,可使用標準 SQL 簡化 Amazon S3 中的資料分析。Athena 是無伺服器服務,因此無需設定或管理基礎設施,並且您可以選擇根據執行的查詢或查詢所需的運算資源付費。使用 Athena 處理日誌、執行資料分析及執行互動式查詢。Athena 會自動擴展 (平行完成查詢),因此可以很快取得結果,即使是大型資料集和複雜查詢也是一樣。

適用於 Apache Airflow 的專注安全且高度可用的受管工作流程協同運作

Amazon MWAA 是 Apache Airflow 的受管服務,可讓您使用目前熟悉的 Apache Airflow 平台來協調資料處理工作。您可以獲得改善的可擴展性、可用性和安全性,而不會有管理底層基礎設施的營運負擔。Amazon MWAA 使用 Python 編寫的定向非循環圖 (DAG) 或可視化工作流程工作室來編排您的工作流程。您可以為 Amazon MWAA 提供 S3 儲存貯體,其中包含您的 DAG、外掛程式和 Python 要求。大規模地部署 Apache Airflow,無需承擔管理底層基礎設施的營運負擔。

使用案例

快速識別並存取 AWS、內部部署和其他雲端的資料,然後立即提供查詢和轉換。使用查詢聯合和零 ETL 來簡化 AWS 資料庫服務和來自第三方應用程式的資料存取。

使用 Apache Spark、Apache Flink 和 Trino 等架構以及各種工作負載 (包括批次、微批次和串流) 處理資料。

使用統計演算法和預測模型執行大規模資料處理和假設分析,以發現隱藏的模式、相關性、市場趨勢和客戶偏好。