跳至主要內容

Amazon EMR

Amazon EMR

輕鬆地執行和擴展 Apache Spark、Trino 以及其他巨量資料工作負載

為何選擇 Amazon EMR?

Amazon EMR 是一項巨量資料處理服務,能以無可比擬的靈活性與擴展性來加速分析工作負載。EMR 具備適用於 Apache Spark、Trino、Apache Flink 與 Apache Hive 的效能最佳化執行時期,從而顯著減少成本與處理時間。該服務可無縫整合 AWS,從而簡化資料湖工作流程與企業級架構。憑藉內建的自動擴展功能、智慧監控功能與受管基礎結構,EMR 可讓您專注於擷取洞察,而不是管理叢集,從而高效地交付 PB 級分析,不必承擔傳統解決方案的營運開銷。

Missing alt text value

靈活的部署選項

為何選擇 EMR Serverless?

Amazon EMR Serverless 可讓資料分析師和工程師無需設定、管理和擴展叢集或伺服器,即可輕鬆執行 Apache Spark 等開放原始碼巨量資料分析架構。  EMR Serverless 提供了一種最快捷的方式,您無需專家來規劃和管理叢集,即可獲得 Amazon EMR 的所有功能與優勢。 

EMR Serverless

為何選擇 Amazon EC2 上的 Amazon EMR?

Amazon EC2 上的 Amazon EMR 能夠對叢集組態設定進行控制,並且可為長期執行的叢集提供支援,因而對於需要特定硬體設定的持續資料處理任務而言是完美之選。您可在提供各種 EC2 執行個體類型的同時,搭配熱門架構 (例如 Apache Spark 及 Trino) 安裝自訂應用程式,進而實現成本與效能最佳化。該服務能夠整合其他 AWS 服務,還可使用 Spot 執行個體,因此對於需要對其巨量資料操作進行精細化控制的組織而言,這是一項經濟高效的解決方案。

為何選擇 Amazon EKS 上的 Amazon EMR?

Amazon Elastic Kubernetes Service (EKS) 上的 Amazon EMR 可讓您在 EKS 上根據需求提交 Apache Spark 作業,而無需佈建 EMR 叢集。藉助 EKS 上的 EMR,您可在與其他 Kubernetes 型應用程式相同的 Amazon EKS 叢集上執行分析工作負載,以提高資源使用率並簡化基礎設施管理。 

Amazon EKS 上的 Amazon EMR

使用新一代 Amazon SageMaker 中的 Amazon EMR 來處理您的資料

新一代 Amazon SageMaker 可使用 Amazon EMR,讓您能夠在統一的資料與 AI 開發環境中毫不費勁地執行 Apache Spark、Trino,以及其他開放原始碼分析架構。

進一步了解。

Missing alt text value

優勢

Amazon EMR 與效能最佳化 Apache Spark 相結合,可實現更快捷、經濟高效的資料處理,同時可靈活地選擇包括 Spot 執行個體在內的執行個體類型,並且具備全受管自動擴展功能,能夠動態地調整叢集大小,從而消除了過度佈建並降低了整體支出。

相較於開放原始碼 Apache Spark,Amazon EMR 能夠在確保 API 相容性的同時,實現最高 3.9 倍的效能。該服務支援客戶部署自己選擇的開放原始碼架構,例如 Apache Spark、Trino、Apache Flink 或 Apache Hive。EMR 還支援 Iceberg、Hudi 及 Delta 等熱門的開放式資料表,進而加速獲取洞察。

EMR 提供各種部署選項,包括 EMR Serverless,適用於處理全受管、無基礎結構;EMR on EC2,適用於精細化叢集控制;以及 EMR on EKS,適用於處理 Kubernetes 原生巨量資料工作負載。無論是適用於隨需任務的短期執行叢集,還是適用於持續性任務的長期執行叢集,EMR 都能適應您的營運需求,同時透過靈活的資源配置與高效擴展來最佳化成本。

藉助新一代 Amazon SageMaker 中的 Amazon EMR,您可以執行 Apache Spark、Trino 及 Apache Flink 等開放原始碼架構,從而讓您毫不費勁地擴展分析工作負載,不需要佈建或管理基礎結構就能完成一切任務。藉助 Amazon SageMaker 中的 EMR 功能,您能夠統一處理資料及開發模型,在單一的協作式環境中,支援從原始資料轉換到 AI 部署的端對端工作流程。

使用案例

使用統計演算法和預測模型執行大規模資料處理和假設分析,以發現隱藏的模式、相關性、市場趨勢和客戶偏好。
從各種來源擷取資料、大規模處理,然後提供給應用程式和使用者兩者使用。
即時分析串流資料來源的事件,以建立長期執行、高可用性和容錯的串流 Data Pipeline。
使用開源機器學習 (ML) 架構,例如:Apache Spark MLlib、TensorFlow 與 Apache MXNet 來分析資料。連接到 Amazon SageMaker Studio 以進行大規模模型訓練、分析和報告。