巨量資料平台 – Amazon EMR – Amazon Web Services

Amazon EMR

輕鬆地執行和擴展 Apache Spark、Trino 以及其他巨量資料工作負載

開始使用 Amazon EMR

請求評估支援

為何選擇 Amazon EMR？

Amazon EMR 是一項巨量資料處理服務，能以無可比擬的靈活性與擴展性來加速分析工作負載。EMR 具備適用於 Apache Spark、Trino、Apache Flink 與 Apache Hive 的效能最佳化執行時期，從而顯著減少成本與處理時間。該服務可無縫整合 AWS，從而簡化資料湖工作流程與企業級架構。憑藉內建的自動擴展功能、智慧監控功能與受管基礎結構，EMR 可讓您專注於擷取洞察，而不是管理叢集，從而高效地交付 PB 級分析，不必承擔傳統解決方案的營運開銷。

靈活的部署選項

為何選擇 EMR Serverless？

Amazon EMR Serverless 可讓資料分析師和工程師無需設定、管理和擴展叢集或伺服器，即可輕鬆執行 Apache Spark 等開放原始碼巨量資料分析架構。 EMR Serverless 提供了一種最快捷的方式，您無需專家來規劃和管理叢集，即可獲得 Amazon EMR 的所有功能與優勢。

EMR Serverless

為何選擇 Amazon EC2 上的 Amazon EMR？

Amazon EC2 上的 Amazon EMR 能夠對叢集組態設定進行控制，並且可為長期執行的叢集提供支援，因而對於需要特定硬體設定的持續資料處理任務而言是完美之選。您可在提供各種 EC2 執行個體類型的同時，搭配熱門架構 (例如 Apache Spark 及 Trino) 安裝自訂應用程式，進而實現成本與效能最佳化。該服務能夠整合其他 AWS 服務，還可使用 Spot 執行個體，因此對於需要對其巨量資料操作進行精細化控制的組織而言，這是一項經濟高效的解決方案。

為何選擇 Amazon EKS 上的 Amazon EMR？

Amazon Elastic Kubernetes Service (EKS) 上的 Amazon EMR 可讓您在 EKS 上根據需求提交 Apache Spark 作業，而無需佈建 EMR 叢集。藉助 EKS 上的 EMR，您可在與其他 Kubernetes 型應用程式相同的 Amazon EKS 叢集上執行分析工作負載，以提高資源使用率並簡化基礎設施管理。

Amazon EKS 上的 Amazon EMR

使用新一代 Amazon SageMaker 中的 Amazon EMR 來處理您的資料

新一代 Amazon SageMaker 可使用 Amazon EMR，讓您能夠在統一的資料與 AI 開發環境中毫不費勁地執行 Apache Spark、Trino，以及其他開放原始碼分析架構。

進一步了解。

功能

Amazon EMR 執行 Apache Spark 與 Iceberg 讀取任務的速度，比開放原始碼 Spark 與 Iceberg 快 4.5 倍

進一步了解

Amazon EMR 執行 Apache Spark 與 Iceberg 寫入任務的速度，比開放原始碼 Spark 與 Iceberg 快 2 倍以上

進一步了解

優勢

Amazon EMR 與效能最佳化 Apache Spark 相結合，可實現更快捷、經濟高效的資料處理，同時可靈活地選擇包括 Spot 執行個體在內的執行個體類型，並且具備全受管自動擴展功能，能夠動態地調整叢集大小，從而消除了過度佈建並降低了整體支出。

Amazon EMR 比開放原始碼 Apache Spark 快高達 5.4 倍，同時維持 API 相容性。該服務支援客戶部署自己選擇的開放原始碼架構，例如 Apache Spark、Trino、Apache Flink 或 Apache Hive。EMR 還支援 Iceberg、Hudi 及 Delta 等熱門的開放式資料表，進而加速獲取洞察。

EMR 提供各種部署選項，包括 EMR Serverless，適用於處理全受管、無基礎結構；EMR on EC2，適用於精細化叢集控制；以及 EMR on EKS，適用於處理 Kubernetes 原生巨量資料工作負載。無論是適用於隨需任務的短期執行叢集，還是適用於持續性任務的長期執行叢集，EMR 都能適應您的營運需求，同時透過靈活的資源配置與高效擴展來最佳化成本。

藉助新一代 Amazon SageMaker 中的 Amazon EMR，您可以執行 Apache Spark、Trino 及 Apache Flink 等開放原始碼架構，從而讓您毫不費勁地擴展分析工作負載，不需要佈建或管理基礎結構就能完成一切任務。藉助 Amazon SageMaker 中的 EMR 功能，您能夠統一處理資料及開發模型，在單一的協作式環境中，支援從原始資料轉換到 AI 部署的端對端工作流程。

透過智慧自動化，將耗時數個月的 Apache Spark 升級，轉變為高效率的數週專案。Spark 升級代理程式透過自動分析並驗證整個程式碼庫的 API 變更，簡化企業規模的遷移，顯著降低成本與複雜性。

使用案例

使用統計演算法和預測模型執行大規模資料處理和假設分析，以發現隱藏的模式、相關性、市場趨勢和客戶偏好。

從各種來源擷取資料、大規模處理，然後提供給應用程式和使用者兩者使用。

即時分析串流資料來源的事件，以建立長期執行、高可用性和容錯的串流 Data Pipeline。

使用開源機器學習 (ML) 架構，例如：Apache Spark MLlib、TensorFlow 與 Apache MXNet 來分析資料。連接到 Amazon SageMaker Studio 以進行大規模模型訓練、分析和報告。

開始使用 Amazon EMR

功能頁面

了解 Amazon EMR 的運作方式

探索 Amazon EMR 的特色

定價

探索 Amazon EMR 的定價

進一步了解 Amazon EMR 定價

Amazon EMR

為何選擇 Amazon EMR？

靈活的部署選項

為何選擇 EMR Serverless？

為何選擇 Amazon EC2 上的 Amazon EMR？

為何選擇 Amazon EKS 上的 Amazon EMR？

使用新一代 Amazon SageMaker 中的 Amazon EMR 來處理您的資料

功能

Amazon EMR 執行 Apache Spark 與 Iceberg 讀取任務的速度，比開放原始碼 Spark 與 Iceberg 快 4.5 倍

Amazon EMR 執行 Apache Spark 與 Iceberg 寫入任務的速度，比開放原始碼 Spark 與 Iceberg 快 2 倍以上

優勢

使用案例

開始使用 Amazon EMR

了解 Amazon EMR 的運作方式

探索 Amazon EMR 的定價

了解

資源

開發人員

說明

Amazon EMR

為何選擇 Amazon EMR？

靈活的部署選項

為何選擇 EMR Serverless？

為何選擇 Amazon EC2 上的 Amazon EMR？

為何選擇 Amazon EKS 上的 Amazon EMR？

使用新一代 Amazon SageMaker 中的 Amazon EMR 來處理您的資料

功能

Amazon EMR 執行 Apache Spark 與 Iceberg 讀取任務的速度，比開放原始碼 Spark 與 Iceberg 快 4.5 倍

Amazon EMR 執行 Apache Spark 與 Iceberg 寫入任務的速度，比開放原始碼 Spark 與 Iceberg 快 2 倍以上

優勢

經濟高效的巨量資料處理

加速獲取洞察及最佳化效能

無可比擬的部署靈活性

在 Amazon SageMaker 中實現資料處理最佳化

利用 AI 輔助加速 Spark 升級

使用案例

執行巨量資料分析

建置可擴展的 Data Pipelines

處理即時資料串流

加速資料科學和機器學習 (ML) 採用

開始使用 Amazon EMR

了解 Amazon EMR 的運作方式

探索 Amazon EMR 的定價

了解

資源

開發人員

說明