Amazon EMR

輕鬆地執行和擴展 Apache Spark、Hive、Presto 和其他大數據架構

Amazon EMR 是領先業界的雲端大數據平台,使用開放原始碼工具 (例如 Apache SparkApache HiveApache HBaseApache FlinkApache HudiPresto) 來處理龐大的資料量。Amazon EMR 可透過自動化諸如佈建容量和調校叢集等耗時任務,讓您輕鬆設定、操作和擴展您的大數據環境。使用 EMR 時,您可以執行 PB 規模等級的分析,不僅成本不到傳統內部部署解決方案的一半,速度也比標準 Apache Spark 快 3 倍以上。 您可以在 Amazon EC2 執行個體或 Amazon Elastic Kubernetes Service (EKS) 叢集上執行工作負載,或者在 AWS Outposts 上使用 EMR 進行內部部署。

探索 Apache Hudi 如何簡化變更資料擷取 (CDC) 和隱私權法規的相關管道

Amazon EMR 簡介 (3:00)

優勢

易於使用

分析人員、資料工程師和資料科學家可以使用 EMR Notebooks,以協作並以互動方式探索、處理和視覺化資料。直接指定所要使用的 EMR 應用程式版本和運算類型。EMR 會處理叢集的佈建、設定及調整,讓您可以專注執行分析。

低成本

EMR 定價不但簡單而且可預測:您只需依所用的秒數支付每執行個體費率,但需支付一分鐘最低費用。您可以啟動 10 節點的 EMR 叢集,每小時只要 0.15 USD。您可以選擇使用 Amazon EC2 Spot 執行暫時性工作負載,選擇預留執行個體用於執行執行時間長的工作負載,如此能省下 50-80% 的執行個體成本。不僅如此,您也可以使用 Savings Plans

彈性

與內部部署叢集的嚴格基礎設施不同,EMR 將運算和儲存分離,讓您能夠獨立地逐個擴展,並利用 Amazon S3 的分層儲存。使用 EMR,您可以佈建一個、數百個或者甚至數千個運算執行個體或容器來處理任何規模的資料。可以使用 Auto Scaling (根據利用率管理叢集大小) 自動增加或減少執行個體數量,並且只需按實際用量付費。

可靠

花較少時間在調校和監控叢集方面。EMR 針對雲端進行優化,還可持續監控您的叢集,重新嘗試失敗的任務,並自動替換效能不佳的執行個體。叢集具有高可用性,並在節點發生故障時自動進行容錯轉移。EMR 提供最新的穩定開放程式碼軟體版本,因此您無需管理更新和錯誤修正,從而減少問題,並減少維護環境的工作量。

安全

EMR 會自動配置 EC2 防火牆設定以控制對執行個體的網路存取,並且在 Amazon Virtual Private Cloud (VPC) 中啟動叢集。伺服器端加密用戶端加密可搭配 AWS Key Management Service 或您自己的客戶管理的金鑰使用。EMR 可以輕鬆啟用其他加密選項,如傳輸中和靜態加密,以及使用 Kerberos 進行強身份驗證。您可以使用 AWS Lake Formation 或 Apache Ranger,將更精細的存取控制權套用於資料庫、表格和欄。

靈活

您可以完全控制您的 EMR 叢集和您的個別 EMR 任務。您可以使用自訂 Amazon Linux AMI 啟動 EMR 叢集,並使用指令碼輕鬆設定叢集,以安裝其他第三方軟體套件。EMR 讓您能在執行中的叢集上快速重新設定應用程式,而不需要重新啟動叢集。 此外,您還可以透過在 Docker 容器中指定程式庫和執行時間相依項來自訂個別任務的執行環境,並將它們與您的任務一起提交。

部署選項

Amazon EC2 上的 Amazon EMR

您可以在 Amazon EC2 上部署 EMR,並利用隨需、預留和 Spot 執行個體。EMR 管理 EC2 執行個體的佈建、管理和擴展。AWS 提供了比任何其他雲端供應商更多的執行個體選項,可讓您選擇為您的工作負載提供最佳效能或成本的執行個體。

進一步了解 »

Amazon EKS 上的 Amazon EMR

您可以在 Amazon Elastic Kubernetes Service (EKS) 上使用 EMR 隨需執行 Apache Spark 任務,而無需佈建 EMR 叢集,以提高資源使用率並簡化基礎設施管理。有了 Amazon EKS,您就可以靈活地在 AWS 雲端或內部部署系統中啟動、執行和擴展 Kubernetes 應用程式。使用 EKS 上的 Amazon EMR,您可以跨所有應用程式共享運算和記憶體資源,並使用一組 Kubernetes 工具集中監控和管理您的基礎設施。

進一步了解 »

AWS Outposts 上的 Amazon EMR

Amazon EMR 在 AWS Outposts 上提供,讓您可以在內部部署環境中設定、部署、管理和擴展 EMR,如同在雲端中操作一樣。AWS Outposts 可將 AWS 服務、基礎設施和操作模型用於幾乎所有的資料中心、主機代管空間或內部部署設施。

進一步了解 »

使用案例

機器學習

憑藉 EMR 的內建機器學習工具,包括 Apache Spark MLlib、TensorFlow,以及用於可擴展機器學習演算法的 Apache MXNet,並使用自訂 AMI 和引導操作動作,可輕鬆新增您偏好的庫和工具,來創建您自己的預測分析工具組。

擷取、轉換、載入 (ETL)

EMR 可用於快速且經濟實惠的執行資料轉換工作負載 (ETL),例如在大型資料集上進行排序、彙總和結合。

了解 Redfin 如何使用暫時性 EMR 叢集進行 ETL »

點擊流分析

Amazon S3 點擊流資料分析使用 Apache Spark 和 Apache Hive 來區隔使用者、了解使用者偏好,以及提供更有效率的廣告。

即時串流

憑藉 Apache Spark Streaming 和 Apache Flink,即時分析 Apache Kafka、Amazon Kinesis 或其他傳送資料來源中的事件,以在EMR 上建立長期執行、高可用性和容錯的傳送資料管道。將轉換後的資料集保留到 S3 或 HDFS,以及將洞見保留到 Amazon Elasticsearch Service 中。

了解 Hearst 如何使用 Spark Streaming »

互動式分析

EMR Notebooks 根據開放原始碼 Jupyter 提供受管的分析環境,讓資料科學家、分析師及開發人員能夠準備和視覺化資料、與同儕協作、建置應用程式以及執行互動分析。

基因體

EMR 可快速且有效地處理大量的基因體資料及其他大型科學資料集。研究人員可以存取 AWS 上託管的免費基因體資料。

了解 Apache Spark 與精準醫學 »

案例研究

分析師研究

更多...

最新消息

日期
  • 日期
1

開始使用 AWS

閱讀 EMR 移轉指南
閱讀移轉指南

了解如何將大數據從內部部署移轉到 AWS。

進一步了解 
註冊免費的 AWS 帳戶
註冊免費帳戶

立即存取 AWS 免費方案。 

註冊 
開始在主控台使用 EMR 進行建置
開始在主控台進行建置

開始在 AWS 主控台使用 Amazon EMR 進行建置。

登入 

將大數據從內部部署移轉到 AWS

可協助您規劃移轉的資源

進一步了解 AWS 上的大數據和分析

閱讀 AWS 大數據部落格