Amazon EMR

輕鬆地執行和擴展 Apache Spark、Hive、Presto 和其他大數據架構

Amazon EMR 是領先業界的雲端大數據平台,使用開放原始碼工具 (例如 Apache SparkApache HiveApache HBaseApache FlinkApache HudiPresto) 來處理龐大的資料量。使用 EMR 時,您可以執行 PB 規模等級的分析,不僅成本不到傳統內部部署解決方案的一半,速度也比標準 Apache Spark 快 3 倍以上。對於執行時間較短的任務來說,您可以擴展和縮減叢集,並依照使用執行個體的時間,按秒付費。至於執行時間較長的工作負載,您可以建立高可用性的並可根據需求自動擴展的叢集。如果您已有開放原始碼工具 (例如 Apache Spark 和 Apache Hive) 的內部部署,則還可以在 AWS Outposts 上執行 EMR 叢集

了解如何透過將內部部署工作負載遷移到 EMR,以降低成本並簡化操作。

探索 Apache Hudi 如何簡化變更資料擷取 (CDC) 和隱私權法規的相關管道

Amazon EMR 簡介 (3:00)

優勢

易於使用

分析人員、資料工程師和資料科學家可以使用 EMR Notebooks,讓個人和團隊輕鬆進行協作以及互動式探索、處理和視覺化資料。您可以直接指定所要使用的 EMR 應用程式版本和運算類型。EMR 會處理叢集的佈建、設定及調整,讓您可以專注執行分析。

低成本

EMR 定價不但簡單而且可預測:您只需依所用的秒數支付每執行個體費率,但需支付一分鐘最低費用。您可以啟動 10 節點的 EMR 叢集,每小時只要 0.15 USD。您還可以選擇使用 Amazon EC2 Spot 執行暫時性工作負載,選擇預留執行個體用於執行執行時間長的工作負載,如此能省下 50-80% 的執行個體成本。不僅如此,您也可以使用 Savings Plans

彈性

與內部部署叢集的嚴格基礎架構不同,EMR 將運算和儲存分離,讓您能夠獨立地逐個擴展,並利用 Amazon S3.的分層儲存。使用 EMR,您可以佈建一個、數百個或者甚至數千個運算執行個體來處理任何規模的資料。可以使用 Auto Scaling (根據利用率管理叢集大小) 自動增加或減少執行個體數量,並且只需按實際用量付費。

可靠

花較少時間在調校和監控叢集方面。EMR 針對雲端進行優化,還可持續監控您的叢集,重新嘗試失敗的任務,並自動替換效能不佳的執行個體。憑藉多個主節點,叢集具有高可用性,並在節點發生故障時自動進行容錯轉移。EMR 提供最新的穩定開放程式碼軟體版本,因此您無需管理更新和錯誤修正,從而減少問題,並減少維護環境的工作量。

安全

EMR 會自動配置 EC2 防火牆設定以控制對執行個體的網路存取,並且在 Amazon Virtual Private Cloud (VPC) 中啟動叢集。伺服器端加密用戶端加密可搭配 AWS Key Management Service 或您自己的客戶管理的金鑰使用。EMR 可以輕鬆啟用其他加密選項,如傳輸中和靜態加密,以及使用 Kerberos 進行強身份驗證。您可以使用 AWS Lake Formation 或 Apache Ranger,將更精細的存取控制權套用於資料庫、表格和欄。

靈活

您可以透過對所有執行個體的根存取權,全面控制叢集。您可以透過自訂 Amazon Linux AMI 啟動 EMR 叢集,並使用引導操作動作,輕鬆安裝其他應用程式。EMR 讓您能在執行中的叢集上快速重新設定應用程式,而不需要重新啟動叢集。此外,使用 Hadoop 3.0 時,您可以封裝 Docker 容器中的程式庫相依性,然後與您的任務一起提交,以簡化環境相依性。

使用案例

機器學習

憑藉 EMR 的內建機器學習工具,包括 Apache Spark MLlib、TensorFlow,以及用於可擴展機器學習演算法的 Apache MXNet,並使用自訂 AMI 和引導操作動作,可輕鬆新增您偏好的庫和工具,來創建您自己的預測分析工具組。

擷取、轉換、載入 (ETL)

EMR 可用於快速且經濟實惠的執行資料轉換工作負載 (ETL),例如在大型資料集上進行排序、彙總和結合。

了解 Redfin 如何使用暫時性 EMR 叢集進行 ETL »

點擊流分析

Amazon S3 點擊流資料分析使用 Apache Spark 和 Apache Hive 來區隔使用者、了解使用者偏好,以及提供更有效率的廣告。

即時串流

憑藉 Apache Spark Streaming 和 Apache Flink,即時分析 Apache Kafka、Amazon Kinesis 或其他傳送資料來源中的事件,以在EMR 上建立長期執行、高可用性和容錯的傳送資料管道。將轉換後的資料集保留到 S3 或 HDFS,以及將洞見保留到 Amazon Elasticsearch Service 中。

了解 Hearst 如何使用 Spark Streaming »

互動式分析

EMR Notebooks 根據開放原始碼 Jupyter 提供受管的分析環境,讓資料科學家、分析師及開發人員能夠準備和視覺化資料、與同儕協作、建置應用程式以及執行互動分析。

基因體

EMR 可快速且有效地處理大量的基因體資料及其他大型科學資料集。研究人員可以存取 AWS 上託管的免費基因體資料。

了解 Apache Spark 與精準醫學 »

案例研究

分析師研究

更多...

最新消息

日期
  • 日期
1

開始使用 AWS

閱讀 EMR 移轉指南
閱讀移轉指南

了解如何將大數據從內部部署移轉到 AWS。

進一步了解 
註冊免費的 AWS 帳戶
註冊免費帳戶

立即存取 AWS 免費方案 

註冊 
開始在主控台使用 EMR 進行建置
開始在主控台進行建置

開始在 AWS 主控台使用 Amazon EMR 進行建置。

登入 

將大數據從內部部署移轉到 AWS

可協助您規劃移轉的資源

進一步了解 AWS 上的大數據和分析

閱讀 AWS 大數據部落格