Amazon EMR 讓 AWS 雲端中的 Hadoop 佈建和管理變得非常輕鬆。Hadoop 可在多個分發使用,而且 Amazon EMR 允許您選擇使用 Amazon 分發或適用於 Hadoop 的 MapR 分發

MapR 可以實現 Hadoop 的承諾,提供經過驗證的企業級平台,廣泛支援各種任務關鍵型及即時生產用途。MapR 將 Hadoop、NoSQL、資料庫及串流應用程式整合在一個統一的大數據平台中,提供前所未有的可靠性和易用性,同時保持速度最快的世界記錄。MapR 廣泛應用在金融服務、零售、媒體、醫療保健、生產製造、電信及政府組織中,同時還是 Fortune 100 領導企業及 Web 2.0 公司的首選。投資者包括 Lightspeed Venture Partners、Mayfield Fund、NEA 和 Redpoint Ventures。在 FacebookLinkedInTwitter 上與 MapR 交流。

開始使用 Amazon EMR

建立免費帳戶

如果您的資料處理需求規模龐大,則您可能符合要求較低定價的資格。

聯絡我們以進一步了解資訊。

mapr-280
  • 立即恢復:MapR M7 可提供資料庫的高可用性。只需幾秒鐘系統就能自動從任意故障節點恢復,讓應用程式可以不受任何影響而繼續運作。
  • 零 HBase 管理:MapR M7 讓使用者可以利用表格而無需執行任何單獨的服務,例如 RegionServers。此外,M7 不再使用壓縮,並提供無縫的區域劃分,因此管理員無需手動執行這些操作。
  • 持續低延遲:MapR M7 透過去除影響效能的廢棄項目收集或壓縮,持續提供低延遲的服務。低磁碟 I/O 加上佔用的磁碟空間較小,可提升資料庫在磁碟上的操作速度和可預測性。
  • 快照式完整資料保護:M7 為 HBase 提供完整的資料保護。快照啟用表格的 point-in-time 恢復,可防止使用者或應用程式錯誤。M7 擴大快照的範圍以包含所有資料 (包含檔案和表格)。HBase 表可以直接從快照讀取和直接恢復,不像其他分發需要停機時間來恢復 HBase。
  • 鏡像式業務持續性:透過鏡像,使用者可以在各個叢集間即時自動複製有差異的資料。這可用於為資料庫建立災難復原解決方案的情況,或用於從多個位置提供資料唯讀存取權限。因為 M7 不要求重新建構 RegionServers,因此如果作用中網站發生故障,資料庫可以在鏡像網站立即啟動。
  • NFS:MapR 提供隨機讀取/寫入存取和標準 NFS 界面,因此使用者可以掛接叢集並將標準檔案應用程式與 Hadoop (包括 Linux 公用程式、檔案瀏覽器和非 Java 應用程式) 搭配使用。在 Amazon EMR 上使用 MapR 時,NFS 界面會預先掛接在 /mapr。
  • ODBC:MapR 為 Hive 提供了一個符合標準 ODBC 3.52 規格的 ODBC 驅動程式,讓使用者能夠將任意 BI 工具或 SQL 查詢產生器與 Hadoop 搭配使用。支援 MicroStrategy、Tableau、Excel、Toad 和許多其他商業及開放原始碼工具。
  • 部署:Amazon EMR 與 MapR 搭配使用可將叢集的佈建、安裝和設定完全自動化,並可透過 AWS 管理主控台、CLI 或 API 啟動。
  • MapR 控制系統 (MCS):MapR 針對 Hadoop 提供端對端的監控和管理,包括硬體、儲存、MapReduce 和分發中的其他元件。
  • CLI 和 REST API:所有 MCS 功能也會透過 CLI 和 REST API 公開。這讓使用者能夠取得叢集資訊並以程式設計方式執行操作。它還允許與第三方和自訂監控/管理系統進行整合。
  • 檔案系統高可用性:MapR 提供無 NameNode 的架構,可透過自動容錯移轉和故障恢復功能容許多個故障同時發生。中繼資料會和資料一樣分配和複製。因為沒有 NameNode,因此對於可以存放的檔案數量沒有實際限制,也不會倚賴任何外部 NAS。
  • MapReduce 高可用性:MapR 提供 JobTracker HA,其具有自動容錯移轉和故障恢復功能。如果作用中的 JobTracker 故障,它會自動在其他節點啟動,而所有工作和任務將在不中斷的情況下繼續執行。
  • 資料保護:MapR 提供用於 point-in-time 恢復的快照,讓使用者能夠從使用者和應用程式錯誤中恢復。MapR 使用重新導向寫入技術,因此只會對已變更的區塊拍攝快照,避免對效能產生任何影響。請注意,快照保證是一致的,因此可支援所有應用程式。
  • 災難復原:MapR 提供叢集之間的鏡像功能,可跨可用區域進行災難復原,也可以進行現場部署和 EMR 叢集的混合部署。對於混合部署,可支援所有 MapR 的 Hadoop 分發,包括 EMC Greenplum MR 和 Cisco UCS 設備。請注意,只會傳輸已變更的區塊,而且所有資料都會自動壓縮。
  • 壓縮:MapR 會自動以通透形式壓縮所有尚未壓縮的資料。這可減少磁碟和網路 I/O,並提高效能。無需手動壓縮檔案或修改應用程式以處理壓縮。隨機讀取/寫入的效率也很高,因為只會解壓縮必要的資料區塊,而且還可分割檔案。
  • 效能:MapR 的功能採用進階架構,提供更高的效率和並行度,同時降低磁碟和網路 I/O。MapR 的效能保持著世界記錄。


M7 版本是 Apache Hadoop 的完整分發,為 NoSQL 和 Hadoop 應用程式提供易用、可靠和效能優勢。組織考慮部署 NoSQL 解決方案時,使用 M7 無須面臨難以取捨的情況。M7 具有無需壓縮或背景一致性檢查的架構,提供可擴展、高一致性、可靠性和持續低延遲。

M5 版本也是 Apache Hadoop 的完整分發,針對所有 Hadoop 檔案操作提供企業級的功能。這些功能包括鏡像、快照、NFS HA、資料放置控制等等,都是有最高要求的任務關鍵型環境所需的功能。

M3 版本是 Hadoop 完整分發的免費版本。M3 版本提供完整的隨機讀寫功能平台,支援產業標準界面 (例如 NFS、ODBC),同時提供管理、壓縮和效能優勢。

MapR 功能 M7 版本 M5 版本 M3 版本
Apache Hadoop 的完整分發
直接存取 NFS
無限擴展
世界記錄效能
MapR 控制系統 (MCS)
以磁碟區為基礎的資料管理  
無 NameNode 高可用性  
JobTracker 高可用性  
檔案快照  
檔案鏡像  
輪流升級  
HBase 應用程式的立即恢復    
零 HBase 管理
   
HBase 的持續低延遲    
HBase 的快照    
HBase 的鏡像    

EMR Developer Guide 包含如何使用 AWS 管理主控台、CLI 或 API 在 EMR 上啟動 MapR 的詳細說明。使用 AWS 管理主控台啟動 MapR 叢集:

  1. 存取 AWS 管理主控台上的 EMR 服務
  2. 按一下 Create New Job Flow,啟動 Create a new Job Flow 精靈。此精靈將啟動 MapR 叢集。
  3. 從精靈的 Define Job Flow 窗格上的 Hadoop Version 下拉式清單中選擇 MapR M7、M5 或 M3。
  4. 依照精靈中的其餘步驟啟動您的任務流程。

AWS Premium Support 客戶可以針對有關在 EMR 上使用 MapR 的任何問題聯繫 Amazon

M5 和 M7 使用者也可以傳送電子郵件至 support@mapr.com,直接與 MapR 全年無休的支援聯繫。我們歡迎所有 MapR 使用者將問題發佈到 MapR 持續監控的 MapR 論壇


Amazon Elastic MapReduce 和 Amazon EMR 是 Amazon Web Services, Inc. 或其附屬公司集團的商標。保留所有權利。