Amazon EMR 让 AWS 云中的 Hadoop 配置和管理变得轻而易举。Hadoop 拥有多个发行版本,并且 Amazon EMR 允许您选择使用 Amazon Distribution for Hadoop 或者 MapR Distribution for Hadoop.

MapR 可以实现 Hadoop 的承诺,提供经过实证的企业级平台,广泛支持各种任务关键型及实时生产用途。MapR 将 Hadoop、NoSQL、数据库及流式处理应用程序整合在一个统一的大数据平台中,提供了史无前例的可靠性和易用性,同时保持世界最快的速度记录。MapR 在金融服务、零售、媒体、卫生保健、生产制造、通信及政府组织中广泛应用,同时还是“Fortune 100”领导企业及 Web 2.0 公司的首选。投资者包括 Lightspeed Venture Partners、Mayfield Fund、NEA 和 Redpoint Ventures。在 FacebookLinkedInTwitter 上与 MapR 联系.

开始使用 Amazon EMR

创建免费账户

如果您的数据处理需求规模庞大,可以申请更低的价格。

联系我们了解详细情况。

mapr-280
  • 立即恢复:MapR M7 可提供数据库的高可用性。只需几秒钟系统就能自动从任意故障节点进行恢复,让应用程序可以不受任何影响而继续运作。
  • 零 HBase 管理:MapR M7 让用户可以利用表单而无需运行任何单独的服务,例如 RegionServers。此外,M7 不再使用压缩,并提供无缝的地区划分,因此管理员无需手动执行此类操作。
  • 持续低延迟:MapR M7 通过去除影响性能的垃圾回收和压缩持续提供低延迟。低磁盘 I/O 配合更小的磁盘空间占用,让磁盘上的数据库运行快速而尽在掌控。
  • 快照式完整数据保护:M7 为 HBase 提供了完整的数据保护。快照实现了表单的时间点恢复,避免了用户或应用程序错误。M7 扩大了快照的范围,使其包含从文件到表单的所有数据。HBase 表单可以直接从快照读取和恢复,而不会像其他的配置需要一定的停机时间来恢复 HBase。
  • 镜像式业务连续性:通过镜像,用户可以在各个群集间实时自动复制有差异的数据。这可应用于为数据库创建灾难恢复解决方案的情况,或用于针对多处地点提供数据只读访问权限。因为 M7 不要求重建 RegionServers,当活动站点崩溃时,数据库可以在镜像站点立即生成。
  • NFS:MapR 提供随机的读/写访问和标准 NFS 接口,使用户能够安装集群并将基于文件的标准应用程序与 Hadoop(包括 Linux 实用程序、文件浏览器和非 Java 应用程序)结合使用。使用 Amazon EMR 上的 MapR 时,NFS 接口将预装载在 /mapr 上。
  • ODBC:MapR 为 Hive 提供了一个符合 ODBC3.52 标准规范的 ODBC 驱动程序,使用户能够将任意 BI 工具或 SQL 查询生成器与 Hadoop 结合使用。MicroStrategy、Tableau、Excel、Toad 和许多其他商业和开源工具均受支持。
  • 部署:基于 MapR 的 Amazon EMR 使集群 (可以通过 AWS 管理控制台、CLI 或 API 启动)的调配、安装和配置实现完全自动化。
  • MapR Control System (MCS):针对 Hadoop,包括硬件、存储、MapReduce 和分配中的其他组件,MapR 提供了端对端的监控和管理。
  • CLI 和 REST API:也可通过 CLI 和 REST API 访问所有 MCS 功能。这使用户能够获取集群信息并以编程方式执行操作。它还允许与第三方和自定义监控/管理系统进行集成。
  • 文件系统高可用性:MapR 提供了无 NameNode 的架构,可通过自动故障转移和故障恢复容许多个同时发生的故障。元数据采用与数据相同的方式进行分配和复制。由于不存在 NameNode,因此对于可以存储多少文件没有实际限制,也不存在对任何外部 NAS 的依赖。
  • MapReduce 高可用性:MapR 可提供 JobTracker HA,并具有自动故障转移和故障恢复功能。如果活动的 JobTracker 出现故障,它会自动从其他节点开始,所有作业和任务将在不中断的情况下继续运行。
  • 数据保护:MapR 针对时间点恢复提供快照, 以使用户能够从用户和应用程序错误中恢复。MapR 使用重定向写入技术,因此只会对已更改的块进行快照拍摄,避免了对性能产生任何影响。请注意,快照保证是一致的,所以所有应用程序均受支持。
  • 灾难恢复:MapR 提供集群之间的镜像功能,以允许跨可用区域之间的灾难恢复,以及在企业自建环境中和 EMR 集群上进行混合部署。对于混合部署,所有基于 MapR 的 Hadoop 发行版,包括 EMC Greenplum MR 和 Cisco UCS 设备均受支持。请注意,将仅传输已更改的块且所有数据将自动压缩。
  • 压缩:MapR 会自动以透明形式压缩所有尚未压缩的数据。这将减少磁盘和网络 I/O,并提高性能。无需手动压缩文件或修改应用程序来处理压缩。随机读写的效率还很高,因为只会解压缩必要的数据块,而且还具有拆分文件的能力。
  • 性能:MapR 采用高级架构,提供更高的效率和并行度,同时降低磁盘和网络 I/O。MapR 的性能保持着世界纪录。


M7 版本是 Apache Hadoop 的完整配置,为 NoSQL 和 Hadoop 应用程序提供了易用性、可靠性和性能优势。M7 消除了组织机构面临的各种折中困境,完美地实现了 NoSQL 解决方案的部署。M7 具有不需要压缩和后台一致性检查的架构,实现了可扩展、高一致性、稳定可靠且持续低延迟。

M5 版本同样为 Apache Hadoop 的完整配置,针对所有 Hadoop 文件操作提供了企业级的功能。这些功能包括镜像、快照、NFS HA、数据放置控制等等,都是最高需求的任务关键型环境所需的功能。

M3 版本是 Hadoop 完整配置的免费版本。M3 版本提供了完整的随机读写平台,支持行业标准接口(例如:NFS、ODBC),同时提供管理、压缩和性能优势。

MapR 功能 M7 版本 M5 版本 M3 版本
Apache Hadoop 的完整配置
Direct Access NFS
无限扩展
世界纪录性能
MapR 控制系统 (MCS)
基于卷的数据管理  
没有 NameNode 的高可用性  
JobTracker 高可用性  
文件快照  
文件镜像  
滚动升级  
HBase 应用程序的即时恢复    
零 HBase 管理
   
HBase 的连续低延迟    
HBase 的快照    
HBase 的镜像    

EMR 开发者指南包含有关如何使用 AWS 管理控制台、CLI 或 API 启动 EMR 上的 MapR 的详细说明。使用 AWS 管理控制台启动 MapR 集群的步骤:

  1. 访问 AWS 管理控制台上的 EMR 服务
  2. 单击 Create New Job Flow, 启动 Create a new Job Flow 向导。此向导将启动 MapR 集群。
  3. 从向导的 Define Job Flow 窗格上的 Hadoop Version 下拉列表中选择 MapR M7、M5 或 M3。
  4. 遵循向导中的剩余步骤来启动您的任务流。

AWS Support 客户可以就有关在 EMR 上使用 MapR 的任何问题 联系 Amazon

M5 和 M7 用户也可以通过直接发送邮件至 support@mapr.com 来联系 MapR 全天候支持。我们欢迎所有 MapR 用户将问题发布到 MapR 论坛,该论坛将由 MapR 持续监控。


Amazon Elastic MapReduce 和 Amazon EMR 是 Amazon Web Services, Inc. 或其附属公司的商标。保留所有权利。