Amazon EMR

轻松运行和扩展 Apache Spark、Hive、Presto 以及其他大数据工作负载

更快地运行大数据应用程序和 PB 级数据分析,并且成本不到本地解决方案成本的一半。

使用最新开源框架搭建应用程序,可在自定义 Amazon EC2 集群、Amazon EKSAWS Outposts Amazon EMR Serverless 上运行。

通过性能优化且兼容开源 API 的 Spark、Hive 和 Presto 版本,洞察时间提升为原来的 2 倍。

使用 EMR Notebooks 和 EMR Studio 中的熟悉开源工具,轻松开发、可视化和调试应用程序。

工作原理

Amazon EMR 是云中大数据平台,用户可以在该平台上使用开源分析框架(如 Apache SparkApache HivePresto 等)运行大规模分布式数据处理作业,交互式 SQL 查询,以及机器学习 (ML) 应用程序。

Amazon EMR 工作原理
 单击可放大
EMR Serverless 简介 (2:02)
Amazon EMR Serverless 简介
Amazon EMR Serverless 是 Amazon EMR 中的一个新选项,它使数据工程师和分析师能够轻松且成本高效地运行使用开源大数据框架(例如 Apache Spark、Hive 或 Presto)构建的应用程序,而无需调整、运营、优化、保护或管理集群。
Amazon EMR Serverless 简介
Amazon EMR Serverless 是 Amazon EMR 中的一个新选项,它使数据工程师和分析师能够轻松且成本高效地运行使用开源大数据框架(例如 Apache Spark、Hive 或 Presto)构建的应用程序,而无需调整、运营、优化、保护或管理集群。EMR Serverless 可以根据应用程序的需求扩大或缩小计算和内存资源,您只需为应用程序使用的资源付费。

使用案例

执行大数据分析

使用统计算法和预测性模型运行大规模数据处理和 what-if 分析,发现隐藏的模式、相关性、市场趋势和客户偏好。

构建可扩展的数据管道

从各种来源中提取数据、大规模处理数据,并将数据提供给应用程序和用户。

处理实时数据流

实时分析来自流式数据源的事件,以创建长期运行、高度可用且具有容错能力的流式数据管道。

加速数据科学和 ML 采用

使用 Apache Spark MLlib、TensorFlow 和 Apache MXNet 等开源 ML 框架。连接 Amazon SageMaker Studio 进行大型模型训练、分析和报告。

如何开始使用

探索 Amazon EMR 工作原理

了解有关预置集群、扩展资源、配置高可用性等的详情。

探索 Amazon EMR 功能 »

探索 Amazon EMR 定价

按秒付费,可以选择在 Amazon EC2、Amazon EKS、AWS Outposts 或 Amazon EMR Serverless 上运行 EMR 集群。

了解有关 Amazon EMR 定价的更多信息 »

开始使用 Amazon EMR

了解使用 EMR 进行实时流处理、大规模机器学习等的信息。

查看 Amazon EMR 教程 »

更深入了解 AWS