大数据平台 — Amazon EMR — Amazon Web Services

Amazon EMR

轻松运行和扩展 Apache Spark、Trino 以及其他大数据工作负载

开始使用 Amazon EMR

请求为您的评估提供支持

为什么选择 Amazon EMR？

Amazon EMR 是一项大数据处理服务，可凭借无与伦比的灵活性和规模，加速分析工作负载。EMR 具有针对 Apache Spark、Trino、Apache Flink 和 Apache Hive 进行了性能优化的运行时，可大幅削减成本与处理时长。该服务与 AWS 无缝集成，可简化数据湖工作流和企业级规模架构。借助内置的自动扩缩、智能监控功能以及托管式基础设施，EMR 让您能够专注于挖掘数据见解，而非管理集群，可高效开展 PB 级规模的分析工作，摆脱传统方案的运维负担。

灵活的部署选项

为什么选择 EMR Serverless？

Amazon EMR Serverless 让数据分析师和工程师能够轻松运行 Apache Spark 等开源大数据分析框架，而无需配置、管理和扩展集群或服务器。借助 EMR Serverless，您能以最快速度体验 Amazon EMR 的全部功能与优势，无需专业人员来规划和管理集群。

EMR Serverless

为什么选择 Amazon EC2 上的 Amazon EMR？

Amazon EC2 上的 Amazon EMR 支持对集群配置进行自主控制，且兼容长期运行的集群，非常适合需要特定硬件设置的持续数据处理任务。您可以将自定义应用程序与 Apache Spark 和 Trino 等热门框架一起安装，同时提供各种 EC2 实例类型以优化成本和性能。该服务与其他 AWS 服务无缝集成，并且能够使用竞价型实例，这使其成为需要对大数据操作进行精细化管控的组织的经济实惠的解决方案。

为什么选择 Amazon EKS 上的 Amazon EMR？

Amazon Elastic Kubernetes Service（EKS）上的 Amazon EMR 使您能够在 EKS 上按需提交 Apache Spark 作业，而无需配置 EMR 集群。借助 EKS 上的 EMR，您可以在与其他基于 Kubernetes 的应用程序相同的 Amazon EKS 集群上运行分析工作负载，从而提高资源利用率并简化基础设施管理。

Amazon EKS 上的 Amazon EMR

在下一代 Amazon SageMaker 中使用 Amazon EMR 处理您的数据

Amazon EMR 可在下一代 Amazon SageMaker 中使用，使您能够在统一的数据和人工智能开发环境中轻松运行 Apache Spark、Trino 和其他开源分析框架。

了解详情。

功能

Amazon EMR 运行 Apache Spark 与 Iceberg 的读取任务时，速度比开源 Spark + Iceberg 快 4.5 倍

了解详情

Amazon EMR 运行 Apache Spark 与 Apache Iceberg 的写入任务时，速度比开源 Spark + Iceberg 快 2 倍以上

了解详情

优势

Amazon EMR 融合了经过性能优化的 Apache Spark，可实现更快、更具成本效益的数据处理，并且能够灵活选择实例类型（包括竞价型实例），此外还配备完全托管的自动扩缩功能，能将集群动态调整至合理大小，从而避免资源过度预置并降低总体支出。

Amazon EMR 的运行速度较开源 Apache Spark 提升了 5.4 倍，且 API 兼容性保持不变。它支持客户部署自选的开源框架，包括 Apache Spark、Trino、Apache Flink 或 Apache Hive。EMR 支持 Iceberg、Hudi 和 Delta 等热门开放表格式，可帮助加快获取见解的速度。

EMR 提供多样化部署选项：包括完全托管、无基础设施负担的 EMR Serverless；可实现精细化集群控制的 EC2 上的 EMR；以及适用于 Kubernetes 原生大数据工作负载的 EKS 上的 EMR。无论是运行短期集群以处理按需作业，还是运行长期集群以执行持续性任务，EMR 都能适配您的运营需求，同时通过灵活的资源分配和高效的扩展能力优化成本。

新一代 Amazon SageMaker 集成的 Amazon EMR，支持您运行 Apache Spark、Trino、Apache Flink 等开源框架，无需预置或管理基础设施，即可轻松扩展分析工作负载。借助 Amazon SageMaker 中的 EMR 功能，您能统一数据处理与模型开发流程，在单一协作环境中实现从原始数据转换到 AI 部署的端到端工作流。

通过智能自动化，将长达数月的 Apache Spark 升级转变为为期一周的高效项目。Spark 升级代理通过自动分析并验证整个代码库中的 API 变更来简化企业级迁移流程，从而大幅降低成本和复杂度。

使用案例

使用统计算法和预测性模型运行大规模数据处理和 what-if 分析，发现隐藏的模式、相关性、市场趋势和客户偏好。

从各种来源中提取数据、大规模处理数据，并将数据提供给应用程序和用户。

实时分析来自流式数据来源的事件，以创建长期运行、高度可用且具有容错能力的流式数据管道。

使用 Apache Spark MLlib、TensorFlow 和 Apache MXNet 等开源 ML 框架。连接 Amazon SageMaker Studio 进行大型模型训练、分析和报告。

开始使用 Amazon EMR

功能页面

探索 Amazon EMR 工作原理

探索 Amazon EMR 特性

定价

探索 Amazon EMR 定价

了解有关 Amazon EMR 定价的更多信息

Amazon EMR

为什么选择 Amazon EMR？

灵活的部署选项

为什么选择 EMR Serverless？

为什么选择 Amazon EC2 上的 Amazon EMR？

为什么选择 Amazon EKS 上的 Amazon EMR？

在下一代 Amazon SageMaker 中使用 Amazon EMR 处理您的数据

功能

Amazon EMR 运行 Apache Spark 与 Iceberg 的读取任务时，速度比开源 Spark + Iceberg 快 4.5 倍

Amazon EMR 运行 Apache Spark 与 Apache Iceberg 的写入任务时，速度比开源 Spark + Iceberg 快 2 倍以上

优势

经济高效的大数据处理

加快见解获取并优化性能表现

无可比拟的部署灵活性

优化 Amazon SageMaker 中的数据处理

借助 AI 辅助加速 Spark 升级

使用案例

执行大数据分析

构建可扩展的数据管道

处理实时数据流

加速数据科学和 ML 采用

开始使用 Amazon EMR

探索 Amazon EMR 工作原理

探索 Amazon EMR 定价

了解

资源

开发人员

帮助