- 分析›
- Amazon EMR›
- EMR Serverless
Amazon EMR Serverless
使用开源框架,无需管理集群和服务器,即可运行大数据应用程序
为什么选择 EMR Serverless?
Amazon EMR Serverless 是 Amazon EMR 中的无服务器选项,使用该功能,数据分析师和工程师可以轻松运行开源大数据分析框架,而无需配置、管理和扩展集群或服务器。您可以享受 Amazon EMR 的所有功能和优势,无需专家规划和管理集群。
优势
选择您希望为您的应用程序运行的开源框架,例如 Apache Spark 和 Apache Hive,EMR Serverless 将自动预置和管理底层的计算和内存资源。
通过自动按需扩展,在任何规模上运行分析工作负载,并根据数据量和处理需求的变化在几秒钟内调整资源大小。
EMR Serverless 可自动扩展和缩减资源,为您的应用程序提供恰到好处的容量。您只需按实际用量付费,从而最大限度减少预置过剩或不足的担忧。
借助 Apache Spark 升级代理,可通过智能自动化,将长达数月的 Apache Spark 升级转变为高效的为期一周的项目。Spark 升级代理通过自动处理代码库中的复杂 API 变更来简化企业迁移,从而显著降低成本和工作量。
Amazon EMR Serverless 消除了 Apache Spark 工作负载的本地存储预置,最高可将数据处理成本降低 20%,并防止因磁盘容量限制而导致的作业失败。EMR Serverless 可自动处理中间数据操作(例如随机),无需支付存储费用 – 只需为计算和内存资源付费。
工作原理
1
创建应用程序
选择您想要使用的开源框架及其版本。
2
提交作业
通过 API 或 EMR Studio 将作业提交到您的应用程序。您还可以使用 Apache Airflow 或 Amazon Managed Workflows for Apache Airflow 等工作流程编排服务来提交作业。
3
调试作业
使用熟悉的开源工具(如 Spark UI 和 Tez UI)来监控和调试作业。
使用案例
随着工作负载需求的变化,无缝扩展应用程序资源,而无需预先配置所需的计算能力和内存。
选择预先初始化应用程序资源并启用秒级响应时间的选项,以适应对 SLA 敏感的数据管道。
快速而轻松地启动开发和测试环境,根据不可预测的使用情况自动扩展,并缩短产品上市时间。