Amazon EMR Serverless 无需 Apache Spark 工作负载的本地存储预置
发布于:
2025年12月2日
Amazon EMR Serverless 现在提供无服务器存储,无需 Apache Spark 工作负载的本地存储预置,最高可将数据处理成本降低 20%,并防止因磁盘容量限制而导致的作业失败。您不再需要为每个应用程序配置本地磁盘类型和大小。EMR Serverless 可自动处理中间数据操作(例如随机排序),无需支付本地存储费用。您只需为作业消耗的计算和内存资源付费。
EMR Serverless 将中间数据操作分载到完全托管、自动扩展的无服务器存储,后者通过作业级隔离对传输中数据和静态数据进行加密。无服务器存储将存储与计算分离,使 Spark 能在空闲时立即释放工作线程,而不是让工作线程保持活动状态以保留临时数据。其可以消除因磁盘容量不足而导致的作业故障,并通过避免空闲工作线程费用来降低成本。此功能对于使用动态资源分配的作业尤其有价值,例如推荐引擎处理数百万次客户交互的情况。这些作业的初始阶段会以高并行度处理大型数据集,然后随着数据聚合逐步缩减处理规模。
此功能在 EMR 版本 7.12 及更高版本中正式推出。有关可用性,请参阅支持的 AWS 区域。要开始使用,请访问适用于 EMR Serverless 的无服务器存储文档。