发布于: May 1, 2024

Amazon EMR Serverless 是 Amazon EMR 中的一个无服务器选项,使用该功能,数据工程师和数据科学家可以轻松运行开源大数据分析框架,而无需配置、管理和扩展集群或服务器。EMR Serverless 应用程序使用工作线程来执行工作负载,允许用户根据工作负载的需求为每个工作线程配置临时存储。今天,我们很高兴在 Amazon EMR Serverless 上推出 Shuffle 优化型磁盘,它提供了更大的存储容量(高达 2TB)和更高的 IOPS,为 I/O 密集型 Spark 和 Hive 工作负载提供更好的性能。

Shuffle 是 Apache Spark 或 Apache Hive 任务中的一个基本步骤,涉及 I/O 密集型操作,用于在联接、聚合或转换等操作期间重新分配或重新组织数据以进行并行计算。要对大型数据集进行随机处理的复杂工作负载需要足够的磁盘容量和 I/O 性能进行优化的随机处理。Shuffle 优化型磁盘可提供高达 2TB 的存储容量和更高的基准 IOPS,使您能够高效地运行需要大量随机处理和 I/O 密集型 Spark 和 Hive 工作负载。

Shuffle 优化型磁盘现已在提供 EMR Serverless 的所有 AWS 区域(不包括 AWS GovCloud(美国)和中国区域)在 EMR 发行版本 7.1.0 上全面推出。有关 Shuffle 优化型磁盘的更多信息,请访问 EMR Serverless 用户指南。有关 Shuffle 优化型磁盘的定价信息,请访问 EMR Serverless 定价页面