发布于: Nov 28, 2023
现在,借助 Amazon EMR 和 Amazon S3 Express One Zone 存储类,您可以将 Apache Spark 应用程序的数据处理和分析速度提高到 S3 Standard 的 4.0 倍。 S3 Express One Zone 是一种高性能的单可用区存储类,旨在为最频繁访问的数据和延迟敏感型应用程序提供稳定的毫秒级数据访问性能。
Amazon EMR 是行业领先的云端大数据解决方案,适用于使用在 AWS 上针对 PB 级数据优化的开源框架进行数据处理、交互式分析和机器学习。如果您的性能关键型工作负载采用的是服务水平协议 (SLA),例如数据湖更新的任务完成时间要求,或者需要快速响应 BI 控制面板报告,那么当您在 EC2 集群上运行 EMR Spark 应用程序时,请使用 S3 Express One Zone。
S3 Express One Zone 可在提供 S3 Express One Zone 的 AWS 区域与 Amazon EMR 6.15.0 版本一起使用。要开始使用这项功能,请将您的数据移至 S3 Express One Zone 存储,并使用 Spark 代码中的 S3a 连接器来读取和写入数据。S3a 是 EMR 用来处理 S3 对象的连接器,S3 Express One Zone 存储桶需要使用 S3a 连接器。要了解更多信息,请参阅 Amazon EMR 文档中的使用 EMR 处理 S3 Express One Zone 中的数据。