发布于: Sep 30, 2020
我们很高兴地宣布,Amazon SageMaker 现已支持 Apache Spark 作为预构建的大数据处理容器。您可以将此容器与 Amazon SageMaker 处理配合着使用,利用完全托管的 Spark 环境进行数据处理或特征工程工作负载。
Apache Spark 是用于大规模数据处理的统一分析引擎。Amazon SageMaker 现在提供预构建的 Docker 映像,包括 Apache Spark 以及运行分布式数据处理作业所需的其他依赖项。管理和扩展用于运行 Spark 作业的基础设施需要开展大量的繁重工作。开发人员和数据科学家花费大量时间来管理用于共享使用的基础设施,并就性能、规模和成本等因素对基础设施进行调整。维护仅在数据处理作业期间使用的持久性 Spark 基础设施非常昂贵,因为未运行作业期间也会产生成本。
利用 Amazon SageMaker 处理和内置 Spark 容器,您可以轻松地大规模运行 Spark 处理作业来准备数据。客户可以享受完全托管的 Spark 环境、按需可扩展的基础设施以及 Amazon SageMaker 的所有安全和合规性功能带来的各种优势。您可以轻松管理 Spark 配置并提交自定义作业来进行分布式处理。在提交作业时,Amazon SageMaker 会管理基础设施的预置、Spark 集群的引导启动、应用程序的运行以及完成时的资源释放。