发布于: Nov 30, 2022
今天,我们很高兴地宣布支持部署 Data Wrangler 中创建的数据准备流,以实现实时和批处理串行推理管道,并对 Amazon SageMaker Data Wrangler 中的 Data Wrangler 处理作业进行附加配置。
Amazon SageMaker Data Wrangler 可以缩短时间以快速制作原型并将数据处理工作负载部署到生产环境,而且可以通过 SageMaker Processing API 轻松集成 CI/CD 管道和 MLOps 生产环境。在使用 Data Wrangler 运行和计划数据处理工作负载以准备用来训练 ML 模型的数据时,客户需要针对他们的数据准备工作负载大规模自定义 Spark 内存和输出分区设置。然后,客户处理数据并训练 ML 模型后,他们需要部署数据转换管道和 SageMaker Endpoint 背后的 ML 模型,以实时推理和批处理推理用例。之后,客户需要从头开始创建数据处理脚本,在推理时运行与训练模型时应用的相同数据处理步骤。模型完成部署之后,他们需要确保训练和部署脚本保持同步。
通过此次发布,您现在可以在运行 Data Wrangler 处理作业时轻松配置 Spark 内存配置和输出分区格式,以大规模处理数据。现在,在准备数据并训练 ML 模型之后,您可以轻松地一起部署数据转换管道(也称为“数据流”)和 ML 模型,将其作为串行推理管道的一部分,支持批处理和实时推理应用。您现在还可以通过 SageMaker Model Registry 注册您的 Data Wrangler 数据流。您可以开始部署 Data Wrangler 数据流以进行实时推理,方法是单击 Data Wrangler 中“数据流”视图中的“导出到 > 推理管道(通过 Jupyter Notebook)”。Spark 内存设置现在可以配置为创建作业流程的一部分,分区可以配置为目的地节点设置的一部分。