跳至主要内容

使用 Amazon SageMaker AI 和 MLflow 加速生成式人工智能开发

利用 MLflow 3.0 高效、大规模地管理机器学习和生成式人工智能生命周期

为什么要使用 Amazon SageMaker 和 MLflow?

Amazon SageMaker 提供托管式 MLflow 功能,用于机器学习(ML)和生成式人工智能实验。借助此功能,数据科学家可以轻松地在 SageMaker 上使用 MLflow 进行模型训练、注册和部署。管理员可以在 AWS 上快速设置安全且可扩展的 MLflow 环境。数据科学家和机器学习开发人员可以高效地跟踪机器学习实验,为业务问题找到适配的模型。

Amazon SageMaker AI 和 MLflow 3.0 的优势

数据科学家可以使用 MLflow 跟踪基础模型微调期间生成的所有指标,评估模型,使用样本数据测试模型,在 MLflow UI 上并排比较每个模型的输出,并为其使用案例注册正确的模型。注册模型后,机器学习工程师可以将模型部署到 SageMaker 推理中。
您无需管理托管 MLflow 所需的任何基础设施。数据科学家可以使用所有 MLflow 开源功能,管理员无需担心基础设施开销。这样就能节省设置数据科学环境的时间和成本。MLflow 与 Amazon Identity and Access Management(IAM)集成,因此您能为 MLflow 跟踪服务器设置基于角色的访问控制(RBAC)。
在 MLflow 中注册的模型将使用相关的 Amazon SageMaker 模型卡片自动注册到 Amazon SageMaker 模型注册表。如此一来,数据科学家无需切换环境即可将其模型移交给机器学习工程师进行生产部署。机器学习工程师可以将模型从 MLflow 部署到 SageMaker 端点,而无需构建自定义容器或重新打包 MLflow 模型构件。
随着 MLflow 项目的发展,SageMaker AI 的客户将受益于 MLflow 社区的开源创新,同时享受 AWS 提供的基础设施管理服务。
客户能够通过完全托管式 MLflow 3.0 中的跟踪功能记录生成式人工智能开发每个步骤的输入、输出和元数据,从而帮助团队快速定位错误或异常行为的来源。通过维护每个模型和应用程序版本的记录,完全托管式 MLflow 3.0 提供可追溯性,将人工智能响应连接到其源组件,从而使开发人员能够快速跟踪问题,直接找到导致该问题的具体代码、数据或参数。

随时随地跟踪实验

机器学习实验在不同的环境中进行,包括本地笔记本电脑、IDE、基于云的训练代码或 Amazon SageMaker Studio 中的托管式 IDE。使用 SageMaker AI 和 MLflow,您可以使用自己的首选环境来训练模型,在 MLflow 中跟踪实验,以及直接启动或通过 SageMaker Studio 启动 MLflow UI 进行分析。

Screenshot of the Amazon SageMaker Studio interface showing the MLflow experiment logging feature, with application options such as JupyterLab, RStudio, and MLflow, and Python code for machine learning experiment tracking and autologging within the Studio environment.

利用 MLflow 3.0 加速生成式人工智能的开发

构建基础模型是一个迭代过程,涉及数百次训练迭代,旨在找到最佳算法、架构和参数,从而实现最佳模型精度。完全托管式 MLflow 3.0 使您能够跟踪生成式人工智能实验、评估模型性能,并从实验阶段深入到生产阶段,更全面地了解模型和人工智能应用程序的行为。通过单一界面,您可以直观地查看训练作业的进度、在实验过程中与同事协作,并为每个模型和应用程序维护版本控制。MLflow 3.0 还提供高级跟踪功能,能够记录人工智能开发过程中每一步的输入、输出和元数据,使您能够迅速找出错误或异常行为的来源。

Screenshot of the MLflow 2.13.2 experiment metadata management dashboard displaying experiment runs, evaluation metrics, and a comparison chart of model accuracy for different runs.

评估实验

需要分析和比较模型性能,才能从多次迭代中确定最佳模型。MLflow 提供散点图、条形图和直方图等可视化内容来比较训练迭代。此外,MLflow 允许评估模型,以确定偏差和公平性。

Screenshot of an MLflow interface comparing 3 runs from 1 experiment, displaying a contour plot visualization with accuracy on the X-axis, F1 score on the Y-axis, and precision on the Z-axis.

集中管理 MLflow 模型

多个团队经常使用 MLflow 来管理他们的实验,而只有部分模型会成为生产候选模型。组织需要一种简单的方法来跟踪所有候选模型,从而作出关于哪些模型要继续前往生产流程的明智决策。MLflow 能与 SageMaker 模型注册表无缝集成,如此一来,组织便能看到他们在 MLflow 上注册的模型自动出现在 SageMaker 模型注册表中,并附有用于治理的 SageMaker 模型卡片。这种集成能让数据科学家和机器学习工程师使用不同的工具来完成各自的任务:可将 MLflow 用于实验,将 SageMaker 模型注册表用于通过全面的模型沿袭来管理生产生命周期。

Screenshot of the MLflow model overview page in Amazon SageMaker showing details for the model 'flawless-jay-491', including a Finished status, creation date, experiment ID, source, logged models, and other metadata.

将 MLflow 模型部署到 SageMaker 端点

将模型从 MLflow 无缝部署到 SageMaker 端点,如此一来就不再需要为模型存储构建自定义容器。这种集成使客户能够利用 SageMaker 经过优化的推理容器,同时保留 MLflow 用于记录和注册模型的用户友好体验。

Screenshot of the SageMaker Studio interface displaying the metrics overview for an MLflow Model Version. The screen shows version 10 of an Iris Random Forest Model with metrics including accuracy, precision, recall, and F1 score, as well as the status of training, evaluation, audit, and deployment.