亚马逊AWS官方博客
Amazon SageMaker JumpStart 简化了对预构建模型和机器学习解决方案的访问过程
今天,我很高兴地宣布我们将推出 Amazon SageMaker JumpStart,这是 Amazon SageMaker 的一项功能,使用该功能可以一键访问热门模型集合(也称为“模型动物园”)以及常见使用案例的端到端解决方案,从而加速机器学习的工作流程。
近年来,事实证明机器学习 (ML) 是一项能够改进和自动执行业务流程的宝贵技术。的确,基于历史数据训练的模型可以准确预测金融服务、零售、制造、电信、生命科学等各行业各领域的结果。然而,只有一部分科学家和开发人员才具备相应的技能和经验来使用这些模型,如准备数据集、选择算法、训练模型、优化模型准确性、将模型部署到生产环境以及监控模型在一段时间内的性能。
为了简化模型构建过程,机器学习社区创建了模型动物园,这是一种使用热门开源库构建的模型集合,通常使用参考数据集对它们进行预训练。例如,TensorFlow Hub 和 PyTorch Hub 为开发人员提供了一长串可供下载的模型列表,且这些模型可以集成到计算机视觉、自然语言处理等应用程序中。
尽管如此,下载模型只完成了一半工作。然后,开发人员需要使用各种工具(例如 TensorFlow Serving 和 TorchServe 模型服务器)或通过自己专门编写的代码,部署模型来进行评估和测试。模型运行后,开发人员需要确认传入数据的正确格式,这是长久以来的的一个难题。我敢肯定我不是唯一一个经常因此抓耳挠腮的人!
当然,完整的机器学习应用程序通常包含很多活动部件。数据需要先进行预处理,然后用从后端获取的其他数据来丰富内容,最后将这些数据汇集到模型。预测通常会进行后处理,然后存储起来以备进一步分析和可视化。尽管模型动物园很有用,但它们只能在建模部分起作用。开发人员还需要做大量额外的工作来提供完整的机器学习解决方案。
正因为如此,机器学习专家淹没在大量积压的项目中,都在等待他们开始工作。同时,经验不足的从业者又很难上手。这些障碍令人沮丧,简直难以置信,因此客户要求我们解决这些问题。
Amazon SageMaker JumpStart 简介
Amazon SageMaker JumpStart 现已集成到 Amazon SageMaker Studio 中,这是用于机器学习的完全集成开发环境 (IDE),可直观地发现模型、解决方案等。发布的 SageMaker JumpStart 包括:
- 超过 15 个端到端解决方案,适用于常见机器学习使用案例,例如欺诈检测、预测性维护等等。
- 来自 TensorFlow Hub 和 PyTorch Hub 的 150 多个模型,用于计算机视觉(图像分类、物体检测)和自然语言处理(语句分类、回答问题)。
- Amazon SageMaker 中提供的内置算法笔记本示例。
SageMaker JumpStart 还提供笔记本、博客和视频教程,旨在帮助您学习和消除障碍。Amazon SageMaker Studio 中可以轻松访问相关内容,以便您够更快地开始使用机器学习。
您只需单击一下即可部署解决方案和模型。所有基础设施都是完全托管的,在部署过程中,您尽可享用一杯美味的香茶或咖啡。借助于 Amazon SageMaker Studio 中现成的笔记本电脑和示例预测代码,几分钟后,您就可以开始测试。当然,您也可以轻松地修改它们,以使用自己的数据。
通过 SageMaker JumpStart ,无论是经验丰富的从业人员还是初学者都可以非常轻松地快速部署及评估模型和解决方案,从而节省数天甚至数周的工作时间。SageMaker JumpStart 大幅度缩短了从实验到生产的路径,从而加速了机器学习驱动的创新,尤其是对于那些刚刚涉足机器学习领域但尚未积累大量技能和经验的组织和团队。
现在,让我为您展示 SageMaker JumpStart 的工作原理。
使用 Amazon SageMaker JumpStart 部署解决方案
打开 SageMaker Studio,选择左侧的“JumpStart”图标。系统随即会打开一个新选项卡,显示所有可用内容(解决方案、模型等等)。
假设我对于运用计算机视觉来检测制造产品中的缺陷很感兴趣。机器学习可以解决这个问题吗?
浏览可用解决方案列表,我看到了一项用于产品缺陷检测的解决方案。
打开此方案就可以了解方案的更多信息,如解决的问题类型、演示中使用的示例数据集、涉及的 AWS 服务等等。
只需单击一下即可部署此解决方案。 AWS CloudFormation 将在后台使用内置模板来预置所有适当的 AWS 资源。
几分钟后,该解决方案部署完毕,我可以打开笔记本了。
笔记本立即在 SageMaker Studio 中打开。然后我运行演示,了解机器学习如何帮助我检测产品缺陷。对于我自己的项目来说,这也是一个很好的起点,我可以轻松实验自己的数据集(可以随时点击下面的图片放大)。
完成这个解决方案任务后,我就可以一键删除其中所有资源,AWS CloudFormation 即会进行清理,无需担心遗留闲置的 AWS 资源。
现在,让我们来看看模型。
使用 Amazon SageMaker JumpStart 部署模型
SageMaker JumpStart 中具备 TensorFlow Hub 和 PyTorch Hub 提供的大量模型集合。这些模型已通过参考数据集进行了预训练,您可以直接用其处理各种计算机视觉和自然语言处理任务。您还可以借助自己的数据集对它们微调以提高准确性,这项技术称为迁移学习。
我在此选择的是接受过问答训练的 BERT 模型的版本。我可以按原样部署模型,也可以对模型进行微调。为了简单的展示,我在这里选择前者,只需点“Deploy”(部署)按钮即可。
几分钟后,该模型已部署到由完全托管的基础设施提供支持的实时终端节点了。
是时候测试模型了! 点击“Open Notebook”(打开笔记本)会启动一个示例笔记本,我可以立即运行该笔记本来测试模型,而无需更改任何代码(依然可以随时点击下面的图片放大)。我在这里提出了两个问题(“What is Southern California often abbreviated as?”和“Who directed Spectre?”),并上传了一些包含答案的背景资料。对于这两个问题,BERT 模型均给出了正确答案,分别是“socal”和“Sam Mendes”。
完成测试后,我只需点击一下即可删除终端节点,然后停止付费。
开始使用
如您所见,即使您几乎没有或根本没有机器学习的技能,也可以使用 SageMaker JumpStart 非常轻松地在几分钟内部署模型和解决方案。
您现在就可以在推出 SageMaker Studio 的所有区域使用此功能,而且此功能不会产生额外费用。
立即试用,并向我们提供反馈。
我们始终期待您的反馈,您可通过您常用的 AWS Support 联系方式或者 SageMaker 的 AWS 论坛提供反馈。
特别感谢我的同事 Jared Heywood 在早期测试阶段提供的宝贵帮助。