亚马逊AWS官方博客

Amazon SageMaker 继续引领 Machine Learning,并宣布使用 GPU 实例可将价格最高降低 18%

自 2006 年以来,Amazon Web Services (AWS) 一直在帮助数百万客户构建和管理他们的 IT 工作负载。从初创公司到大型企业,再到公共部门,各种规模的组织都在使用我们的云计算服务,它们实现了前所未有的安全性、弹性和可扩展性水平。每天,他们都能够以比以往更少的时间和更低的成本进行试验、创新和生产部署。因此,他们可以探索、抓住商业机会,并将其转化为工业级产品和服务。

随着 Machine Learning (ML) 成为客户日益关注的重点,他们要求我们构建具有同样的敏捷性和稳健性的 ML 服务。于是便产生了 Amazon SageMaker,这是一项完全托管的服务, AWS re:Invent 2017 上推出,该服务为每位开发人员和数据科学家提供快速构建、训练和部署 ML 模型的能力。

现在,Amazon SageMaker 正在帮助各行各业数以万计的客户构建、训练和部署高质量模型的生产:金融行业(Euler Hermes、Intuit、Slice Labs、Nerdwallet、Root Insurance、Coinbase、NuData Security、Siemens Financial Services)、医疗保健行业(GE Healthcare、Cerner、Roche、Celgene、Zocdoc)、新闻和媒体行业(Dow Jones、Thomson Reuters、ProQuest、SmartNews、Frame.io、Sportograf)、体育行业(Formula 1、Bundesliga、Olympique de Marseille、NFL、Guiness Six Nations Rugby)、零售行业(Zalando、Zappos、Fabulyst)、汽车行业(Atlas Van Lines、Edmunds、Regit)、约会行业 (Tinder)、酒店行业(Hotels.com、iFood)、工业和制造业(Veolia、Formosa Plastics)、游戏行业 (Voodoo)、客户关系管理行业(Zendesk、Freshworks)、能源行业(Kinect Energy Group、Advanced Microgrid Systems)、房地产行业 (Realtor.com)、卫星图像行业 (Digital Globe)、人力资源行业 (ADP) 等等。

我们曾问客户,他们为什么决定使用 Amazon SageMaker 实现其 ML 工作负载的标准化,我们得到的最常见回答是:“SageMaker 可以消除 ML 过程每一步中千篇一律的繁重工作。”我们拉近镜头,仔细查看,发现了 SageMaker 对客户帮助最大的五个领域。

#1 – 更快地构建安全可靠的 ML 模型
随着很多 ML 模型被用于为业务应用程序和最终用户提供实时预测,从而可以确保它们保持可用性,且快速性是至关重要的。这就是 Amazon SageMaker 终端节点跨多个 AWS 可用区为负载均衡提供内置支持,以及提供内置 Auto Scaling 以根据传入的流量动态调整预置实例数量的原因。

为了提供更高的稳健性和可扩展性,Amazon SageMaker 依赖 TensorFlow Serving多模型服务器TorchServe 等生产级开源模型服务器。AWS 还与 Facebook 合作推出了 TorchServe 作为 PyTorch 项目的一部分,TorchServe 可轻松地大规模部署经过训练的模型,无需编写自定义代码。

除了提供弹性基础设施和可扩展模型之外,您还可以依赖 Amazon SageMaker Model Monitor 捕获可能会发生在终端节点上的预测质量问题。通过保存传入的请求以及传出的预测,并将它们与通过训练集构建的基线进行比较,您可以快速确定并修复功能缺失或数据漂移等问题。

Veolia Water Technologies 首席数字官 Aude Giard 说:“在短短 8 周内,我们与 AWS 合作开发了一个原型,用于预测何时清洗或更换海水淡化装置的滤水膜。使用 Amazon SageMaker,我们构建了一个 ML 模型,从以前的模式中学习并预测污垢指标的未来演变。通过在 AWS 上实现我们的 ML 工作负载的标准化,我们能够降低成本并防止停机,同时改善所生产的水质。如果没有两个团队的技术经验、信任和为了实现持续供应清洁且安全的水而作出的贡献,这些结果就无法实现。”您可以在此视频中了解更多信息。

#2 – 以自己的方式构建 ML 模型
说到构建模型,Amazon SageMaker 可以为您提供很多选项。您可以访问 AWS Marketplace,选择其中一个合作伙伴分享的算法或模型,通过点击几次将它部署到 SageMaker 上。或者,您可以使用其中一个内置算法、您自己为常用的开源 ML 框架(TensorFlow、PyTorch 和 Apache MXNet)编写您的代码或您自己打包在 Docker 容器中的自定义代码训练模型。

您还可以依赖一项颠覆性 AutoML 功能 Amazon SageMaker AutoPilot。不论您有没有 ML 经验,是不是需要探索数百个数据集的经验丰富的从业人员,您只需进行一次 API 调用,SageMaker AutoPilot 即可为您处理一切。它会自动分析数据集、查明您尝试解决的问题类型、构建多个数据处理和训练管道、对它们进行训练,并优化它们以获得最高精确度。此外,数据处理和训练源代码提供在自动生成的笔记本中,您可以查看此笔记本并自行运行此笔记本以进行进一步实验。SageMaker Autopilot 现在还能够以最高快 40% 的速度创建机器学习模型,并使精确度最高提高 200%,即使使用的是小型不均衡的数据集。

另一个常见功能是自动模型调整。不再需要手动探索,也不再需要进行运行数天的昂贵网格搜索作业:使用 ML 优化,SageMaker 可以快速融合到高性能模型中,从而为您节省时间和成本,并让您可以更快地将最佳模型部署到生产环境中。

NerdWallet 依赖数据科学和 ML 为客户提供个性化的金融产品”,高级工程经理 Ryan Kirkman 说。“我们选择在 AWS 上实现 ML 工作负载标准化是因为它使我们能够快速实现数据科学工程实践的现代化,从而消除障碍并加快交付时间。借助 Amazon SageMaker,我们的数据科学家可以将更多时间投入到战略追求上,把更多的精力放在我们的竞争优势上——我们对正在为用户解决的问题的洞察力。”您可以在此案例研究中了解更多信息。
Freshworks Platform 高级产品总监 Tejas Bhandarkar 说:“我们选择在 AWS 上实现 ML 工作负载的标准化是因为我们可以轻松构建、训练和部署针对我们的客户使用案例优化的机器学习模型。得益于 Amazon SageMaker,我们为 11000 名客户构建了 30000 多种模型,同时将训练这些模型的时间从 24 小时缩短到 33 分钟以下。借助 SageMaker Model Monitor,我们可以跟踪数据偏移并重新训练模型,以确保精确度。Freddy AI Skills 由 Amazon SageMaker 提供支持,该服务凭借智能操作、深度数据洞察和目的驱动型对话不断发展。

#3 – 降低成本
构建和管理您自己的 ML 基础设施可能成本高昂,而 Amazon SageMaker 是一个很好的替代选项。事实上,我们发现,与其他选项相比,Amazon SageMaker 的 3 年总体拥有成本 (TCO) 要低 54% 以上,并且最高可以将开发人员的工作效率提高 10 倍。这是因为 Amazon SageMaker 会管理 ML 通常需要的所有训练和预测基础设施,使团队能够专注于研究和解决手头的 ML 问题。

此外,Amazon SageMaker 还包含很多可帮助尽快、尽量经济高效地运行训练作业的功能:最常见的机器学习库的优化版本、网络最高达 100GB 的各种 CPU 和 GPU 实例 ,当然还有让您可以在训练作业上最高节省 90% 费用的托管 Spot 训练。最后但同样重要的一点是,Amazon SageMaker Debugger 可自动确定 ML 训练作业中出现的复杂问题。非生产性作业会提前终止,您可以使用训练期间捕获的模型信息来确定根本原因。

Amazon SageMaker 还可以帮助您削减预测成本。凭借多模型终端节点,您可以在单个预测终端节点上部署多个模型,从而避免运行许多低流量终端节点所需的额外工作和成本。对于需要一些硬件加速而不需要成熟 GPU 的模型,Amazon Elastic Inference 可让您最高节省 90% 的预测成本。另一方面,大规模预测工作负载可以依靠 AWS 设计的自定义芯片 AWS Inferentia,实现比 GPU 实例最多高 30% 的吞吐量,最高降低 45% 的成本。

Lyft 是美国和加拿大最大的交通网络之一,于 2017 年推出了其 5 级自动驾驶汽车事业部,以开发自动驾驶系统帮助数百万乘客。Lyft Level 5 每天会汇总 10TB 以上的数据,为其自动驾驶车队训练 ML 模型。自行管理 ML 工作负载非常耗时而且成本高昂。Lyft Level 5 ML 系统主管 Alex Bain 说:“利用 Amazon SageMaker 分布式训练,我们将模型训练时间从几天缩短到几小时。通过在 AWS 上运行我们的 ML 工作负载,我们简化了开发周期并降低了成本,最终加快了向客户提供自动驾驶功能的使命。

#4 – 构建安全且合规的 ML 系统
安全始终是 AWS 的重中之重。这对于金融服务或医疗保健等受监管行业的客户来说尤为重要,因为他们必须以最高级别的安全性和合规性来实施解决方案。为此,Amazon SageMaker 实施了很多安全功能,使其能够符合以下全球标准:SOC 1/2/3、PCI、ISO、FedRAMP、DoD CC SRG、IRAP、MTCS、C5、K-ISMS、ENS High、OSPAR 和 HITRUST CSF。同时,它还符合 HIPAA BAA。

Intuit 首席数据官 Ashok Srivastava 说:“使用 Amazon SageMaker,我们可以通过在平台上构建和部署算法来大规模加快我们的人工智能计划。我们将创建新型的大规模机器学习和 AI 算法,并将它们部署在这个平台上,以解决复杂的问题,为我们的客户带来成功。”

#5 – 标注数据并保持人类的循环
正如 ML 从业人员所知,将数据转换为数据集需要大量的时间和精力。为了帮助您节省时间和精力,作为一项完全托管的数据标签服务,Amazon SageMaker Ground Truth 可以轻松地以任何规模标注和构建高度精确的训练数据集(文本、图像、视频3D 点云数据集)。

AstraZeneca 病理研究总监 Magnus Soderberg 说:“AstraZeneca 一直在研究和开发的各个阶段进行机器学习试验,最近还在病理学方面进行机器学习试验,以加快组织样本的审查过程。机器学习模型首先从具有代表性的大型数据集中学习。标记数据是另一个耗时的步骤,尤其是在这种情况下,需要数千张组织样本图像才能训练精确的模型。AstraZeneca 使用一项由机器学习支持的人工数据标记和标注服务 Amazon SageMaker Ground Truth 自动执行这项工作中最乏味的部分,使编目样本所花费的时间至少降低 50%。

Amazon SageMaker 已经过评估
Amazon SageMaker 自推出以来,增加了数百个新功能,这证明了我们一直在代表客户不断进行创新。事实上,该服务 2020 年 2 月被评为 Gartner 云 AI 开发人员服务魔力象限总体领导者。Gartner 订阅者可以单击此处,详细了解我们在“2020 年 7 月 Amazon SageMaker 解决方案记分卡”中的总评分为什么是 84/100(该评分是同行中的最高评分)。据 Gartner 报告,我们满足了 87% 的必要标准、73% 的首选标准和 85% 的可选标准。

宣布降低 GPU 实例的价格

为了感谢客户的信任,并表明我们将继续致力于把 Amazon SageMaker 打造成最好、最经济高效的 ML 服务,我非常高效地宣布对所有的 ml.p2ml.p3 GPU 实例大幅降价。自 10 月 1 日起,它将在所有的 SageMaker 组件以及以下区域中应用:美国东部(弗吉尼亚北部)、美国东部(俄亥俄)、美国西部(俄勒冈)、欧洲(爱尔兰)、欧洲(法兰克福)、欧洲(伦敦)、加拿大(中部)、亚太地区(新加坡)、亚太地区(悉尼)、亚太地区(首尔)、亚太地区(东京)、亚太地区(孟买)和 AWS GovCloud (US-Gov-West)。

实例名称 降价
ml.p2.xlarge -11%
ml.p2.8xlarge -14%
ml.p2.16xlarge -18%
ml.p3.2xlarge -11%
ml.p3.8xlarge -14%
ml.p3.16xlarge -18%
ml.p3dn.24xlarge -18%

Amazon SageMaker 入门
正如您所看到的,Amazon SageMaker 拥有很多令人兴奋的功能,建议您试用它们! Amazon SageMaker 已在全球范围推出,因此,您可以轻松开始处理自己的数据集。该服务属于 AWS 免费套餐的一部分,新用户可以在前两个月免费使用该服务数百个小时。

如果您想了解此服务有无问题,本教程将让您在几分钟内开始使用。您将了解如何使用 SageMaker Studio 基于 XGBoost 算法构建、训练和部署分类模型。

最后但同样重要的一点是,我刚出版了一本书“Learn Amazon SageMaker”,这本书一共 500 页,详细说明了所有的 SageMaker 功能,插图由 60 多个原始 Jupyter 笔记本提供。它应该能帮助您马上赶上进度。

如往常一样,我们期待您的反馈。请与您的常用 AWS Support 联系人或在 SageMaker 的 AWS 论坛上分享它。

– Julien