Amazon SageMaker

大规模构建、训练和部署机器学习模型

Amazon SageMaker 是一项完全托管的服务,使开发人员和数据科学家能够快速轻松地以任何规模构建、训练和部署机器学习模型。Amazon SageMaker 消除了通常会阻碍开发人员使用机器学习的所有障碍。

大多数开发人员通常觉得机器学习要比它本身难得多,因为构建和训练模型,然后将其部署到生产中的流程过于复杂,并且速度太慢。首先,您需要收集和准备训练数据,以发现数据集中哪些是重要元素。然后,您需要选择要使用的算法和框架。确定方法后,您需要通过训练教模型如何进行预测,这需要大量的计算。接下来,您需要调整模型,以交付可能的最佳预测,这通常需要繁琐的手动工作。开发出经过完全训练的模型后,您需要将该模型与您的应用程序集成,并在可扩展的基础设施上部署此应用程序。这一切操作都需要大量的专业知识,需要访问大量的计算和存储,并需要大量的时间对流程的各个方面进行试验和优化。如此看来,大多数开发人员觉得这一切都无法实现也并不奇怪。

Amazon SageMaker 消除了阻碍开发人员成功完成每个步骤的复杂性。Amazon SageMaker 包含一些可同时或单独用以构建、训练和部署机器学习模型的模块。

Amazon SageMaker 简介

工作原理

构建

Amazon SageMaker 提供了快速连接到您的训练数据所需的所有内容,从而轻松构建 ML 模型并为训练做好准备,并且还可以轻松为您的应用程序选择和优化最佳算法和框架。Amazon SageMaker 包含托管的 Jupyter 笔记本,您可以轻松浏览和可视化在 Amazon S3 中存储的训练数据。您可以直接连接到 S3 中的数据,或者使用 AWS Glue 将数据从 Amazon RDS、Amazon DynamoDB 和 Amazon Redshift 移动到 S3 以在笔记本中进行分析。

为了帮助您选择算法,Amazon SageMaker 包含 12 种最常见的机器学习算法,已预装并优化了这些算法,与在任何其他地方运行这些算法相比,可以将性能提高 10 倍。Amazon SageMaker 还预先进行配置以运行 TensorFlow 和 Apache MXNet,这是两种最常见的开源框架。您也可以选择使用自己的框架。

训练

只需单击一下,您就可以在 Amazon SageMaker 控制台中开始训练您的模型。Amazon SageMaker 为您管理所有底层基础架构,并且可以轻松以 PB 级扩展以训练模型。为了使训练过程更快更轻松,Amazon SageMaker 可以自动调整您的模型以达到最高的精度。

部署

在训练并调整您的模型后,Amazon SageMaker 可以轻松在生产环境中部署该模型,以便您可以开始针对新数据生成预测 (该过程称为推理)。Amazon SageMaker 在跨多个可用区的 Amazon EC2 实例自动扩展集群上部署您的模型以实现高性能和高可用性。Amazon SageMaker 还包含内置的 A/B 测试功能,以帮助您测试模型并试验不同的版本以获得最佳效果。

Amazon SageMaker 承担了机器学习的繁重工作,因此,您可以快速轻松地构建、训练和部署机器学习模型。

优势

使用机器学习快速部署到生产中

Amazon SageMaker 可显著缩短训练、调整和部署机器学习模型所需的时间。 Amazon SageMaker 可管理和自动使用所有复杂的训练和调整技术,因此您可以将模型快速部署到生产中。

选择任意框架或算法

Amazon SageMaker 支持所有机器算法和框架,因此您可以使用自己已经熟悉的技术。Apache MXNet 和 TensorFlow 已预先安装,Amazon SageMaker 可提供大量内置的高性能机器学习算法。如果您想使用其他框架或算法进行训练,可以在 Docker 容器中应用您自己的框架或算法。

一键式训练和部署

使用 Amazon SageMaker,您只需在控制台中单击一下或通过一个简单的 API 调用,即可开始训练模型。训练完成并且您已做好准备部署模型后,只需在 Amazon SageMaker 控制台中单击一下,即可启动该模型。

轻松与您的现有工作流程集成

Amazon SageMaker 采用三个模块设计,这些模块可同时使用或单独作为您可能已准备好的任何现有 ML 工作流程的一部分使用。

轻松访问经过训练的模型

Amazon SageMaker 提供了可从任意应用程序调用的 HTTPS 终端节点,可轻松地将机器学习模型集成到您的应用程序中。

SageMaker 客户

使用任意深度学习框架进行培训

借助 Amazon SageMaker,您可以随意选择深度学习框架用以模型培训。Amazon SageMaker 已经过预先配置,可运行两种热门深度学习框架:TensorFlow 和 Apache MXNet。您也可以使用自己的 Docker 容器配备任意框架,如 Caffe2、PyTorch、Microsoft Cognitive Toolkit (CNTK) 或 Torch。

 

TensorFlow
Apache MXNet
Gluon
Caffe2
PyTorch
Keras
Microsoft Cognitive Toolkit
Torch

使用案例

广告定向

将 Amazon SageMaker 和其他 AWS 产品结合使用可帮助您优化广告支出回报。Amazon SageMaker 可以轻松训练和部署机器学习模型,这些模型可以更有效地投放有针对性的在线广告,提供更好的客户互动,实现更多的客户转换。推荐系统、点击预测、客户细分和生命周期价值提升模型均可在 Amazon SageMaker 的无服务器分布式环境中训练。模型构建完成后,便可轻松在可扩展的低延迟终端节点中托管或传递到其他实时出价系统中。

信贷违约预测

Amazon SageMaker 可以更轻松地预测信贷违约的可能性,这是一种常见的机器学习问题。Amazon SageMaker 可与 Amazon Redshift、Amazon EMR 和 AWS Glue 等现有分析框架紧密集成,使您能够在 Amazon S3 数据湖中发布各种大型数据集,然后快速转换数据集,构建机器学习模型,并立即将其托管,以便用于在线预测。

工业 IoT 和机器学习

工业 IoT 和机器学习可支持实时预测,以预测机械故障或维护安排,从而进一步提高效率。  生成的物理资产、进程或系统的数字孪生或复制品可作为模型来预测预防性维护或优化复杂机器或工业流程的输出。对于可能发生的任何变化,此模型可以不断更新以近乎实时地“学习”。

供应链和需求预测

Amazon SageMaker 为庞大的电子商务环境下的每个产品提供了开发单个销售预测所需的基础架构和算法。Amazon SageMaker 仅依靠时间序列和产品类别数据,便可获取季节性、趋势和产品相似性信息,即使对于新产品也能提供准确的预测。

点击率预测

Amazon SageMaker 提供了 XGboost 算法的单机和分布式 CPU 实施,这些算法在多个分类、回归和排名使用案例 (如广告点击率预测) 中非常有用。点击预测系统是大多数在线广告系统的核心,因为尽可能预测最为准确的点击率 (CTR) 以确保消费者获得最佳体验至关重要。使用 XGBoost 算法,您可以运行实时预测程序并返回带有评分的预测结果。然后,您可以决定是否投放特定广告商的广告,并改善展示广告中的 CTR 预测。

预测内容质量

Amazon SageMaker 有许多工具适用于预处理和查找文本中的结构,并使用这些信息来预测内容质量。您可以生成单词嵌入,以便在大型文本卷中查找类似的语义和句法单词,并将相似的单词组合在一起以避免稀疏。然后,使用 Amazon SageMaker 的高级主题模型独立地聚类相似文档。最后,在降维分组单词数据上通过聚类建立独立的分类模型,以确定是否需要对文档进行调整。

详细了解 Amazon SageMaker

访问功能页面
准备好开始构建?
开始使用 Amazon SageMaker