一般性问题

问:什么是 Amazon SageMaker?

Amazon SageMaker 是一项完全托管的服务,可以帮助开发人员和数据科学家快速构建、训练和部署机器学习 (ML) 模型。SageMaker 完全消除了机器学习过程中每个步骤的繁重工作,让开发高质量模型变得更加轻松。

问:Amazon SageMaker 在哪些区域提供?

有关支持 Amazon SageMaker 的 AWS 区域的列表,请访问 AWS 区域表了解所有 AWS 全球基础设施。有关更多信息,另请参阅 AWS 一般参考中的区域和终端节点

问:Amazon SageMaker 的服务可用性水平如何?

Amazon SageMaker 旨在提供高可用性。没有维护时段或计划停机时间。SageMaker API 在 Amazon 稳定可靠且具有高可用性的数据中心中运行,相关的服务堆栈会在每个 AWS 地区中的三处数据中心进行复制配置,以实现容错,防止服务器故障或可用区中断等事故导致的损失。

问:Amazon SageMaker 有哪些安全防护保障?

Amazon SageMaker 可以确保机器学习模型项目和其他系统项目在传输中和静态下全部经过加密。对 SageMaker API 和控制台发出的请求全部通过安全 (SSL) 连接进行。您可以为 SageMaker 分配 AWS Identity and Access Management 角色,为其提供资源访问权限以便进行训练和部署。您可以将加密的 Amazon S3 存储桶用于模型项目和数据,并为 SageMaker 笔记本、训练作业和终端节点分配 KMS 密钥来加密挂载的 ML 存储卷。Amazon SageMaker 还支持 Amazon Virtual Privacy Cloud (VPC) 和 AWS PrivateLink 支持。

问:Amazon SageMaker 如何保护我的代码安全?

Amazon SageMaker 将代码存储在 ML 存储卷上,通过安全组保证安全,并可以选择在静态时加密。

问:Amazon SageMaker 是如何收费的?

您需要为用于托管笔记本、训练模型、执行预测和记录输出日志的 ML 计算、存储和数据处理资源付费。借助 Amazon SageMaker,您可以选择用于托管笔记本、训练和模型托管的实例的数量和类型。您只需按您的实际用量付费;既没有最低费用,也无需预付费。有关详细信息,请参阅 Amazon SageMaker 定价页面

问:如果我有自己的笔记本以及训练或托管环境,会怎么样?

Amazon SageMaker 提供完整的端到端工作流,但是您能够继续将现有工具与 SageMaker 结合使用。您可以根据业务需求将每个阶段的结果轻松传入和传出 SageMaker。

问:Amazon SageMaker 是否支持 R?

是,Amazon SageMaker 支持 R。您可以在 SageMaker 笔记本实例中使用 R,该实例包括预装的 R 内核和 reticulate 库。Reticulate 为 Amazon SageMaker Python 开发工具包提供了 R 接口,使机器学习从业人员能够构建、训练、调整和部署 R 模型。 

问:如何检查模型中的不平衡?

Amazon SageMaker Clarify 通过检测整个 ML 工作流中的统计偏差来帮助提高模型的透明度。SageMaker Clarify 在数据准备期间、训练之后以及随时间推移检查是否存在不平衡,同时包括有助于解释 ML 模型及其预测的工具。可通过可解释性报告共享发现。

问:Amazon SageMaker Clarify 可检测出哪种偏差?

在 ML 模型中测量偏差是缓解偏差的第一步。偏差可以在训练之前和训练之后进行测量,也可以用于推理出已部署的模型。每种偏差的度量都对应于不同的公平概念。即使考虑简单的公平概念,也会导致适用于各种情况的许多不同措施。我们需要选择对正在调查的应用程序和情况有效的偏差概念和度量。目前,我们支持针对训练数据(作为 SageMaker 数据准备的一部分)、训练后的模型(作为 SageMaker Experiments 的一部分)和已部署模型的推理(作为 SageMaker Model Monitor 的一部分)计算不同偏差度量。例如,在训练之前,我们提供一些指标来检查训练数据是否具有代表性(即,一组的代表性是否不足)以及各组之间标签分配的差异。在训练之后或部署期间,我们的指标可有助于衡量模型性能在各个组之间是否有所不同(以及相差多少)。例如,我们可以从比较错误率(模型的预测不同于真实标签的可能性)开始,或进一步细分为精度(肯定的预测正确的可能性)和召回率(模型正确标签正面示例的可能性)。

问:Amazon SageMaker Clarify 如何提高模型的可解释性?

Amazon SageMaker Clarify 与 SageMaker Experiments 集成提供功能重要性图表,以详细说明模型训练之后,每个输入对于模型总体决策过程的重要性。这些详细信息有助于确定特定模型输入对整体模型行为的影响是否比应有影响更大。SageMaker Clarify 还可以通过 API 提供对单个预测的解释,以便面向客户或利益相关者的员工使用。
 

问:什么是 Amazon SageMaker Studio?

Amazon SageMaker Studio 提供了一个基于 Web 的可视化界面,您可以通过该界面执行所有 ML 开发步骤。借助 SageMaker Studio,您可以全面掌控构建、训练和部署模型的每个步骤。您可以快速上传数据、创建新笔记本、训练和调优模型,在步骤之间来回移动以调整实验、对比结果以及将模型部署到生产环境中,而且上述所有工作都在一个地方完成,大大提升了工作效率。您可以在统一的 SageMaker Studio 可视化界面中执行所有 ML 开发活动,包括笔记本、实验管理、自动创建模型、调试和分析以及模型偏差检测。

问: Amazon SageMaker Studio 如何定价?

使用 Amazon SageMaker Studio 不收取额外费用。您只需为在 Amazon SageMaker Studio 中使用的服务支付基础计算和存储费用。

问:哪些区域支持 Amazon SageMaker Studio?

您可以在此处的文档中找到支持 Amazon SageMaker Studio 的区域。

低代码机器学习

问:什么是 Amazon SageMaker Autopilot?

Amazon SageMaker Autopilot 是业内首个自动化机器学习功能,可让您完全掌控 ML 模型。只需单击几下,SageMaker Autopilot 即可自动检查原始数据、应用功能处理器、选择最佳算法集、训练和调优多个模型、跟踪模型性能以及根据性能对模型进行排名。如此一来,您无需像通常情况下训练模型那样耗费时间,只需很少的时间即可部署性能最佳的模型。您可以全面了解模型的创建方式以及模型内容。此外,SageMaker Autopilot 已与 Amazon SageMaker Studio 集成。您可以深入了解 SageMaker Autopilot 在 SageMaker Studio 中生成的 50 余种不同模型,轻松为您的使用案例选择最佳模型。SageMaker Autopilot 适用于各类人群,不具备机器学习经验的人员可以使用它轻松生成模型,经验丰富的开发人员可以使用它快速开发基准模型,供团队进一步迭代。

问:Amazon SageMaker Autopilot 与 Amazon Personalize 和 Amazon Forecast 等垂直行业 AI 服务有什么区别?

Amazon Personalize 和 Amazon Forecast 专门针对个性化推荐和预测使用场景,而 Amazon SageMaker Autopilot 是一种通用的自动机器学习解决方案,用于分类和回归问题,例如欺诈检测、客户流失分析和定向营销。Personalize and Forecast focus 打包提供训练和模型托管服务,重点关注简化端到端体验。您可以使用 Amazon SageMaker Autopilot 来训练模型,并自由使用这些模型及其生成的管道。然后您可以将模型部署到自己选择的托管环境中,或者进一步迭代以提高模型质量。

问:Amazon SageMaker Autopilot 支持哪些内置算法?

Amazon SageMaker Autopilot 在推出时支持 2 种内置算法:XGBoost 和 Linear Learner。

问:能否手动停止 Amazon SageMaker Autopilot 作业?

可以。您可以随时停止某项作业。停止一项 Amazon SageMaker Autopilot 作业时,所有正在进行的试验都将停止,也不会开始新的试验。

问:如何快速开始使用 Amazon SageMaker?

Amazon SageMaker JumpStart 可帮助您快速轻松地开始机器学习。SageMaker JumpStart 为最常见的用例提供了一套解决方案,只需单击几下即可轻松部署。这些解决方案是完全可定制的,并展示了 AWS CloudFormation 模板和参考架构的使用,因此可以加快您的机器学习进程。SageMaker JumpStart 还支持一键式部署和 150 多种流行的开源模型的微调,例如转换器、对象检测和图像分类模型。
 

问:Amazon SageMaker JumpStart 支持哪些开源模型?

Amazon SageMaker JumpStart 包括来自 PyTorch Hub 和 TensorFlow Hub 的 150 多种经过预先训练的开源模型。对于图像分类和对象检测等视觉任务,您可以利用 ResNet、MobileNet 和 Single-Shot Detector (SSD) 等模型。对于句子分类、文本分类和问题回答等文本任务,您可以使用 BERT、RoBERTa 和 DistilBERT 等模型。

问:Amazon SageMaker Jumpstart 预构建了哪些解决方案?

SageMaker JumpStart 包含的解决方案已预先配置所有必需的 AWS 服务,以将解决方案投入生产。解决方案是完全可定制的,因此您可以轻松修改,以适合特定使用案例和数据集。您可以将解决方案用于超过 15 个使用案例,包括需求预测、欺诈检测和预测性维护,并且只需单击几下即可轻松部署解决方案。有关所有可用解决方案的更多信息,请访问 SageMaker 入门页面
 

问:Amazon SageMaker JumpStart 如何定价?

您需要根据 SageMaker 的定价为使用 SageMaker JumpStart 启动的 AWS 服务(例如训练作业和终端节点)支付费用。 使用 Amazon SageMaker JumpStart 不收取额外费用。

机器学习工作流

问:如何使用 Amazon SageMaker 构建 CI/CD 管道?

Amazon SageMaker Pipelines 帮助您创建从数据准备到模型部署的全自动 ML 工作流,以便公司可以在生产中扩展到数千个 ML 模型。SageMaker Pipelines 附带一个连接到 SageMaker Studio 的 Python SDK,因此您可以利用可视界面来构建工作流的每个步骤。然后,使用单个 API,您可以连接每个步骤以创建端到端工作流。SageMaker Pipelines 管理步骤之间的数据、打包代码配方并编排其执行,从而将数月的编码工作缩短至几个小时。每次执行工作流时,都会保存已处理数据和所采取措施的完整记录,以便数据科学家和 ML 开发人员可以快速调试问题。

问:如何查看所有经训练模型,以选择最佳模型投入生产?

Amazon SageMaker Pipelines 提供了一个经培训模型的中央存储库,称为模型注册表。您可以通过 SageMaker Studio 找到模型,并通过 Python SDK 以编程方式访问模型注册表,从而轻松选择部署到生产中所需的模型。

问:可以将 Amazon SageMaker 的哪些组件添加到 Amazon SageMaker Pipelines?

可以将通过 Amazon SageMaker Studio 可用的组件(包括 SageMaker Clarify、SageMaker Data Wrangler、SageMaker Feature Store、SageMaker Experiments、SageMaker Debugger、SageMaker Model Monitor)添加到SageMaker Pipelines。

问:如何在整个 ML 工作流中跟踪模型组件?

Amazon SageMaker Pipelines 自动跟踪所有模型构成部分,并跟踪所有更改的审核记录,从而消除手动跟踪,并可以帮助您实现合规性目标。您可以使用 SageMaker Pipelines 跟踪数据、代码、经训练的模型等。

问:Amazon SageMaker Pipelines 如何定价?

使用 Amazon SageMaker Pipelines 不收取额外费用。您只需为 SageMaker Pipelines 中使用的基础计算或任何单独 AWS 服务支付费用。

问:我可以将 Kubeflow 与 Amazon SageMaker 结合使用吗?

可以。适用于 Kubeflow Pipelines 的 Amazon SageMaker 组件是开源插件,借助这些组件,您可以使用 Kubeflow Pipelines 定义您的机器学习工作流,以及使用 SageMaker 执行数据标记、培训和推理步骤。Kubeflow Pipelines 是 Kubeflow 的一个附加件,借助它,您可以构建和部署便携且可扩展的端到端 ML 管道。但是,使用 Kubeflow Pipelines 时,ML 运营团队需要管理带有 CPU 和 GPU 实例的 Kubernetes 群集,并始终保持其高利用率,以降低运营成本。跨数据科学团队实现集群的利用率最大化是充满挑战的,并且会为机器学习运营团结增加运营开销。作为 ML 优化 Kubernetes 群集的替代方案,借助适用于 Kubeflow Pipelines 的 Amazon SageMaker Component,您可以利用强大的 SageMaker 功能,例如数据标记、完全托管的大规模超参数调优、分布式培训作业、一键式安全和可扩展模型部署以及通过 Amazon EC2 Spot 实例进行经济高效培训等,无需专门配置和管理 Kubernetes 群集,即可运行机器学习作业。

问:用于 Kubeflow 管道的 Amazon SageMaker 组件如何定价?

将 Amazon SageMaker 组件用于 Kubeflow 管道无需额外付费。
 

准备数据

问:Amazon SageMaker 如何准备用于机器学习的数据?

Amazon SageMaker Data Wrangler 可将汇总和准备机器学习 (ML) 数据所需的时间从数周缩短至几分钟。通过 SageMaker Studio 中的单个界面,您可以从Amazon S3、Amazon Athena、Amazon Redshift、AWS Lake Formation 和 Amazon SageMaker Feature Store 导入数据,只需单击几下 SageMaker Data Wrangler 即可自动加载,汇总和显示原始数据。然后,它将基于源数据提出转换建议,将数据转换为新功能,验证功能,并为可视化提供有关如何删除常见错误源(例如不正确标签)的建议。当数据准备就绪后,您可以使用 Amazon SageMaker Pipelines 构建全自动机器学习工作流,或将该数据导入 Amazon SageMaker Feature Store

问:如何使用 Amazon SageMaker Data Wrangler 创建模型功能?

无需编写任何代码,Amazon SageMaker Data Wrangler 即可自动将您的数据转换为新功能。SageMaker Data Wrangler 提供一系列预配置的数据转换,例如转换列类型、独热编码、使用均值或中位数插补缺失数据、重新缩放列以及数据/时间嵌入。例如,您只需单击一下即可将文本字段列转换为数值列,也可以在 PySpark、SQL 和 Pandas 中编写自定义转换。

问:如何在 Amazon SageMaker Data Wrangler 中可视化我的数据?

Amazon SageMaker Data Wrangler 通过一组强大的预配置可视化模板帮助您了解数据并识别潜在误差和极值。直方图、散点图和特定于 ML 的可视化(例如目标泄漏检测)均可用,无需编写任何代码。您还可以创建和编辑自己的可视化文件。

问:Amazon SageMaker Data Wrangler 如何定价?

您需要为用于 Amazon SageMaker Data Wrangler 的所有 ML 计算、存储和数据处理资源支付费用。您可以在此处查看 Amazon SageMaker Data Wrangler 定价的所有详细信息。作为 AWS 免费套餐的一部分,您还可以免费开始使用 SageMaker Data Wrangler。

问:如何存储 ML 模型的功能?

Amazon SageMaker Feature Store 提供具有低延迟(毫秒)读写数据功能的中央存储库。可以通过 SageMaker Feature 存储、检索、发现和共享这些功能,以便在具有安全访问和控制权限的模型和团队之间轻松重复使用。SageMaker Feature Store 支持通过批处理或流传输管道生成的在线和离线功能。它支持回填功能,并提供在线和离线库,以维持模型训练和推理中所使用功能的均等性。

问:如何保持在线和离线功能之间的一致性?

Amazon SageMaker Feature Store 自动维护在线和离线功能之间的一致性,无需其他管理或代码。SageMaker Feature Store 完全托管,并保持训练和推理环境之间一致性。

问:如何从给定时间点重现功能?

Amazon SageMaker Feature Store 在每个时间实例为所有功能维护时间戳。这可帮助您在任何时间段检索符合业务或合规性要求的功能。通过从给定时间点重现模型,您可以轻松解释从创建之初到当前时间的模型特征及其数值。

问:什么是离线功能?

离线功能用于训练,因为您需要长时间访问大量数据。通过高吞吐量、高带宽的存储库提供这些功能。

问:什么是在线功能?

在线功能用于进行实时预测所需的应用程序。在线功能通过高吞吐量的存储库提供,延迟时间仅几毫秒,可进行快速预测。

问:Amazon SageMaker Feature Store 如何定价?

作为 AWS 免费套餐的一部分,您可以免费开始使用 Amazon SageMaker Feature Store。使用 SageMaker Feature Store 时,您需要支付写入功能库以及从在线功能库读取和存储的费用。SageMaker 定价页面包含有关 SageMaker Feature Store 定价方式的所有详细信息。

问:什么是 Amazon SageMaker Ground Truth?

Amazon SageMaker Ground Truth 提供使用机器学习进行自动化数据标记的功能。SageMaker Ground Truth 首先会选择随机数据样本,并将其发送到 Amazon Mechanical Turk 进行标记。然后将结果用于训练标记模型,该模型会尝试自动对新的原始数据样本进行标记。当模型可以使用满足或超过设置阈值的置信度分数标记数据时,将提交标签。当置信度分数低于阈值时,数据会发送至人工贴标机。人工标记的一些数据用于为标记模型生成新的训练数据集,且模型会自动保留以提升其准确性。使用待标记的各个原始数据样本,重复此过程。标记模型变得更能够在每次迭代时自动标记原始数据,并且传输给人工的数据减少。
 

构建模型

问:什么是 Amazon SageMaker Studio Notebooks?

Amazon SageMaker Studio Notebook 是一种新的协作、灵活、托管型 Jupyter 笔记本体验,属于完全集成的机器学习开发环境 Amazon SageMaker Studio 的一部分。

问:SageMaker Studio Notebooks 与基于实例的笔记本服务有何不同?

SageMaker Studio Notebooks 提供了几项重要的功能,从而将它与基于实例的笔记本区分开来。借助这一新的笔记本体验,您现在可以快速启动笔记本,而无需手动预置实例并等待其运行。启动 UI 来读取和执行笔记本的启动时间比基于实例的笔记本快。

您还可以随时灵活地在 UI 内从大量实例类型中进行选择。您不再需要转至 AWS 控制台即可通过笔记本启动新实例和进行移植。

每个用户都有一个独立于特定实例的隔离主目录。该目录在启动时便自动挂载在所有的笔记本服务器和内核中,因此,即使您切换实例以查看和运行笔记本,您仍可以访问笔记本和其他文件。

SageMaker Studio Notebooks 集成了 AWS SSO,使您可以轻松地使用组织凭证来访问笔记本。笔记本共享是 SageMaker Studio Notebooks 中的集成功能。您还可以通过一次单击与同事共享笔记本。

问:支持哪些类型的笔记本?

目前支持 Jupyter 笔记本。

问:Amazon SageMaker Studio Notebooks 是如何运作的?

Amazon SageMaker Studio Notebooks 是一键式 Jupyter 笔记本,可以快速启动。底层计算资源极具弹性,让您可以轻松启用或关闭可用资源,并且更改将在后台自动进行,不会干扰您的工作。SageMaker 还支持一键共享笔记本。您可以与他人轻松共享笔记本,他们将获得保存在同一位置的完全相同的笔记本。

使用 SageMaker Studio Notebooks 时,您可以通过 AWS SSO 使用您的企业凭证登录。在团队内和团队间共享笔记本非常简单,因为系统会在工作映像中自动跟踪运行笔记本所需的依赖关系,并在共享笔记本时将其封装在笔记本内。

问:Amazon SageMaker Studio Notebooks 如何与其他 AWS 服务协同工作?

Amazon SageMaker Studio Notebooks 让您能够使用 SageMaker 的所有功能,例如分布式训练、批量转换、托管和试验管理。您可以从 SageMaker Notebooks 中使用 Amazon S3、Amazon Redshift、AWS Glue、Amazon EMR 或 AWS Lake Formation 中的数据集等其他服务。

问:SageMaker Studio Notebooks 如何定价?

使用 SageMaker Studio 笔记本时,您需要支付计算和存储费用。有关按计算实例类型收费的信息,请参阅 Amazon SageMaker 定价。您的笔记本以及相关构件(例如数据文件和脚本)将保留在 Amazon EFS 上。有关存储费用,请参阅 Amazon EFS 定价。作为 AWS 免费套餐的一部分,您可以免费开始使用 Amazon SageMaker Studio Notebooks。

问:我是否需要为在 SageMaker Studio 中创建和运行的每个笔记本单独付费?

不需要。您可以在同一计算实例上创建并运行多个笔记本。您只需为使用的计算付费,不需要为各个项目付费。您可以在我们的计量指南中了解更多相关信息。

除了笔记本之外,您还可以在 Studio 中启动和运行终端和交互式 Shell,一切操作均在同一计算实例上执行。每个应用程序都在容器或映像内运行。SageMaker Studio 提供了多个内置映像,这些映像是为数据科学和机器学习专门构建和预先配置的。您可以在我们的使用 SageMaker Studio Notebooks 的指南中,阅读有关 Studio 开发人员环境的更多信息。

问:如何监视和关闭我的笔记本所使用的资源?

您可以通过 SageMaker Studio 可视化界面和 AWS 管理控制台来监视和关闭 SageMaker Studio 笔记本所使用的资源。 请参阅文档了解更多详细信息。

问:我正在运行 SageMaker Studio Notebook。如果关闭浏览器,关闭笔记本选项卡,或者只是保持浏览器打开,我仍需要付费吗?

需要,您将继续为计算付费。这类似于在 AWS 管理控制台中启动 EC2 实例,然后关闭浏览器。除非您明确关闭 EC2 实例,否则该实例仍在运行,并且仍会产生费用。

问:创建和设置 Studio 域是否需要付费?

否,您无需为创建或配置 Studio 域(包括添加、更新和删除用户资料)付费。

问:如何查看 Studio Notebooks 或其他 SageMaker 服务的逐项收费?

作为管理员,您可以在 AWS 账单控制台中查看 SageMaker(包括 Studio)的逐项收费列表。在用于 SageMaker 的 AWS 管理控制台中,选择顶部菜单上的服务,在搜索框中键入账单并从下拉列表中选择“账单”,然后在左侧面板上选择账单。在“详细信息”部分中,您可以单击 SageMaker 展开区域列表并向下钻取到逐项收费。

训练模型

问:什么是 Amazon SageMaker Experiments?

Amazon SageMaker Experiments 可帮助您组织和跟踪机器学习模型的迭代。SageMaker Experiments 通过自动捕获输入参数、配置和结果并将其存储为“实验”来帮助您管理迭代。您可以使用 SageMaker Studio 的可视化界面来浏览进行中的实验,根据实验特征搜索先前的实验、查看先前的实验及结果,以及直观比较实验结果。

问:什么是 Amazon SageMaker Debugger?

Amazon SageMaker 调试程序能够在训练期间自动捕获实时指标(例如,训练和验证、混淆矩阵和学习梯度),帮助提高模型精度。SageMaker Studio 中会直观呈现来自 SageMaker 调试程序的指标,以便您理解。检测到常见的训练问题时,SageMaker 调试程序还会生成警告及提供修复建议。SageMaker Debugger 还可以自动实时监控和分析系统资源,例如 CPU、GPU、网络和内存,并提供有关重新分配这些资源的建议。这使您可以在训练期间有效使用资源,并有助于降低成本和资源。

问:Amazon SageMaker 是否支持分布式训练?

支持。Amazon SageMaker 可以自动在 AWS GPU 实例之间分配深度学习模型和大型培训集,只需花少量时间手动构建和优化这些分配策略即可。SageMaker 应用的两种分布式训练技术是数据并行和模型并行。通过在多个 GPU 实例之间平均划分数据,并允许每个实例同时进行训练,可应用数据并行,从而提高训练速度。模型并行对于太大而无法存储在单个 GPU 上,并且需要在将其分布到多个 GPU 之前划分为较小部分的模型很有用。只需在 PyTorch 和 TensorFlow 训练脚本中额外添加几行代码,SageMaker 就可以为您自动应用数据并行或模型并行,让您更快地开发和部署模型。SageMaker 将通过使用图形分区算法来确定拆分您的模型的最佳方法,以平衡每个 GPU 的计算量,同时尽量减少各 GPU 实例之间的通信。SageMaker 还可通过算法对您的分布式训练作业进行优化,这些算法充分利用 AWS 计算和网络,以实现近乎线性的扩展效率,从而让您比手动开源实施更快地完成训练。

问:什么是托管型 Spot 训练?

借助 Amazon SageMaker 的托管型 Spot 训练功能,您可以使用 Amazon EC2 Spot 实例来训练您的机器学习模型,同时降低最高 90% 的训练模型成本。

问:我如何使用托管型 Spot 训练?

您可以在提交训练作业时启用托管型 Spot 训练选项,同时您还可以指定希望等待 Spot 容量多长时间。然后,Amazon SageMaker 将使用 Amazon EC2 Spot 实例运行您的作业并管理 Spot 容量。您可以在训练作业运行及等待容量时全面了解其状态。

问:我应该在何时使用托管型 Spot 训练?

当您能灵活运行您的训练且您想最大限度降低训练作业成本时,托管型 Spot 训练适用。托管型 Spot 训练可帮助您将训练机器学习模型的成本最高降低 90%。

问:托管型 Spot 训练的工作原理是什么?

托管型 Spot 训练使用 Amazon EC2 Spot 实例进行训练,并且当 AWS 需要容量时可以先获得这些实例。因此,当容量可用时,托管型 Spot 训练作业可以以小的增量运行。当出现中断时,不需要从头开始重启训练作业,因为 Amazon SageMaker 可以使用最新的模型检查点恢复训练作业。SageMaker 的内置框架和内置计算机视觉算法支持定期检查点,并且您可以启用带有自定义模型的检查点。

问:使用托管型 Spot 训练时,我是否需要定期检查?

对于长期运行的训练作业,我们建议将定期检查点作为一般最佳实践。这将阻止您的托管型 Spot 训练作业在先取得容量时重新启动。当您启用检查点时,Amazon SageMaker 会从最近的检查点恢复您的托管型 Spot 训练作业。

问:如何计算使用托管型 Spot 训练作业节省的成本?

当托管的 Spot 训练作业完成后,您可以在 AWS 管理控制台中查看节省情况,并且还能通过训练作业运行持续时间与计费持续时间之间的百分比差异来计算成本节省。

无论您的托管型 Spot 训练作业中断了多少次,都只会根据下载数据的持续时间向您收取一次费用。

问:我可以将哪些实例用于托管型 Spot 训练?

可以将托管型 Spot 训练用于 Amazon SageMaker 中支持的所有实例。

问:哪些 AWS 区域支持托管型 Spot 训练?

目前提供 Amazon SageMaker 的所有 AWS 区域都支持托管型 Spot 训练。

问:对于可用于训练的数据集,有没有大小限制?

Amazon SageMaker 训练模型可以使用的数据集没有固定的大小限制。

问:我可以将哪些数据源轻松提取到 Amazon SageMaker 中?

您可以在创建训练作业时指定训练数据的 Amazon S3 位置。

问:Amazon SageMaker 使用哪些算法来生成模型?

Amazon SageMaker 包含一些内置算法,例如线性回归算法、逻辑回归算法、k-means 集群算法、主成分分析算法、因式分解机算法、神经主题建模算法、潜在狄利克雷分配算法、梯度提高树算法、序列到序列算法、预测时间序列 word2vec 和镜像分类算法等。SageMaker 还提供经过优化的 Apache MXNet、Tensorflow、Chainer、PyTorch、Gluon、Keras、Horovod、Scikit-learn 和 Deep Graph Library 容器。此外,Amazon SageMaker 还支持通过符合成文规格的 Docker 镜像提供的自定义训练算法。

问:什么是自动模型优化?

大多数 Machine Learning 算法都提供了各种各样的参数,这些参数控制了底层算法的运算方式。这些参数通常被称为超参数,它们的值会影响经过训练的模型的质量。Automatic Model Tuning 是为能够生成最优模型的算法寻找超参数组合的过程。

问:Automatic Model Tuning 可用来优化哪些模型?

只要在科学上可行,您就可以在 Amazon SageMaker 中基于任何算法运行自动模型优化,包括内置的 SageMaker 算法、深度神经网络算法或您通过 Docker 镜像引入 SageMaker 的任意算法。

问:可以在 Amazon SageMaker 之外使用 Automatic Model Tuning 吗?

目前不可以。只有在 Amazon SageMaker 内部使用它,才能获得最佳的模型优化性能和体验。

问:什么是底层优化算法?

目前,我们用于优化超参数的算法是对贝叶斯算法的自定义实现。其目的是在优化过程中优化客户指定的目标参数。具体来说,它检查已完成训练作业的目标参数,然后利用这一信息推断下一个训练作业的超参数组合。

问:系统是否针对需要优化的具体超参数提供建议?

不提供。某些超参数对模型性能的影响取决于各种各样的因素,很难肯定地说一个超参数比其他超参数更重要,因此需要对它进行优化。对于 Amazon SageMaker 的内置算法,我们会提示每个超参数是否可进行优化。

问:每个超参数优化任务用时多久?

超参数优化任务的用时长短取决于多种因素,包括数据的大小、底层算法和超参数的值。此外,客户可以选择同时执行的训练任务的数量和训练任务的总数量。所有这些选择都会影响超参数优化作业的用时。

问:能否像优化模型一样既快速又准确地同时优化多个目标?

目前不可以。目前,您必须指定一个目标参数来优化或更改您的算法代码,以生成一个新指标(该指标是两个或更多有用指标之间的加强平均值),并在优化过程中对该目标指标进行优化。

问:Automatic Model Tuning 是如何收费的?

超参数优化任务本身不收费。您需要按照模型训练定价为超参数优化作业启动的训练作业付费。

问:怎样判断是应该使用 Amazon SageMaker Autopilot 还是Automatic Model Tuning?

Amazon SageMaker Autopilot 可以自动处理典型的机器学习工作流程中的所有工作,包括特征预处理、算法选择和超参数优化,同时特别关注分类和回归使用场景。而 Automatic Model Tuning 用于优化任何模型,无论其是基于内置算法、深度学习框架还是自定义容器。为了获得灵活性,您必须手动选择具体算法并确定要优化的超参数和相应的搜索范围。

问:什么是强化学习?

强化学习是一项机器学习技术,可帮助代理运用从其自己的行为和经验中得到的反馈,通过反复试验在交互式环境中学习。

问:我是否可以在 Amazon SageMaker 中训练强化学习模型?

可以,除了监督学习和无监督学习训练模型之外,您还可以在 Amazon SageMaker 中训练强化学习模型。

问:强化学习与监督学习有何不同?

虽然监督学习与强化学习均使用输入和输出之间的映射,但强化学习使用延迟反馈,它对奖励信号进行了优化,以确保通过一系列操作实现长期目标,而不像监督学习那样,提供给代理的反馈是一组用于执行任务的正确操作。

问:什么时候应该使用强化学习?

监督学习技术的目标是根据训练数据中的模式找到正确的答案,无监督学习技术的目标是发现数据点之间的相同之处和不同之处。相比之下,强化学习技术的目标是学习如何实现预期结果,即使不清楚如何实现该结果。因此,RL 更适合实现智能应用,其中代理可以自主决策,例如机器人、无人驾驶车辆、暖通空调和工业控制等等。

问:可以使用哪些类型的环境来训练强化学习模型?

Amazon SageMaker RL 支持许多不同的环境来训练强化学习模型。您可以使用 AWS 服务(如 AWS RoboMaker)、开源环境或自定义环境(使用 Open AI Gym 接口开发),或者使用商业模拟环境(如 MATLAB 和 Simulink)。

问:我是否需要编写自己的 RL 代理算法来训练强化学习模型?

不需要,Amazon SageMaker RL 包含 RL 工具包(如 Coach 和 Ray RLLib),这些工具包提供 RL 代理算法的实现,如 DQN、PPO、A3C 等等。

问:我能否自带 RL 库和算法实现并在 Amazon SageMaker RL 中运行?

是的,您可以将您自己的 RL 库和算法实现引入 Docker 容器并在 Amazon SageMaker RL 中运行这些实现。

问:我是否可以使用 Amazon SageMaker RL 执行分布式部署?

可以。您甚至可以选择一个异构集群,其中训练可以在 GPU 实例上运行,而模拟可以在多个 CPU 实例上运行。

部署模型

问:什么是 Amazon SageMaker Model Monitor?

开发人员能够使用 Amazon SageMaker Model Monitor 来检测和修复概念偏差。SageMaker Model Monitor 会自动检测已部署模型中的概念偏差,并提供详细的警报,帮助确定问题的根源。通过 SageMaker 训练的所有模型都会自动发送关键指标,这些指标可以在 SageMaker Studio 中收集和查看。从 SageMaker Studio 内部,您可以配置要收集的数据、查看方式以及警报的接收时间。

问:我能否访问运行 Amazon SageMaker 的基础设施?

不能。Amazon SageMaker 会代您运行计算基础设施,从而执行运行状况检查、应用安全补丁和执行其他例行维护。您也可以通过在自己托管的环境中训练自定义推理代码来部署模型项目。

问:如何在投产后扩展 Amazon SageMaker 模型的大小和性能?

Amazon SageMaker 托管使用 Application Auto Scaling 自动扩展到您的应用程序所需的性能。此外,您可以通过修改终端节点配置,在不停机的情况下手动更改实例的数量和类型。

问:如何监控我的 Amazon SageMaker 生产环境?

Amazon SageMaker 将性能指标发到 Amazon CloudWatch Metrics,这样您可以跟踪指标、设置警报,并自动响应生产流量变化。此外,Amazon SageMaker 还会将日志写入 Amazon Cloudwatch Logs,让您能够监控生产环境并对其进行故障排除。

问:哪种模型能够通过 Amazon SageMaker 进行托管?

Amazon SageMaker 可托管符合推理 Docker 镜像的记录规格的任何模型,其中包括利用 Amazon SageMaker 模型项目和推理代码创建的模型。

问:Amazon SageMaker 支持的并发实时 API 请求的数量是多少?

Amazon SageMaker 旨在将每秒完成的事务量扩展到一个更大值。精确的数量因部署的模型以及部署模型的目标实例的数量和类型而有所不同。

问:什么是批量转换?

通过批量转换,您可以针对大批量或小批量数据运行预测。无需将数据集拆分为多个区块,也无需管理实时终端节点。使用一个简单的 API,您可以轻松快速地请求对大量数据记录进行预测并转换数据

问:什么是 Amazon SageMaker Edge Manager?

Amazon SageMaker Edge Manager 是 Amazon SageMaker 中的一项新功能,可以更轻松地优化、保护、监控和维护智能相机、机器人、个人计算机和移动设备等边缘设备队列上的机器学习模型。SageMaker Edge Manager 帮助 ML 开发人员在各种边缘设备上大规模操作 ML 模型。

问:我如何开始使用 SageMaker Edge Manager?

要开始使用 SageMaker Edge Manager,您需要在云中编译并打包经训练的 ML 模型、注册设备、并使用 SageMaker Edge Manager SDK 准备设备。为准备模型以进行部署,SageMaker Edge Manager 使用 SageMaker Neo 为目标边缘硬件编译模型。编译模型后,SageMaker Edge Manager 用 AWS生成的密钥对模型进行签名,然后将模型及其运行时和必要凭证打包在一起,以准备进行部署。在设备端,您可以使用 SageMaker Edge Manager 注册设备,下载 SageMaker Edge Manager SDK,然后按照说明在设备上安装 SageMaker Edge Manager 代理。教程笔记本提供了有关如何准备模型以及如何使用 SageMaker Edge Manager 在边缘设备上连接模型的分步示例。

问:SageMaker Edge Manager 支持哪些设备?

Amazon SageMaker Edge Manager 支持采用Linux 和 Windows 操作系统、基于 CPU(ARM,x86)、GPU(ARM,Nvidia)的设备。随着时间的推移,SageMaker Edge Manager 将扩展以支持更多 SageMaker Neo 也支持的嵌入式处理器和移动平台。

问:我是否需要使用 Amazon SageMaker 训练我的模型,才能使用 Amazon SageMaker Edge Manager?

不需要。您可以在其他地方训练模型,也可以使用源自开源代码或模型供应商的预训练模型。

问:我是否需要使用 Amazon SageMaker Neo 编译我的模型,才能使用 Amazon SageMaker Edge Manager?

是的,需要。Amazon SageMaker Neo 将您的模型转换并编译为可执行文件,然后将其打包并部署到您的边缘设备上。部署模型包后,Amazon SageMaker Edge Manager 代理将解压缩模型包并在设备上运行模型。

问:如何将模型部署到边缘设备?

Amazon SageMaker Edge Manager 将模型包存储在指定的 Amazon S3 存储桶中。您可以使用 AWS IoT Greengrass 提供的无线 (OTA) 部署功能,也可以使用您选择的任何其他部署机制将模型包从 S3 存储桶部署到设备。

问:Amazon SageMaker Edge Manager SDK与 SageMaker Neo 运行时 (dlr) 有何不同?

Neo dlr 是一个开源运行时,仅执行由 Amazon SageMaker Neo 服务编译的模型。与开源 dlr 相比,SageMaker Edge Manager SDK包含一个具有附加安全性、模型管理和模型服务功能的企业级设备内置代理。SageMaker Edge Manager SDK 适用于大规模生产部署。

问:Amazon SageMaker Edge Manager 与AWS IoT Greengrass 有何关系?

Amazon SageMaker Edge Manager 与 AWS IoT Greengrass 可以在您的 IoT 解决方案中一起工作。将 ML 模型与 SageMaker Edge Manager 打包在一起后,即可使用 AWS IoT Greengrass 的 OTA 更新功能将模型包部署到设备上。AWS IoT Greengrass 允许您远程监控 IoT 设备,而 SageMaker Edge Manager 可帮助您监控和维护设备上的 ML 模型。

问:Amazon SageMaker Edge Manager 与AWS Panorama 有何关系? 何时应使用 Amazon SageMaker Edge Manager 和 AWS Panorama?

AWS 提供在边缘设备上运行模型的最大广度和最大深度功能。我们提供的服务可支持各种使用案例,包括计算机视觉、语音识别和预测性维护。

对于希望在摄像机和家电等边缘设备上运行计算机视觉的公司,您可以使用 AWS Panorama。Panorama 可随时为边缘设备部署计算机视觉应用程序。登录云控制台,指定要在 Amazon S3 或SageMaker 中使用的模型,然后将业务逻辑作为python 脚本编写,即可轻松开始使用 AWS Panorama。AWS Panorama 会为目标设备编译模型并创建一个应用程序包,因此只需单击几下即可将其部署到您的设备上。此外,想要构建自己的自定义应用程序的 ISV 可以使用 AWS Panorama SDK,并且设备制造商可使用 Device SDK 认证其设备以使用 AWS Panorama。

想要构建自己的模型并对模型功能进行更精细控制的客户,可以使用 Amazon SageMaker Edge Manager。SageMaker Edge Manager 是一项托管服务,用于跨各种边缘设备(如智能摄像机、智能扬声器和机器人)准备、运行、监控和更新机器学习 (ML) 模型,以用于自然语言处理、欺诈检测和预测性维护等使用案例。SageMaker Edge Manager 适用于希望控制其模型(包括设计不同的模型功能并监控模型漂移)的 ML 边缘开发人员。任何 ML Edge 开发人员都可以通过 SageMaker 控制台和 SageMaker API 使用 SageMaker Edge Manager。SageMaker Edge Manager 提供 SageMaker 的功能,可将云中的模型构建、训练和部署到边缘设备。

问:Amazon SageMaker Edge Manager 在哪些 AWS 区域提供?

6 个 AWS 区域已可使用 Amazon SageMaker Edge Manager:美国东部(弗吉尼亚北部)、美国东部(俄亥俄)、美国西部(俄勒冈)、欧洲(爱尔兰)、欧洲(法兰克福)和亚太地区(东京),详见 AWS 区域表

问:什么是 Amazon SageMaker Neo?

Amazon SageMaker Neo 让机器学习模型训练一次即可在云和边缘站点中的任何位置运行。SageMaker Neo 可以自动优化使用常用的深度学习框架构建的模型,这些框架可用于在多个硬件平台上部署。优化的模型运行速度最多可提高 25 倍,并且所消耗的资源不到典型机器学习模型的十分之一。

问:如何开始使用 Amazon SageMaker Neo?

要开始使用 Amazon SageMaker Neo,您需要登录 Amazon SageMaker 控制台,选择受训模型,根据示例编译模型,然后将生成的模型部署到目标硬件平台上。

问:Amazon SageMaker Neo 有哪些主要组件?

Amazon SageMaker Neo 包含两个主要组件:编译器和运行库。首先,Neo 编译器读取由不同框架导出的模型。然后,它将框架特定的功能和操作转换为与框架无关的中间表示形式。接着,它会执行一系列优化。最后,编译器会为优化的操作生成二进制代码,并将其写入一个共享对象库。此外,编译器还会将模型定义和参数保存到各个文件中。在执行期间,Neo 运行时会加载编译器生成的构件(模型定义、参数和共享对象库)以运行模型。

问:我是否需要使用 Amazon SageMaker 训练我的模型,才能使用 Amazon SageMaker Neo 来转换模型?

不需要。您可以在其他位置训练模型,然后使用 Neo 为 Amazon SageMaker ML 实例或 AWS IoT Greengrass 支持的设备优化这些模型。

问:Amazon SageMaker Neo 支持哪些模型?

目前,Amazon SageMaker Neo 支持最常用的深度学习模型(此类模型支持计算机视觉应用程序),以及当今 Amazon SageMaker 中最常用的决策树模型。Neo 可以优化 MXNet 和 TensorFlow 中训练的 AlexNet、ResNet、VGG、Inception、MobileNet、SqueezeNet 和 DenseNet 模型的性能,以及 XGBoost 中训练的分类和随机砍伐森林 (Random Cut Forest) 模型的性能。

问:Amazon SageMaker Neo 支持哪些硬件平台?

您可以在 Amazon SageMaker Neo 文档中找到受支持的云实例边缘设备和框架版本的列表。

问:Amazon SageMaker Neo 在哪些 AWS 区域提供?

要查看支持区域的列表,请参阅 AWS 区域表

了解有关 Amazon SageMaker 定价的更多信息

访问定价页面
准备好开始使用了吗?
注册
还有更多问题?
联系我们