无代码机器学习 — Amazon SageMaker Canvas 常见问题

一般性问题

问：什么是 Amazon SageMaker Canvas？

Amazon SageMaker Canvas 是一项无代码机器学习（ML）服务。SageMaker Canvas 支持整个 ML 工作流程，包括数据准备、模型构建和训练、生成预测以及将模型部署到生产环境。借助 SageMaker Canvas，您可以使用 ML 来检测欺诈、预测维护故障、预测财务指标和销售、优化库存、生成内容等。

问：如何开始使用 Amazon SageMaker Canvas？

要访问 Amazon SageMaker Canvas，首先需要在 AWS 管理控制台中创建一个 SageMaker 域。创建 SageMaker 域后，您可以通过两种方式访问 SageMaker Canvas。首先，您可以直接从 AWS 管理控制台启动 SageMaker Canvas，也可以在 SageMaker Studio（用于 ML 的集成式 IDE）中启动 SageMaker Canvas。

在登录 SageMaker Canvas 以后，您可以通过交互式产品介绍简要了解 ML 之旅的每个步骤，其中将提供简单易学的说明。此外，您还可以使用 SageMaker Canvas 中提供的示例数据集，帮助您熟悉常见的使用案例，如房屋价格预测、销售预测、贷款违约预测，等等。

问：Amazon SageMaker Canvas 支持 SSO 技术吗？

SageMaker Canvas 支持所有启用安全断言标记语言（SAML）2.0 的 SSO 技术。示例包括 AWS SSO、Active Directory 和 Okta。

问：Amazon SageMaker Canvas 是如何收费的？

使用 SageMaker Canvas，您只需按实际用量付费。您的账单取决于以下三个因素：

工作区实例（会话小时数）：此费用基于您登录到 SageMaker Canvas 或使用 SageMaker Canvas 的小时数。从启动 SageMaker Canvas 开始计时，并在您通过应用程序或管理员注销时结束。
模型训练费用
- 表格模型：自定义表格模型的训练费用基于用于训练模型的数据集中的单元格数。
- CV 和 NLP 模型：自定义 NLP 和 CV 模型的训练费用取决于训练模型所需的计算时间。
推理费用
- 实时端点：将模型部署到实时端点需要利用 SageMaker 资源，并且需要为使用这些资源付费。
- 即用型模型使用：AWS AI 服务使用即用型模型生成见解并从文档、图像和文本中提取信息。您需要支付使用即用型模型所需的相应支持性服务付费。
- 自定义模型预测：您需要支付用于从经过训练的模型生成单个或批量预测的计算费。

有关详细信息，请参阅 SageMaker Canvas 定价页面。

问：如何控制成本和注销 Amazon SageMaker Canvas？

登录 SageMaker Canvas 后，您可以使用专用计算资源，这些资源根据关联会话费率按小时收费。为了帮助控制成本，您应该在完成当天的工作后单击左侧导航面板底部的注销图标来注销 SageMaker Canvas。或者，您的管理员也可以通过编程方式将您注销。自行注销或管理员将您注销后，就会停止收取工作区实例（会话-小时）费用。管理员可以选择按固定时间计划使用编程方法，也可以使用名为 TimeSinceLastActive 的 Amazon CloudWatch 指标在达到所需空闲时间后进行动态注销。

问：Amazon SageMaker Canvas 在哪些区域提供？

SageMaker Canvas 现已在以下 AWS 区域提供：美国东部（俄亥俄州）、美国东部（弗吉尼亚州北部）、美国西部（俄勒冈州）、欧洲地区（法兰克福）、欧洲地区（爱尔兰）、亚太地区（孟买）、亚太地区（首尔）、亚太地区（新加坡）、亚太地区（东京）和澳大利亚（悉尼）。

问：如何使用 Amazon SageMaker Canvas 加密我的数据和 ML 模型？

SageMaker Canvas 支持对所有用例（包括分类、回归和时间序列预测）使用客户自主管理型密钥（CMK）和 AWS Key Management Service（KMS）对数据集和 ML 模型进行静态加密。您可以使用自己的密钥，对用于训练模型和生成见解的实例上的文件系统，以及 Amazon S3 存储桶中的模型数据进行加密。

在 SageMaker Canvas 中准备数据

问：Amazon SageMaker Canvas 支持哪些数据来源？

SageMaker Canvas 使您能够无缝发现您的账户有权访问的 AWS 数据来源，包括 Amazon Simple Storage Service（S3）、Amazon Athena（Glue Data Catalog）、Amazon Redshift、Amazon Aurora 和 Amazon RDS。SageMaker Canvas 还支持外部数据来源，包括 Salesforce 数据云、Snowflake、Databricks 和 40 多个 SaaS 平台。最后，您可以通过从本地磁盘拖放文件，将数据集上传到 SageMaker Canvas。

问：Amazon SageMaker Canvas 支持哪些数据类型？

SageMaker Canvas 支持导入表格（CSV、Parquet）、图像（JPEG、PNG）和文档数据（PDF、JPG、PNG、TIFF）。

问：如何分析和探索我的数据？

您可以使用预构建的可视化效果在 SageMaker Canvas 中分析和探索数据，也可以使用自然语言生成自定义可视化效果。Amazon SageMaker Canvas 还提供数据质量和洞察报告，以验证数据质量（例如缺失值、重复行和数据类型）并检测数据中的异常情况（例如异常值、类不平衡和数据泄漏）。

问：如何在 Amazon SageMaker Canvas 中准备数据？

SageMaker Canvas 提供 300 多种预构建的、基于 PySpark 的数据转换，因此您可以转换数据并扩展数据准备工作流程，而无需编写任何代码。此外，您还可以使用 FM 支持的自然语言指令将数据转换为 ML 模型。

问：如何自动执行我在 Amazon SageMaker Canvas 中构建的数据准备流程？

您可以启动或安排作业来快速处理数据，或者使用与 SageMaker Pipeline 的集成将数据准备流程导出为 ML 工作流程中的处理步骤。

问：如何验证我的数据以确认它已准备好构建模型？

SageMaker Canvas 在数据准备流程中提供数据质量和洞察报告，以检查数据质量并估计模型准确性。它还会在模型构建之前验证您的数据以检查常见问题。

SageMaker Canvas 中的自定义和即用型模型

问：Amazon SageMaker Canvas 是否支持基础模型？

是的，SageMaker Canvas 提供对用于内容生成、文本提取和文本摘要的即用型基础模型（FM）的访问权限。您可以通过无代码访问 Claude 2、Amazon Titan 和 Jurassic-2（由 Amazon Bedrock 提供支持）等 FM 以及 Falcon 和 MPT（由 SageMaker JumpStart 提供支持）等公开发布的 FM，并使用您自己的数据对其进行调整。

问：Amazon SageMaker Canvas 支持哪些即用型模型？

SageMaker Canvas 提供表格、NLP 和用例，包括情感分析、图像中的对象检测、图像中的文本检测和实体提取。这些即用型模型不需要构建模型，由包括 Amazon Rekognition、Amazon Textract 和 Amazon Comprehend 在内的 AWS AI 服务提供支持。

问：我可以在 Amazon SageMaker Canvas 中创建哪些类型的机器学习模型？

目前，您可以在 SageMaker Canvas 中创建分类（二进制和多类别）、回归、时间序列预测、单标签图像分类和多类别文本分类模型。

问：如何在 SageMaker Canvas 中构建模型？

SageMaker Canvas 提供多种模型构建选项。

预览：此选项可让您在大约 2 分钟内预览您的模型，为您提供模型准确性和特征重要性的指标。
快速构建：此选项允许您快速构建模型（约 2 到 20 分钟），并提供现成的模型。
标准构建：此选项更具广泛性，并且可能需要花费几个小时，具体取决于您的数据集的大小。标准构建模型可为您提供详细的信息，包括指标分数、采用不同超参数组合的训练实验，并在后端生成多个模型。然后，它会挑选您可以评估和使用的最佳模型。

问：我如何向其他人解释我的模型？

SageMaker Canvas 提供列影响分析，解释数据集中的每一列对模型的影响。SageMaker Canvas 还提供了其他指标，可让您了解模型性能。此外，您还可以在生成预测时查看列影响，确定哪些列对每个预测的影响最大。

问：数据科学家能否共享在 Amazon SageMaker 外部构建的模型，以便我可以在 Amazon SageMaker Canvas 中对这些模型生成预测？

可以。在 SageMaker 模型注册表中注册后，数据科学家就可以共享由其他工具构建的任何 ML 模型，从而使您可以在 SageMaker Canvas 中生成对这些模型的预测。

使用 SageMaker Canvas 进行预测

问：如何进行预测？

要进行单个预测，请转到对应模型版本的“单个预测”选项卡，输入值，SageMaker Canvas 将向您显示预测。您还可以使用滑块和下拉菜单来更改输入值，以查看对预测的影响。要对多个观测值或多行数据进行预测，请转到“批量预测”选项卡，拖放包含您的观测值的 CSV、JPEG 或 PNG 文件，SageMaker Canvas 将创建一个带有预测值的新 CSV、JPEG 或 PNG 文件。SageMaker Canvas 允许您运行手动和自动批量预测。每次更新关联数据集时都会触发自动批量预测工作流程。然后，您可以在线查看预测结果或下载以供查看。

问：如何使用 Amazon SageMaker Canvas 的预测来构建预测控制面板？

您可以在 SageMaker Canvas 中选择单个或多个批量预测，然后将其发送给一个账户中的多个 Amazon QuickSight 用户。只需在 SageMaker Canvas 中单击一下即可打开 QuickSight，将预测作为数据集进行分析，构建并发布预测仪表板，这些仪表板可以持续更新以获取新的和更改的数据。

将 SageMaker Canvas 模型与 SageMaker Studio for MLOps 配合使用

问：我可以与数据科学家共享在 Amazon SageMaker Canvas 中构建的模型并与他们协作吗？

可以。您可以与在 SageMaker Studio 中工作的数据科学家共享在 SageMaker Canvas 中构建的 ML 模型。他们可以审查、更新并与您共享更新后的模型版本，因此您可以在 SageMaker Canvas 中对新版本生成预测。

在 SageMaker Canvas 中构建和训练标准模型后，您可以使用 SageMaker Canvas 中的共享按钮共享您的 ML 模型。您可以选择将模型共享给 SageMaker Studio 中的单个用户或多个用户。

问：哪些 ML 模型构件可以从 Amazon SageMaker Canvas 共享到 Amazon SageMaker Studio？

从 SageMaker Canvas 共享的 ML 模型和构件将包含数据集、数据转换（包括配方数据流和转换代码）、候选模型列表和推荐模型、数据探索报告、候选定义笔记本和可解释性指标（包括特征重要性）。

问：数据科学家可以编辑和更新哪些构件？

使用 SageMaker Studio 的数据科学家可以查看模型构件并从 SageMaker Autopilot 的候选者列表中推荐替代候选者。此外，他们还可以使用 SageMaker Data Wrangler 打开和更新数据转换，使用 SageMaker Autopilot 更新模型，以及共享新模型版本。

问：SageMaker Studio 用户如何更新从 SageMaker Canvas 收到的模型？

SageMaker Studio 用户可以使用 SageMaker Studio 中的共享按钮发送模型版本的更新。来自 SageMaker Studio 的更新模型将作为原始共享模型的新版本直接出现在 SageMaker Canvas 中。

问：如何区分我的原始共享模型和新的共享模型？

更新后的模型在 SageMaker Canvas 中自动进行版本控制。您可以通过 SageMaker Canvas 中的下拉菜单访问模型的不同版本。

问：我可以从 Amazon SageMaker Canvas 共享哪些用例和模型类型到 Amazon SageMaker Studio？

您可以共享包含 SageMaker Canvas 中所有用例的表格数据的标准构建模型，包括客户流失、预测房价、销售预测、预测贷款违约、预测医院病床占用率和时间序列预测模型。您还可以共享自定义 CV 和 NLP 模型。

自带 ML 模型

问：我能否将在 Amazon SageMaker Canvas 中创建的机器学习模型推送到我现有的 MLOps CI/CD 流程？

可以。在 SageMaker Canvas 中创建机器学习模型后，您可以将它们注册到 SageMaker 模型注册表并插入到现有的模型部署 CI/CD 流程中。SageMaker Model Registry 是一个存储库，用于编目 ML 模型、管理各种模型版本、关联元数据、管理模型的批准状态并将其部署到生产环境中。

问：如何在 Amazon SageMaker Canvas 中进行模型注册？

当您在 SageMaker Canvas 中选择模型版本并用自己的账户将其注册到 SageMaker 模型注册表时，SageMaker Canvas 会自动将模型构件发送到 SageMaker 模型注册表，例如模型推理容器的参考链接、模型特征重要性报告、训练指标等模型元数据以及相关图表。模型注册后，您可以在 SageMaker Canvas 中跟踪批准状态。在 SageMaker 模型注册表中拒绝模型会阻止将模型部署到升级环境中，而在 SageMaker 模型注册表中批准模型可能会触发模型推广管线。模型推广管线会自动将模型复制到您的预生产 AWS 账户，并触发模型为推理工作负载做好准备。

生成式人工智能能力

问：Amazon SageMaker Canvas 如何支持生成式人工智能？

SageMaker Canvas 提供由 Amazon Bedrock 和 SageMaker Jumpstart 提供支持的即用型基础模型（FM）。您可以通过这些模型生成和汇总内容。您可以使用自然语言指令执行如下任务：创建叙述、报告和博客文章；回答问题；总结笔记和文章；以及解释概念，而无需编写任何代码。您的数据不会用于改进基本模型，不会与第三方模型提供商共享，并将完全保留在您的安全 AWS 环境中。使用相同的无代码界面，您可以上传数据集并选择 FM，SageMaker Canvas 会自动帮助您构建自定义基础模型以立即生成预测。SageMaker Canvas 还显示性能指标，因此您可以轻松协作，使用 FM 生成预测，并了解 FM 在给定任务上的执行情况。

问：Amazon SageMaker Canvas 为基础模型提供哪些控件？

SageMaker Canvas 为管理员提供控制对 SageMaker Canvas 用户界面中基础模型的访问的权限。这包括由基础模型支持的功能，例如数据准备和即用型基础模型。