一般性问题
问:什么是 Amazon SageMaker Canvas?
Amazon SageMaker Canvas 是一种可视化、点击式的服务,它使业务分析师能够生成准确的机器学习 (ML) 预测,而无需编写任何代码,也无需 ML 专业知识。 SageMaker Canvas 可让您轻松访问和组合来自各种来源的数据,自动清理数据并应用各种数据调整,以及构建 ML 模型以通过单击生成准确的预测。您还可以轻松发布结果、解释和解读模型,以及与企业内的其他人共享模型以进行审查。
问:如何开始使用 Amazon SageMaker Canvas?
问:Amazon SageMaker Canvas 支持哪些数据来源?
SageMaker Canvas 使您能够无缝发现您的账户有权访问的 AWS 数据源,包括 Amazon Simple Storage Service (S3) 和 Amazon Redshift。您可以使用 SageMaker Canvas 可视化、点击式的界面来浏览和导入数据。此外,您还可以从本地磁盘拖放文件,并使用预构建的连接器从第三方源(如 Snowflake)导入数据。
问:Amazon SageMaker Canvas 支持哪些数据类型?
目前,SageMaker Canvas 支持以下数据类型:分类、数字、文本和日期时间。这使您可以处理 ML 使用案例的表格和时间序列数据。
问:如何分析和探索我的数据?
SageMaker Canvas 允许您通过数据转换分析和探索数据,例如筛选行、从列中提取值、将值替换为标准值(例如平均值或中值或自定义值)以及筛选异常值。此外,您可以通过自定义公式使用数学函数或使用逻辑运算符为数据添加新功能,以创建数据箱。
SageMaker Canvas 提供可视化效果,包括散点图、条形图和箱线图,以直观地探索您的数据。SageMaker Canvas 还支持构建相关矩阵,以了解数值数据和分类数据的数据变量之间的关系。
问:Amazon SageMaker Canvas 在哪些区域提供?
问:如何验证我的数据以确认它已准备好构建模型?
Amazon SageMaker Canvas 提供了一个用于在构建模型之前验证数据的选项,以检查无效字符和缺失值等常见数据问题。SageMaker Canvas 使用指针突出显示这些问题,以便在构建 ML 模型之前解决这些问题。
问:如何使用 SageMaker Canvas 加密我的数据和 ML 模型?
SageMaker Canvas 支持对所有用例(包括分类、回归和时间序列预测)使用客户托管密钥(CMK)和 AWS Key Management Service (KMS) 对数据集和 ML 模型进行静态加密。您可以使用自己的密钥,对用于训练模型和生成见解的实例上的文件系统,以及 Amazon S3 存储桶中的模型数据进行加密。
问:构建模型需要多长时间?
构建模型所需的时间取决于数据集的大小和所选的构建模型。小型数据集可能需要不到 5 分钟,大型数据集可能需要几个小时。随着模型构建的进行,Amazon SageMaker Canvas 会提供更新和预计完成时间。
Amazon SageMaker Canvas 提供多种模型构建选项。
- 预览:此选项可让您在大约 2 分钟内预览您的模型,为您提供模型准确性和特征重要性的指标。
- 快速构建:此选项允许您快速构建模型(约 2 到 15 分钟),并提供现成的模型。
- 标准构建:此选项更具广泛性,并且可能需要花费几个小时,具体取决于您的数据集的大小。标准构建模型可为您提供详细的信息,包括指标分数、采用不同超参数组合的训练实验,并在后端生成多个模型。然后,它会挑选您可以评估和使用的最佳模型。
问:如何进行预测?
要进行单个预测,请转到“单个预测”选项卡,输入值,Amazon SageMaker Canvas 将向您显示预测。您还可以使用滑块和下拉菜单来更改输入值,以查看对预测的影响。要对多个观测值或多行数据进行预测,请转到“批量预测”选项卡,拖放包含您的观测值的 CSV 文件,SageMaker Canvas 将创建一个带有预测值的新 CSV 文件。
问:我如何向其他人解释我的模型?
Amazon SageMaker Canvas 提供列影响分析,解释数据集中的每一列对模型的影响。SageMaker Canvas 还提供了其他指标,可让您了解模型性能。此外,您还可以在生成预测时查看列影响,确定哪些列对每个预测的影响最大。
问:Amazon SageMaker Canvas 是如何收费的?
使用 SageMaker Canvas,您将按即用即付模型为实际使用量付费。使用 SageMaker Canvas 的费用取决于两个部分。
- 会话费用:此费用基于您登录到 SageMaker Canvas 或使用 SageMaker Canvas 的小时数。会话在您启动 SageMaker Canvas 应用程序时开始,并在您退出时结束。
- 训练费用:此费用基于用来训练您的模型的数据集大小。您要按单元格数量付费,计算方法为数据集的列数乘以行数。
有关详细信息,请参阅 SageMaker Canvas 定价页面。
问:如何退出 Amazon SageMaker Canvas?
您可以通过点击左侧导航窗格底部的账户退出 SageMaker Canvas。或者,您的管理员可以通过 AWS 管理控制台帮助您退出。会话费用将在您退出后停止累计。
协作
问:我可以与数据科学家共享在 Amazon SageMaker Canvas 中构建的模型并与他们协作吗?
可以。您可以与在 SageMaker Studio 中工作的数据科学家共享在 SageMaker Canvas 中构建的 ML 模型。他们可以审查、更新并与您共享更新后的模型版本,因此您可以在 SageMaker Canvas 中对新版本生成预测。
在 SageMaker Canvas 中构建和训练标准模型后,您可以使用 SageMaker Canvas 中的共享按钮共享您的 ML 模型。您可以选择将模型共享给 SageMaker Studio 中的单个用户或多个用户。
问:哪些 ML 模型构件可以从 SageMaker Canvas 共享到 SageMaker Studio?
从 SageMaker Canvas 共享的 ML 模型和构件将包含数据集、数据转换(包括配方数据流和转换代码)、候选模型列表和推荐模型、数据探索报告、候选定义笔记本和可解释性指标(包括特征重要性)。
问:数据科学家可以编辑和更新哪些构件?
使用 SageMaker Studio 的数据科学家可以查看模型构件并从 SageMaker Autopilot 的候选者列表中推荐替代候选者。此外,他们还可以使用 SageMaker Data Wrangler 打开和更新数据转换,使用 SageMaker Autopilot 更新模型,以及共享新模型版本。
问:SageMaker Studio 用户如何更新从 SageMaker Canvas 收到的模型?
SageMaker Studio 用户可以使用 SageMaker Studio 中的共享按钮发送模型版本的更新。来自 SageMaker Studio 的更新模型将作为原始共享模型的新版本直接出现在 SageMaker Canvas 中。
问:如何区分我的原始共享模型和新的共享模型?
更新后的模型在 SageMaker Canvas 中自动进行版本控制。您可以通过 SageMaker Canvas 中的下拉菜单访问模型的不同版本。
问:我可以从 SageMaker Canvas 共享哪些用例和模型类型到 SageMaker Studio?
您可以共享包含 SageMaker Canvas 中所有用例的表格数据的标准构建模型,包括客户流失、预测房价、销售预测、预测贷款违约、预测医院病床占用率和时间序列预测模型。
自带 ML 模型
问:数据科学家能否共享在 SageMaker 外部构建的模型,以便我可以在 SageMaker Canvas 中对这些模型生成预测?
可以。在 SageMaker 模型注册表中注册后,数据科学家就可以共享由其他工具构建的任何 ML 模型,从而使您可以在 SageMaker Canvas 中生成对这些模型的预测。数据科学家还可以共享源自 SageMaker 的模型,包括来自 SageMaker Autopilot 和 SageMaker JumpStart 的模型,因此您可以直接在 SageMaker Canvas 中生成对这些模型的预测。
问:如何在 SageMaker Canvas 中发现共享模型?
可以通过 SageMaker Canvas 模型页面访问共享模型。
问:如何在 SageMaker Studio 中发现共享模型?
可通过 SageMaker Studio 中的共享模型和笔记本页面访问共享模型。