
数以万计的的数据科学家都在使用 Amazon SageMaker,因为 SageMaker 可以利用机器学习 (ML) 轻松解决业务问题。SageMaker Studio 为机器学习提供完全集成的开发环境 (IDE),因此您可以通过简单的视觉体验来准备数据以及构建、训练和部署模型。总体而言,使用 SageMaker 可以将数据科学团队的生产效率提高 10 倍之多。

透明度
偏差是指对不同群体(如年龄或收入阶层)进行预测时准确性表现出的失衡。偏差可能是由训练模型所用的数据或算法导致的。机器学习领域提供了一个机会,可以通过在您的数据和模型中进行检测来消除偏差。
检测偏差并了解预测
Amazon SageMaker Clarify 会提供数据,以便在数据准备期间和训练完成后通过进行偏差检测来提高模型质量。SageMaker Clarify 还提供模型可解释性报告,以便利益相关者可以看到模型做出预测的方式和原因。

收集和准备训练数据
Amazon SageMaker 可以为您提供创建高质量训练数据所需的一切工具。您可以轻访问来自 AWS 和第三方数据源的数据、标记数据、自动清除和转换数据以及可视化数据,以便设计模型特征。
在几分钟内准备机器学习数据
借助 SageMaker Data Wrangler 的数据选择工具,您可以从多个数据源中快速选择数据,例如 Amazon Athena、Amazon Redshift、AWS Lake Formation、Amazon S3 和 Amazon SageMaker Feature Store。您可以编写数据源查询,并将数据从各种文件格式直接导入到 SageMaker,然后使用 SageMaker Data Wranger 的可视化模板和内置数据转换确保将准备的数据生成准确的机器学习模型。

数据标记
Amazon SageMaker Ground Truth 可帮助您构建用于机器学习的高准确度训练数据集。通过 SageMaker Ground Truth 控制台,您可以使用自定义或内置数据标记工作流(包括 3D 点云、视频、图像和文本),在几分钟内开始标记数据。

低延迟特征存储
Amazon SageMaker Feature Store 是一个完全托管的存储库,用于存储、更新、检索和共享机器学习 (ML) 特征。SageMaker Feature Store 可以批量提供完全相同的特征用于训练,并可以实时提供完全相同的特征用于推理,因此您无需编写代码即可保持特征的一致性。您可以轻松地添加新特征、更新现有特征、批量检索特征用于训练,并可在毫秒级延迟低至个位数的情况下获得相同特征,用于实时推理。

构建模型
准备好数据之后,Amazon SageMaker 会为您提供迭代尝试各种建模技术以评估其性能所需的所有工具。您可以选择不同的算法,包括超过 15 种内置于 SageMaker 且已针对它进行了优化的算法。此外,仅需单击几下即可从热门 Model Zoo 中获得 150 多种预构建模型。在 SageMaker Studio 中,您可以小规模运行模型,来查看结果和性能报告,帮助您设计出高质量的工作原型。
一键式 Jupyter 笔记本
Amazon SageMaker Studio Notebooks 是一键式 Jupyter 笔记本,可以快速启动。底层计算资源极具弹性,让您可以轻松启用或关闭可用资源,并且更改将在后台自动进行,不会干扰您的工作。只需单击一次即可共享笔记本,您的同事可以获得保存在同一位置的完全相同的笔记本。


本地模式
Amazon SageMaker 使在本地进行测试和原型构建成为可能。SageMaker 中使用的 Apache MXNet 和 TensorFlow Docker 容器可在 GitHub 上获取。您可以将这些容器下载到本地环境,使用 SageMaker Python 开发工具包测试脚本,然后再部署到 SageMaker 训练或托管环境。


训练和调优模型
Amazon SageMaker 可提供训练和调优模型所需的一切。您可以轻松地管理不同的训练运行,以隔离和衡量更改数据集、算法版本和模型参数的效果,或者利用自动模型调优。
组织、跟踪和评估训练运行
Amazon SageMaker Experiments 会自动捕获训练输入参数、配置和结果,并将它们存储为“实验”。您可以浏览进行中的实验,根据实验特征搜索先前的实验、查看先前的实验及其结果,以及直观比较实验结果。


托管型 Spot 训练
Amazon SageMaker 提供托管型 Spot 训练,帮助您将训练成本降低高达 90%。此功能使用 Amazon EC2 Spot 实例(AWS 的备用计算容量)。当有可用计算容量时,训练作业将自动运行,并且能在因容量变化而造成中断后恢复,因此您可以灵活选择训练作业的运行时间,从而节省成本。

自动模型调优
Amazon SageMaker 可以通过调整数千个不同的算法参数组合来自动优化您的模型,从而达到模型能够实现的最精准预测,减少数周的工作量。自动模型调优使用机器学习快速优化您的模型,使其尽可能准确。

将模型部署到生产中
Amazon SageMaker 可以不断提供在生产环境中部署机器学习模型和监控模型质量在一段时间内变化所需的一切,以此支持您轻松生成预测。
自动化工作流
Amazon SageMaker Pipelines 可帮助您使用 CI/CD 实践大规模地创建、自动化和管理端到端机器学习工作流。创建工作流后,即可在 SageMaker Studio 中对他们进行可视化和管理。SageMaker Pipelines 负责管理机器学习工作流每一步之间的依赖关系。您可以随时使用更新的数据重新运行完整的工作流,以保持模型的准确性,并与其他团队共享工作流,开展项目协作。

持续监控模型
Amazon SageMaker Studio 模型监控器会自动检测模型中的概念偏差,并提供详细的警报,帮助确定问题的根源,以便您不断提高模型质量。通过 SageMaker 训练的所有模型都会自动发送关键指标,这些指标可以在 SageMaker Studio 中收集和查看。

多模型终端节点
Amazon SageMaker 提供了一种可扩展且经济高效的方法来部署大量自定义机器学习模型。借助 SageMaker 多模型终端节点,您只需单击一个终端节点即可部署多个模型,并使用单个服务容器来提供这些模型。