面向数据科学家的 Amazon SageMaker

面向数据科学家的 Amazon SageMaker

数据科学

数以万计的的数据科学家都在使用 Amazon SageMaker,因为 SageMaker 可以利用机器学习 (ML) 轻松解决业务问题。SageMaker Studio 为机器学习提供完全集成的开发环境 (IDE),因此您可以通过简单的视觉体验来准备数据以及构建、训练和部署模型。总体而言,使用 SageMaker 可以将数据科学团队的生产效率提高 10 倍之多。

机器学习

透明度

偏差是指对不同群体(如年龄或收入阶层)进行预测时准确性表现出的失衡。偏差可能是由训练模型所用的数据或算法导致的。机器学习领域提供了一个机会,可以通过在您的数据和模型中进行检测来消除偏差。

检测偏差并了解预测

Amazon SageMaker Clarify 会提供数据,以便在数据准备期间和训练完成后通过进行偏差检测来提高模型质量。SageMaker Clarify 还提供模型可解释性报告,以便利益相关者可以看到模型做出预测的方式和原因。

了解更多 »
SageMaker Clarify

收集和准备训练数据

Amazon SageMaker 可以为您提供创建高质量训练数据所需的一切工具。您可以轻访问来自 AWS 和第三方数据源的数据、标记数据、自动清除和转换数据以及可视化数据,以便设计模型特征。

在几分钟内准备机器学习数据

借助 SageMaker Data Wrangler 的数据选择工具,您可以从多个数据源中快速选择数据,例如 Amazon Athena、Amazon Redshift、AWS Lake Formation、Amazon S3 和 Amazon SageMaker Feature Store。您可以编写数据源查询,并将数据从各种文件格式直接导入到 SageMaker,然后使用 SageMaker Data Wrangler 的可视化模板和内置数据转换确保将准备的数据生成准确的机器学习模型。

了解更多 »
SageMaker Data Wrangler

数据标记

Amazon SageMaker Ground Truth 可帮助您构建用于机器学习的高准确度训练数据集。通过 SageMaker Ground Truth 控制台,您可以使用自定义或内置数据标记工作流(包括 3D 点云、视频、图像和文本),在几分钟内开始标记数据。

开始使用 »
SageMaker Ground Truth

低延迟特征存储

Amazon SageMaker Feature Store 是一个完全托管的存储库,用于存储、更新、检索和共享机器学习特征。SageMaker Feature Store 可以批量提供完全相同的特征用于训练,并可以实时提供完全相同的特征用于推理,因此您无需编写代码即可保持特征的一致性。您可以轻松地添加新特征、更新现有特征、批量检索特征用于训练,并可在毫秒级延迟低至个位数的情况下获得相同特征,用于实时推理。

了解更多 »
SageMaker Feature Store

构建模型

准备好数据之后,Amazon SageMaker 会为您提供迭代尝试各种建模技术以评估其性能所需的所有工具。您可以选择不同的算法,包括超过 15 种内置于 SageMaker 且已针对它进行了优化的算法。此外,仅需单击几下即可从热门 Model Zoo 中获得 150 多种预构建模型。在 SageMaker Studio 中,您可以小规模运行模型,来查看结果和性能报告,帮助您设计出高质量的工作原型。

一键式 Jupyter 笔记本

Amazon SageMaker Studio Notebooks 是一键式 Jupyter 笔记本,可以快速启动。底层计算资源极具弹性,让您可以轻松启用或关闭可用资源,并且更改将在后台自动进行,不会干扰您的工作。只需单击一次即可共享笔记本,您的同事可以获得保存在同一位置的完全相同的笔记本。

开始使用 »
SageMaker Studio 笔记本

内置算法

Amazon SageMaker 还在预构建的容器映像中提供超过 15 种可用的算法,这些容器可被用来快速训练与运行推理。

开始使用 »
内置算法

本地模式

Amazon SageMaker 使在本地进行测试和原型构建成为可能。SageMaker 中使用的 Apache MXNet 和 TensorFlow Docker 容器可在 GitHub 上获取。您可以将这些容器下载到本地环境,使用 SageMaker Python 开发工具包测试脚本,然后再部署到 SageMaker 训练或托管环境。 

开始使用 »
SageMaker 本地模式

强化学习

除传统的监督和自主学习外,Amazon SageMaker 还支持强化学习。SageMaker 具有内置、完全托管的强化学习算法,包括学术文献中的一些最新和最佳表现的算法。

开始使用 »
强化学习

训练和调优模型

Amazon SageMaker 可提供训练和调优模型所需的一切。您可以轻松地管理不同的训练运行,以隔离和衡量更改数据集、算法版本和模型参数的效果,或者利用自动模型调优。

组织、跟踪和评估训练运行

Amazon SageMaker Experiments 会自动捕获训练输入参数、配置和结果,并将它们存储为“实验”。您可以浏览进行中的实验,根据实验特征搜索先前的实验、查看先前的实验及其结果,以及直观比较实验结果。

开始使用 »
SageMaker Experiments

检测和调试问题

Amazon SageMaker 调试程序可以实时捕获指标,因此您可以在将模型部署到生产之前快速纠正性能问题。

了解更多 »
SageMaker 调试程序

托管型 Spot 训练

Amazon SageMaker 提供托管型 Spot 训练,帮助您将训练成本降低高达 90%。此功能使用 Amazon EC2 Spot 实例(AWS 的备用计算容量)。当有可用计算容量时,训练作业将自动运行,并且能在因容量变化而造成中断后恢复,因此您可以灵活选择训练作业的运行时间,从而节省成本。

开始使用 »
托管型 Spot 训练

自动模型调优

Amazon SageMaker 可以通过调整数千个不同的算法参数组合来自动优化您的模型,从而达到模型能够实现的最精准预测,减少数周的工作量。自动模型调优使用机器学习快速优化您的模型,使其尽可能准确。 

开始使用 »
自动模型调优

将模型部署到生产中

Amazon SageMaker 可以不断提供在生产环境中部署机器学习模型和监控模型质量在一段时间内变化所需的一切,以此支持您轻松生成预测。 

自动化工作流

Amazon SageMaker Pipelines 可帮助您使用 CI/CD 实践大规模地创建、自动化和管理端到端机器学习工作流。创建工作流后,即可在 SageMaker Studio 中对他们进行可视化和管理。SageMaker Pipelines 负责管理机器学习工作流每一步之间的依赖关系。您可以随时使用更新的数据重新运行完整的工作流,以保持模型的准确性,并与其他团队共享工作流,开展项目协作。 

了解更多 »
SageMaker Pipelines

持续监控模型

Amazon SageMaker Studio 模型监控器会自动检测模型中的概念偏差,并提供详细的警报,帮助确定问题的根源,以便您不断提高模型质量。通过 SageMaker 训练的所有模型都会自动发送关键指标,这些指标可以在 SageMaker Studio 中收集和查看。

了解更多 »
SageMaker 模型监控器

人工审核

许多机器学习应用程序都要求人工审核低置信度预测,以确保结果正确无误。Amazon Augmented AI 为常见的机器学习使用案例提供内置的人工审核工作流。

开始使用 »

批量转换

使用 Amazon SageMaker 批量转换后,将无需调整批处理作业大型数据集的大小。通过批量转换,您可以使用简单的 API 对大批量或小批量数据集运行预测。 

开始使用 »

多模型终端节点

Amazon SageMaker 提供了一种可扩展且经济高效的方法来部署大量自定义机器学习模型。借助 SageMaker 多模型终端节点,您只需单击一个终端节点即可部署多个模型,并使用单个服务容器提供服务。

开始使用 »

面向数据科学家的 Amazon SageMaker 资源

JPMorgan Chase 机器学习数据科学家的一天 (34:41)