执行所有 ML 开发步骤,从准备原始数据到部署和监控 ML 模型,并在一个基于 Web 的可视化界面中访问最全面的工具集。
在 ML 生命周期的各个步骤之间快速移动,以调整您的模型。无需离开 SageMaker Studio,即可重新播放训练实验、调整模型特征和其他输入并比较结果。
通过访问超过 150 个热门的开源模型和超过 15 个预构建的解决方案,在几分钟内构建 ML 模型。只需点击几下,即可使用您自己的数据创建 ML 模型。
Amazon SageMaker Studio 是一个集成式开发环境(IDE),它提供了一个基于 Web 的可视化界面,您可以在其中访问专用工具来执行所有机器学习(ML)开发步骤,从准备数据到构建、训练和部署 您的 ML 模型,将数据科学团队的生产力提高多达 10 倍。您可以快速上传数据、创建新笔记本、训练和调整模型,在步骤之间来回切换以调整实验、在组织内部无缝协作以及在不离开 SageMaker Studio 的情况下将模型部署到生产环境中。
工作原理

主要功能
准备数据
只需点击几下即可准备数据,几乎不需要代码
使用 SageMaker Data Wrangler 可以连接到 40 多个 AWS 和第三方数据来源、导入数据、验证数据质量、使用 300 多种内置数据转换设计模型特征,而且只需点击几下即可将它们保存到 SageMaker Feature Store。可以使用 SageMaker Pipelines 创建或安排 Data Wrangler 作业以大规模处理数据,并在 ML 工作流程中自动执行数据准备步骤。
使用 SageMaker Studio 笔记本准备数据
借助数据工程、分析和 ML 所用的统一笔记本环境简化您的数据工作流程。直接从 Studio 笔记本创建、浏览和连接到 Amazon EMR 集群和 AWS Glue 交互式会话。直接在笔记本上使用 Spark UI 等熟悉的工具监控和调试 Spark 作业。直接从 Studio 笔记本使用 SageMaker Data Wrangler 提供的内置数据比较功能将数据可视化、识别数据质量问题以及应用建议的解决方案,从而在无需写入任何一行代码的情况下提高数据质量和模型准确性。
只需点击几下即可处理数据
使用 SageMaker Processing 可以连接到数据存储,启动资源以运行数据处理作业、将输出保存到持久存储,并提供日志和指标。
中央特征存放区
使用 SageMaker Studio 中的 SageMaker Feature Store(一个完全托管的专用存储库)可以存储、共享和管理用于训练和推理的 ML 模型特征,促进跨 ML 应用程序的特征重用。您可以在训练和推理期间持续地获得相同特征,将部署时间缩短数个月。
构建
快速启动 SageMaker Studio 笔记本
在 SageMakerStudio 中一键访问完全托管的 Jupyter 笔记本。SageMaker Studio 笔记本预先配置了针对(AWS 优化的)TensorFlow 和 PyTorch 的深度学习环境,可帮助您快速开始构建模型。您可以调高或调低底层计算资源,而不会中断您的工作。
简化笔记本协作
共同编辑同一个笔记本文件,同时运行笔记本代码,并一起查看结果,以简化协作。所有资源将自动标记,可更容易监控 SageMaker Studio 的成本和使用情况。
内置算法
使用预构建容器映像中提供的超过 15 种内置算法,可快速训练和运行推理,或将您自己的自定义图像带入 SageMaker Studio。
AutoML
使用 SageMaker Autopilot,根据您的数据自动构建、训练和调整最佳 ML 模型,同时保持完全控制和可见性。然后,只需一次点击即可直接将模型部署到生产环境中。您可以为 SageMaker Autopilot 创建的任意模型自动生成 SageMaker Studio 笔记本,并深入了解其创建方式,根据需要对其进行细化,并从笔记本中重新创建它。
预构建解决方案和开源模型
使用 SageMaker JumpStart,只需点击几下即可部署预构建数百个解决方案,从而快速开始使用 ML。
训练
分布式训练
只需点击一下即可设置分布式计算集群、执行训练、将结果输出到 Amazon Simple Storage Service(S3),然后销毁集群。使用 SageMaker Training Compiler,通过 SageMaker 数据并行库和模型并行库大规模训练模型,并通过图形和内核级优化将训练过程加速多达 50%。通过使用托管竞价型实例训练,您可以将成本降低多达 90%。
实验管理和跟踪
通过使用 SageMaker Experiments 捕获输入参数、配置和结果,并将它们存储为实验,从而跟踪对 ML 模型的迭代。您可以浏览进行中的实验、搜索和查看先前的实验以及比较各实验的结果。
自动模型调优
通过调整数千个算法参数组合来自动优化您的模型,从而达到模型能够实现的最精准预测,减少数个星期的工作量。
调试与分析训练运行
使用 SageMaker Debugger 实时捕获指标并分析训练作业,因此您可以在将模型部署到生产环境前快速纠正性能问题。
部署和管理
更轻松部署
只需点击一下,即可将经过训练的模型部署到生产环境中。访问 SageMaker Studio 中的 SageMaker 模型部署,满足从低延迟(几毫秒)和高吞吐量(每秒数十万个请求)到针对自然语言处理和计算机视觉等使用案例的长时间运行推理的所有推理需求。
多模型端点
在使用 SageMaker 的多模型端点和多容器端点在单个端点上部署数千个模型,从而提高成本效益,同时提供根据需要随时使用模型的灵活性。
集中跟踪和管理模型版本
使用 SageMaker 模型注册表跟踪模型版本、它们的元数据和性能,从而根据您的业务需求轻松选择正确的模型进行部署。此外,您可以自动记录审核和合规的批准工作流程。
为生产应用快速交付新模型
使用 SageMaker Projects 将持续集成和交付(CI/CD)实践引入 ML,例如保持开发和生产环境之间的一致性、源代码和版本控制、A/B 测试以及自动化。
持续模型监控
通过使用 SageMaker Studio 中的 SageMaker Model Monitor 实时检测模型漂移和概念漂移来保持质量。通过 SageMaker 训练的所有模型都会自动发送关键指标,这些指标可以在 SageMaker Studio 中收集和查看。
将笔记本代码自动转换为生产就绪型作业
选择笔记本后,Amazon SageMaker Studio 笔记本会创建整个笔记本的快照,并将其依赖项打包到容器中,构建基础设施,将笔记本作为自动化作业按从业者设置的日程运行,并在完成后取消预置基础设施,从而将笔记本移至生成环境中的时间从数周缩短到数小时。
自动化模型构建工作流程
使用 SageMaker Pipelines 自动化整个模型构建工作流程,包括数据准备、特征工程、模型训练、模型调整和模型验证。您可以将 SageMaker Pipelines 配置为定期或在发生某些事件时自动运行,或根据需要手动运行它们。
在 ML 模型中检测偏差
通过使用 SageMaker Clarify 检查您指定的属性,检测并限制数据准备期间、模型训练后和部署模型中的潜在偏差。SageMaker Clarify 还会提供模型可解释性报告,使利益相关者可以了解模型做出相关预测的方法和原因。
客户

借助 SageMaker Studio,AstraZeneca 得以快速部署解决方案来分析大量数据,加速洞察,同时减少其数据科学家的手动工作负载 — 这对于 AstraZeneca 的使命,即为世界各地的人们发现和开发改变生活的药物至关重要。
“我们可以在 Amazon SageMaker Studio 中轻松自动化大部分 ML 开发流程,而不需要创建许多手动流程。”
AstraZeneca 全球高级企业架构师 Cherry Cabading

INVISTA 使用 Studio 中的 Amazon SageMaker Experiments 进行模型跟踪。通过使用一个简单的界面来管理实验,获得更广泛的项目,并以结构化的方式添加新的模型、指标和性能,INVISTA 加速了数据科学价值的实现。
“借助 Amazon SageMaker Studio,我们现在能够将数据科学任务置于同一位置。这使我们能够节省管理基础设施和存储库的时间,并帮助我们缩短将算法和分析项目部署到生产环境中的时间。”
INVISTA 分析和云主管 Tanner Gonzalez

借助 SageMaker Studio 和 Experiments,SyntheticGestalt 可以以 2 倍的速度确定最佳实验设置,最终加速生产改变生命的候选分子的能力。
“SageMaker 能帮助我们的研究人员轻松比较数千个实验设置;他们只需一步就能完成以前需要我们的研究人员耗费数小时才能完成的工作。”
SyntheticGestalt Ltd. 首席技术官 Kotaro Kamiya
