选择合适的 AI 和 ML 服务、框架和基础模型来支持您的工作
简介
从最基本的角度来说,机器学习(ML)旨在提供数字工具和服务,用于从数据中学习、识别模式、做出预测,然后根据这些预测采取行动。如今几乎所有人工智能(AI)系统都是使用机器学习创建的。机器学习使用大量数据来创建和验证决策逻辑。这种决策逻辑构成了人工智能“模型”的基础。
机器学习的一个快速增长的子集是生成式人工智能,它由大型模型提供支持,这些模型在大量数据上进行预训练,通常称为基础模型(FM)。基于生成式人工智能的 AWS 服务包括:
- Amazon Bedrock(它为您提供了一种使用基础模型构建和扩展基于生成式人工智能的应用程序的方法)
- Amazon CodeWhisperer(一款 AI 编码配套程序,可根据您以自然语言撰写的评论以及集成式开发环境中的任何先前代码实时生成代码建议)
本决策指南将帮助您提出正确的问题,评估您的标准和业务问题,并确定哪些服务最能满足您的需求。
This is a modal window.
在不到两分钟的时间内,Amazon 首席技术官 Werner Vogels 博士解释了生成式人工智能的工作原理以及您可以如何使用它。这段视频摘自Vogels 博士和 AWS 数据库、分析和机器学习副总裁 Swami Sivasubramanian 之间较长时间的讨论,内容涉及生成式人工智能的广阔前景、为什么它并非炒作,以及 AWS 如何普及大型语言和基础模型的使用。
阅读时间
25 分钟
用途
帮助确定哪些 AWS ML 服务最能满足您的需求。
级别
新手
上次更新日期
2023 年 7 月 26 日
涵盖的服务
了解
此外,AWS 还提供以下专用的加速硬件,用于高性能 ML 训练和推理。
- Amazon EC2 P4d 实例配备了 NVIDIA A100 Tensor Core GPU,非常适合机器学习中的训练和推理任务。AWS Trainium 是 AWS 专门为超过 1000 亿个参数模型的深度学习训练打造的第二代机器学习加速器。
- 基于 AWS Inferentia2 的 Amazon EC2 Inf2 实例旨在以最低的成本在 Amazon EC2 中为您的 DL 推理和生成式人工智能应用程序提供高性能。
考虑
使用 AWS ML 服务解决业务问题时,考虑几个关键标准有助于确保成功。以下部分概述了选择机器学习服务时需要考虑的一些关键标准。
-
问题定义
-
ML 算法
-
安全性
-
延迟
-
准确性
-
AWS 和负责任的 AI
-
机器学习生命周期的第一步是确定业务问题的范围。了解您要解决的问题对于选择正确的 AWS ML 服务至关重要,因为不同的服务旨在解决不同的问题。确定机器学习是否最适合您的业务问题也很重要。
确定机器学习最适合后,您就可以从一系列专门构建的 AWS AI 服务(语音、视觉和文档等领域)中进行选择。
如果您需要构建和训练自己的模型,Amazon SageMaker 可以提供完全托管的基础设施。对于需要高度自定义和专业机器学习模型的情况,AWS 提供了一系列高级机器学习框架和基础设施选择。AWS 还提供一系列热门的基础模型,用于使用生成式人工智能构建新应用程序。
-
为您要解决的业务问题选择机器学习算法,取决于您正在处理的数据类型以及预期的结果。以下信息概述了每个主要的 AWS AI/ML 服务类别如何帮助您使用其算法:
- 专业 AI 服务:这些服务自定义机器学习算法的能力有限,因为它们是针对特定任务优化的预训练模型。通常,您可以自定义输入数据和某些参数,但无法访问底层机器学习模型,也无法构建自己的模型。
- Amazon SageMaker:该服务为机器学习算法提供了最大的灵活性和控制力。您可以通过 SageMaker 使用自己的算法和框架构建自定义模型,也可以使用 AWS 提供的预建模型和算法。这有助于对机器学习过程进行高度定制和控制。
- 低级别机器学习框架和基础设施:这些服务为机器学习算法提供了最大的灵活性和控制力。您可以通过这些服务,使用它们自己的算法和框架来构建高度宗旨的机器学习模型。但是,使用这些服务需要大量的机器学习专业知识,可能并不适用于所有使用案例。
-
如果您需要在 VPC 中使用私有端点,则您的选项会根据所使用的 AWS ML 服务层而有所不同。其中包括:
- 专业 AI 服务:大多数专业 AI 服务目前不支持 VPC 中的私有端点。但是,可以使用 VPC 端点访问 Amazon Rekognition Custom Labels 和 Amazon Comprehend Custom。
- 核心 AI 服务:Amazon Translate、Amazon Transcribe 和 Amazon Comprehend 都支持 VPC 端点。
- Amazon SageMaker:SageMaker 为 VPC 端点提供内置支持,帮助您将经过训练的模型部署为只能从其 VPC 内部访问的端点。
- 较低级别的机器学习框架和基础设施:您可以在 Amazon EC2 实例或 VPC 内的容器中部署模型,从而完全控制联网配置。
-
更高级别的 AI 服务(例如 Amazon Rekognition 和 Amazon Transcribe)设计为可处理各种使用案例,并在同等速度下提供高性能。但是,它们可能无法满足特定延迟要求。
如果您使用的是较低级别的机器学习框架和基础设施,我们建议您使用 Amazon SageMaker。由于其完全托管的服务和优化的部署选项,此选项通常比构建自定义模型更快。尽管高度优化的自定义模型在性能上可能优于 SageMaker,但它需要大量的专业知识和资源才能构建。
-
AWS ML 服务的准确性因具体使用案例和所需的自定义级别而异。更高级别的 AI 服务(例如 Amazon Rekognition)基于预训练模型构建,这些模型已针对特定任务进行优化,并且能在许多使用案例中提高很高的准确性。
在某些情况下,您可以选择使用 Amazon SageMaker,它为构建和训练自定义机器学习模型提供了更加灵活和可自定义的平台。通过构建自己的模型,您可能能够实现比预训练模型更高的准确度。
您还可以选择使用机器学习框架和基础设施(例如 TensorFlow 和 Apache MXNet)来构建高度自定义的模型,从而为您的特定使用案例提供尽可能高的准确性。
-
AWS 构建基础模型(FM)时,在其开发过程的每个阶段都秉持负责任 AI 的理念。在设计、开发、部署和运营过程中,我们会考虑一系列因素,包括:
- 准确性(摘要与基础文档的匹配程度;传记是否真实正确)
- 公平性(输出是否以同样的方式对待人口群体)
- 知识产权和版权注意事项
- 适当用法(筛选掉用户对法律咨询的请求、医疗诊断或非法活动)
- 毒性(仇恨言论、亵渎和侮辱)
- 隐私性(保护个人信息和客户提示)
AWS 将这些问题的解决方案融入了获取训练数据的流程、基础模型本身以及用于预处理用户提示和后处理输出的技术中。
选择
现在您已经了解评估 ML 服务选项所依据的标准,并且已准备好选择适用于贵组织需求的 AWS ML 服务。
下表突出显示了不同 ML 服务针对哪些情况进行了优化。可以使用它来帮助确定最适用于贵组织应用场景的 AWS ML 服务。
使用
现在,您应该已经清楚了解选择 AWS ML 服务时需要应用的标准,现在可以选择哪些 AWS AI/ML 服务针对您的业务需求进行了优化。
为了探索如何使用您选择的服务,以及了解有关这些服务的更多信息,我们提供了三组途径,用于探索各种服务的工作原理。第一组路径提供深入的文档、动手教程和资源,可帮助您开始使用 Amazon Comprehend、Amazon Textract、Amazon Translate、Amazon Lex、Amazon Polly、Amazon Rekognition 和 Amazon Transcribe。
-
Amazon Comprehend
-
Amazon Textract
-
Amazon Translate
-
Amazon Lex
-
Amazon Polly
-
Amazon Rekognition
-
Amazon Transcribe
-
Amazon Comprehend
-
Amazon Textract
-
Amazon Translate
-
-
Amazon Lex
-
Amazon Polly
-
Amazon Rekognition
-
Amazon Transcribe
-
第二组 AI/ML AWS 服务路径提供了深入的文档、动手教程和资源,可帮助您开始使用 Amazon SageMaker 系列中的服务。
-
SageMaker
-
SageMaker Autopilot
-
SageMaker Canvas
-
SageMaker Data Wrangler
-
SageMaker Ground Truth/Ground Truth Plus
-
SageMaker JumpStart
-
SageMaker Pipelines
-
SageMaker Studio
-
SageMaker
-
Amazon SageMaker 的工作原理
浏览机器学习概述以及 SageMaker 的工作原理。Amazon SageMaker 入门
了解如何加入 Amazon SageMaker 域,从而访问 Amazon SageMaker Studio 和 RStudio on SageMaker。
探索指南 »将 Apache Spark 与 Amazon SageMaker 结合使用
了解如何使用 Apache Spark 进行数据预处理,以及如何使用 SageMaker 进行模型训练和托管。
探索指南 »使用 Docker 容器来构建模型
探索 Amazon SageMaker 如何广泛使用 Docker 容器执行构建和运行时系统任务。了解如何为 Docker 容器的内置算法以及支持的用于训练和推理的深度学习框架部署预构建的 Docker 映像。
探索指南 »
机器学习框架和语言
了解如何通过 Amazon SageMaker Python SDK 开始使用 SageMaker。 -
SageMaker Autopilot
-
为表格数据创建 Amazon SageMaker Autopilot 试验
了解如何创建 Amazon SageMaker Autopilot 试验,以便在表格数据集中探索、预处理和训练各种候选模型。自动创建机器学习模型
学习如何使用 Amazon SageMaker Autopilot 自动创建、训练、优化机器学习模型,并部署该模型以生成预测。
探索如何使用这些示例笔记本为 Amazon SageMaker Autopilot 建模
探索用于直接营销、客户流失预测的示例笔记本,以及如何将自己的数据处理代码引入 Amazon SageMaker Autopilot。 -
SageMaker Canvas
-
在不编写代码的情况下生成机器学习预测
本教程介绍了如何使用 Amazon SageMaker Canvas 在不编写任何代码的情况下构建机器学习模型并生成准确的预测。
开始使用教程 »深入了解 SageMaker Canvas
深入了解 SageMaker Canvas 及其可视化、无代码机器学习功能。使用 Amazon SageMaker Canvas 创建您的第一个机器学习模型
了解如何使用 Amazon SageMaker Canvas 创建机器学习模型,根据针对新产品和服务的电子邮件营销活动来评测客户留存率。 -
SageMaker Data Wrangler
-
Amazon SageMaker Data Wrangler 入门
探索如何设置 SageMaker Data Wrangler,然后使用现有的示例数据集进行演练。
探索指南 »用最少的代码为机器学习准备训练数据
了解如何使用 Amazon SageMaker Data Wrangler 为机器学习准备数据。
开始使用教程 »SageMaker Data Wrangler 深入探究研讨会
了解如何对数据集应用适当的分析类型来检测异常和问题,如何使用派生的结果/见解在数据集转换过程中制定补救措施,以及如何使用 SageMaker Data Wrangler 提供的快速建模选项测试正确的转换选择和顺序。 -
SageMaker Ground Truth/Ground Truth Plus
-
标记用于机器学习的训练数据
了解如何在 Amazon SageMaker Ground Truth 中设置标注作业,以便为您的机器学习模型注释训练数据。
Amazon Ground Truth Plus 入门
探索如何完成必要的步骤来启动 Amazon SageMaker Ground Truth Plus 项目、查看标签并满足 SageMaker Ground Truth Plus 先决条件。Amazon Ground Truth 入门
观看如何通过 SageMaker Ground Truth 控制台在几分钟内开始标注数据。
Amazon SageMaker Ground Truth Plus — 无需代码或内部资源即可创建训练数据集
了解一站式服务 Ground Truth Plus,它使专业人员能够快速提供高质量的训练数据集,并将成本降低多达 40%。
-
SageMaker JumpStart
-
使用 SageMaker JumpStart 开始机器学习
探索可为常见使用案例设置基础设施的解决方案模板,以及用于 SageMaker 机器学习的可执行示例笔记本。
探索指南 »利用 Amazon SageMaker JumpStart 快速启动您的机器学习项目
了解如何利用 Amazon SageMaker JumpStart 提供的预训练模型和预构建解决方案快速启动您的机器学习项目。然后,您可以通过 Amazon SageMaker Studio 笔记本部署所选模型。
在本次沉浸式日研讨会中亲身体验 Amazon SageMaker JumpStart
了解 Amazon SageMaker Data Wrangler、Autopilot 和 Jumpstart 中的低代码机器学习功能如何使您更轻松、更快速地进行试验并将高度精确的模型投入生产。
-
SageMaker Pipelines
-
Amazon SageMaker Pipelines 入门
了解如何创建管理和部署 SageMaker 作业的端到端工作流程。SageMaker Pipelines 集成了 SageMaker Python SDK,因此您可以使用基于 Python 的界面构建管道的每个步骤。
探索指南 »实现机器学习工作流的自动化
了解如何使用 Amazon SageMaker Pipelines、Amazon SageMaker 模型注册表和 Amazon SageMaker Clarify 创建和自动化端到端机器学习(ML)工作流。
开始使用教程 »如何借助 Amazon SageMaker Pipelines 创建完全自动化的机器学习工作流程
了解 Amazon SageMaker Pipelines,这是世界上首个机器学习 CI/CD 服务,其设计便于每位开发人员和数据科学家使用。SageMaker Pipelines 将 CI/CD 管道引入机器学习,从而缩短了所需的编码时间。
观看视频 » -
SageMaker Studio
第三组 AI/ML AWS 服务途径提供了深入的文档、动手教程和资源,可帮助您开始使用 Amazon Bedrock、Amazon CodeWhisperer、AWS Trainium、AWS Inferentia 和 Amazon Titan。
-
Amazon Bedrock
-
Amazon CodeWhisperer
-
AWS Trainium
-
AWS Inferentia
-
Amazon Titan
-
Amazon Bedrock
-
Amazon Bedrock 概述
了解 Amazon Bedrock 如何通过 API 提供来自领先的 AI 初创企业和 Amazon 的基础模型,使您可以从各种基础模型中进行选择,找到最适合您的使用案例的模型。
宣布在 AWS 上使用生成式人工智能进行构建的新工具
了解 Amazon Bedrock 的开发背景、它如何与更广泛的 AWS 人工智能和机器学习方法相适应,并概述 AWS 生成式人工智能服务的潜在用途。
揭开生成式人工智能的神秘面纱
在此视频中,Amazon 首席技术官 Werner Vogels 博士和 AWS 数据库、分析和机器学习副总裁 Swami Sivasubramanian 共聚一堂,讨论生成式人工智能的广阔前景,为什么它并非炒作,以及 AWS 如何普及大型语言和基础模型的使用。
-
Amazon CodeWhisperer
-
什么是 Amazon CodeWhisperer?
了解 CodeWhisperer 如何设计,以帮助为例行或耗时、无差异的任务创建代码、使用不熟悉的 API 或 SDK、正确有效地使用 AWS API 以及其他常见的编码场景,例如读写文件、图像处理和编写单元测试。
Amazon CodeWhisperer 入门
了解如何设置 CodeWhisperer 以便与四种可能的 IDE 一起使用:AWS Toolkit for JetBrains、AWS Toolkit for Visual Studio Code、AWS Toolkit for VS Code 和 AWS Cloud9。
Amazon CodeWhisperer 研讨会
了解如何为图像识别构建成熟的、由事件驱动的无服务器应用程序。借助 Amazon CodeWhisperer,您可以自己编写在 AWS Lambda 上运行的代码,以与 Amazon Rekognition、Amazon DynamoDB、Amazon SNS、Amazon SQS、Amazon S3、第三方 HTTP API 进行交互以执行图像识别。
-
AWS Trainium
-
使用 AWS Trainium 和 Amazon EKS 扩展分布式训练
了解如何从由 AWS Trainium 提供支持的 Amazon EC2 Trn1 实例的普遍可用性中受益。AWS Trainium 是一款专门构建的机器学习加速器,经过优化,可提供高性能、经济高效且可大规模扩展的平台,用于在云中训练深度学习模型。
AWS Trainium 概述
了解 AWS Trainium,即 AWS 专门为超过 1000 亿个参数模型的深度学习训练打造的第二代机器学习加速器。每个 Amazon Elastic Compute Cloud(EC2)Trn1 实例可部署多达 16 个 AWS Trainium 加速器,为云中的深度学习(DL)培训提供高性能、低成本的解决方案。
-
AWS Inferentia
-
AWS Inferentia2 在 AWS Inferentia1 的基础上构建,吞吐量提高了 4 倍,延迟降低至 1/10
了解 AWS Inferentia2 针对哪些应用进行了优化,并探索它是如何从头开始设计,以提供更高的性能,同时降低 LLM 和生成式人工智能推理的成本的。
使用 AWS Inferentia 进行机器学习推理
了解如何使用运行 Amazon EC2 Inf1 实例的节点创建 Amazon EKS 集群,以及(可选)部署示例应用程序。Amazon EC2 Inf1 实例由 AWS Inferentia 芯片提供支持,这些芯片由 AWS 定制构建,用于在云中提供高性能和最低成本的推理。
-
Amazon Titan
-
Amazon Titan 概述
探索 Amazon Titan FM 如何在大型数据集上进行预先训练,使其成为功能强大的通用模型。了解如何按原样使用或私下使用这些模型,以使用自己的数据为特定任务自定义这些模型,而无需注释大量数据。