有关 AWS 上的智能产品人工智能训练的指引

概览

本指引将展示如何为智能产品构建安全、灵活的多租户人工智能（AI）训练平台。客户可以将您平台的训练数据和机器学习（ML）模型与他们自己的数据结合使用。这样就创建了一个多租户基础设施，因此提高了敏捷性和成本效益。通过在 AWS 上构建多租户训练环境，您可以保护平台的数据、算法和服务免遭未经授权的访问，同时帮助客户安全地维护单独的数据集。随后，您的平台可以编排自动化模型训练管道，并集成数据和工作流。最终，这样可以帮助您的客户缩短上市时间。

工作原理

此架构图显示了如何为智能产品构建安全灵活的多租户人工智能 (AI) 训练环境。

下载架构图

Well-Architected 支柱

上面的架构图是按照 Well-Architected 最佳实践创建的解决方案示例。要做到完全的良好架构，您应该遵循尽可能多的 Well-Architected 最佳实践。

本指引可以帮助您使用托管式服务减轻平台的运营负担。通过集成 SageMaker 软件开发套件 (SDK)，您可以创建门户网站用户界面，帮助您的客户提交和管理培训作业，而且您无需担心底层培训基础架构。您和您的客户还可以将训练算法、训练数据集和训练容器保留在 Amazon S3 和 Amazon EFS 中的托管式数据湖中，这些数据湖提供了非常高的可靠性和可用性。这些数据湖将自动横向扩展以支持您的业务增长，同时最大限度地减少维护工作。此外，您还可以使用 Amazon SQS 整合数据流和工作流并通知客户管理任务和下载模型，以编排整体模型训练管道。

阅读卓越运营白皮书

本指引利用数据分离策略限制用户对敏感数据的访问，并将所有核心服务都放置在私有子网中，因此限制了公共互联网的访问。例如，您的管理员只能通过 AWS 虚拟专用网络 (AWS VPN) 连接访问堡垒主机和关键训练数据。Amazon EFS 的安全组规则可以帮助您只允许平台管理员进行访问，因此最终客户无法直接访问关键的训练源数据。此外，通过为 Amazon S3 设置访问策略，您可以允许个别客户上传和下载他们自己的数据，但无法访问或影响其他客户的数据。

阅读安全白皮书

用户通过应用程序负载均衡器登录到您的 Web 门户，应用程序负载均衡器将流量分配到目标计算实例。当亚马逊弹性计算云 (Amazon EC2) A uto Scaling 检测到运行状况不佳的实例时，它会终止该实例并启动一个新的实例，这样该服务就可以不间断地继续运行。本指引还使用专为实现高可用性和高可靠性而设计的 Amazon S3。客户可以使用 Amazon S3 存储模型构件。

阅读可靠性白皮书

SageMaker 可以帮助您大规模训练和调整模型，而无需管理基础设施。当您的客户从门户提交训练作业时，SageMaker 可以定义适当的训练资源，以帮助大规模分配训练工作负载。这样可以减少客户完成关键训练作业时所需的时间和成本。

阅读性能效率白皮书

只在客户提交训练作业时根据需要预置模型训练资源。您还可以应用亚马逊 SageMaker 储蓄计划来降低机器学习培训的成本。此外，通过定义 SageMaker ResourceConfig 以确定适当的机器学习实例和存储卷，您的客户可以在模型生命周期内动态管理他们的资源。此外，通过使用 AWS Auto Scaling，您的平台可以自动预置额外的所需实例来处理意外的培训门户工作负载，并在需求较低时自动缩小规模，这样您就无需托管空闲实例。AWS Auto Scaling 可以与 Amazon EC2 Auto Scaling 结合使用，以扩展更多的资源。

阅读成本优化白皮书

通过采用无服务器基础设施和托管式服务，您可以避免过度预置训练资源和存储资源，从而减少碳足迹。例如，SageMaker 和 AWS Auto Scaling 将只使用执行训练作业和训练门户时所需的计算资源，因此帮助您最大限度地减少了预置的计算资源。此外，您还可以将 Amazon S3 和 Amazon EFS 用作您的训练数据来源的数据湖。这些服务提供了多种存储类，以帮助您避免过度预置存储容量。

阅读可持续发展白皮书

免责声明

示例代码；软件库；命令行工具；概念验证；模板；或其他相关技术（包括由我方人员提供的任何前述项）作为 AWS 内容按照《AWS 客户协议》或您与 AWS 之间的相关书面协议（以适用者为准）向您提供。您不应将这些 AWS 内容用在您的生产账户中，或用于生产或其他关键数据。您负责根据特定质量控制规程和标准测试、保护和优化 AWS 内容，例如示例代码，以使其适合生产级应用。部署 AWS 内容可能会因创建或使用 AWS 可收费资源（例如，运行 Amazon EC2 实例或使用 Amazon S3 存储）而产生 AWS 费用。

找到今天要查找的内容了吗？

请提供您的意见，以便帮助我们提高页面内容的质量

有关 AWS 上的智能产品人工智能训练的指引

概览

工作原理

Well-Architected 支柱

免责声明

找到今天要查找的内容了吗？

了解

资源

开发人员

帮助

有关 AWS 上的智能产品人工智能训练的指引

概览

工作原理

Well-Architected 支柱

卓越运营

安全性

可靠性

性能效率

成本优化

可持续性

免责声明

找到今天要查找的内容了吗？

了解

资源

开发人员

帮助