- AWS 解决方案库›
- 有关 AWS 上的智能产品人工智能训练的指引
有关 AWS 上的智能产品人工智能训练的指引
概览
工作原理
此架构图显示了如何为智能产品构建安全灵活的多租户人工智能 (AI) 训练环境。
Well-Architected 支柱
上面的架构图是按照 Well-Architected 最佳实践创建的解决方案示例。要做到完全的良好架构,您应该遵循尽可能多的 Well-Architected 最佳实践。
本指引可以帮助您使用托管式服务减轻平台的运营负担。通过集成 SageMaker 软件开发套件 (SDK),您可以创建门户网站用户界面,帮助您的客户提交和管理培训作业,而且您无需担心底层培训基础架构。您和您的客户还可以将训练算法、训练数据集和训练容器保留在 Amazon S3 和 Amazon EFS 中的托管式数据湖中,这些数据湖提供了非常高的可靠性和可用性。这些数据湖将自动横向扩展以支持您的业务增长,同时最大限度地减少维护工作。此外,您还可以使用 Amazon SQS 整合数据流和工作流并通知客户管理任务和下载模型,以编排整体模型训练管道。
本指引利用数据分离策略限制用户对敏感数据的访问,并将所有核心服务都放置在私有子网中,因此限制了公共互联网的访问。例如,您的管理员只能通过 AWS 虚拟专用网络 (AWS VPN) 连接访问堡垒主机和关键训练数据。Amazon EFS 的安全组规则可以帮助您只允许平台管理员进行访问,因此最终客户无法直接访问关键的训练源数据。此外,通过为 Amazon S3 设置访问策略,您可以允许个别客户上传和下载他们自己的数据,但无法访问或影响其他客户的数据。
用户通过应用程序负载均衡器登录到您的 Web 门户,应用程序负载均衡器将流量分配到目标计算实例。当亚马逊弹性计算云 (Amazon EC2) A uto Scaling 检测到运行状况不佳的实例时,它会终止该实例并启动一个新的实例,这样该服务就可以不间断地继续运行。本指引还使用专为实现高可用性和高可靠性而设计的 Amazon S3。客户可以使用 Amazon S3 存储模型构件。
SageMaker 可以帮助您大规模训练和调整模型,而无需管理基础设施。当您的客户从门户提交训练作业时,SageMaker 可以定义适当的训练资源,以帮助大规模分配训练工作负载。这样可以减少客户完成关键训练作业时所需的时间和成本。
只在客户提交训练作业时根据需要预置模型训练资源。您还可以应用亚马逊 SageMaker 储蓄计划来降低机器学习培训的成本。此外,通过定义 SageMaker ResourceConfig 以确定适当的机器学习实例和存储卷,您的客户可以在模型生命周期内动态管理他们的资源。此外,通过使用 AWS Auto Scaling,您的平台可以自动预置额外的所需实例来处理意外的培训门户工作负载,并在需求较低时自动缩小规模,这样您就无需托管空闲实例。AWS Auto Scaling 可以与 Amazon EC2 Auto Scaling 结合使用,以扩展更多的资源。
通过采用无服务器基础设施和托管式服务,您可以避免过度预置训练资源和存储资源,从而减少碳足迹。例如,SageMaker 和 AWS Auto Scaling 将只使用执行训练作业和训练门户时所需的计算资源,因此帮助您最大限度地减少了预置的计算资源。此外,您还可以将 Amazon S3 和 Amazon EFS 用作您的训练数据来源的数据湖。这些服务提供了多种存储类,以帮助您避免过度预置存储容量。
免责声明
找到今天要查找的内容了吗?
请提供您的意见,以便帮助我们提高页面内容的质量