跳至主要内容

AWS 解决方案库

使用 Amazon ECS 进行低延迟、高吞吐量模型推理指南

概览

本指南演示如何在 AWS 上构建每秒可处理数百万条请求的实时机器学习(ML)推理解决方案。通过在 Amazon Elastic Container Service(Amazon ECS)上托管解决方案的机器学习模型,并使用网络负载均衡器将请求路由到机器学习服务器,您可以实现低延迟并支持实时和程序化广告中常见的高吞吐量推理要求。本指南提供了应用机器学习进行广告请求筛选的示例,并演示了如何构建可以模拟发送到机器学习推理服务器的基于 OpenRTB 的高吞吐量请求的客户端应用程序。

工作原理

这些技术细节包含一张架构图,用于说明如何有效使用本解决方案。该架构图展示了关键组件及其相互作用,并逐步概述了架构的结构和功能。

Well-Architected 支柱

上面的架构图是按照 Well-Architected 最佳实践创建的解决方案示例。要做到完全的良好架构,您应该遵循尽可能多的 Well-Architected 最佳实践。

Amazon CloudWatch 监控亚马逊 ECS 集群的性能(包括 CPU 和内存)以及通过网络负载均衡器发送的传入请求。您的 CloudWatch 仪表板(作为 AWS CloudFormation 脚本的一部分创建)可全面查看传入请求的数量及其相关的延迟。通过使用 CloudWatch 来可视化和分析性能和延迟,您可以更好地识别应用程序中的任何瓶颈。

阅读卓越运营白皮书

通过将所有 AWS 身份和访问管理 (IAM) 策略的范围缩小到服务正常运行所需的最低权限,您可以限制对资源的未经授权的访问。

阅读安全白皮书

Amazon ECS 集群运行的服务定义可维持 EC2 实例的所需容量。如果其中一个实例不可用,则新实例将自动启动并注册到 Amazon ECS 集群中作为运行状况良好的目标,以接收网络负载均衡器路由的传入请求。

阅读可靠性白皮书

Amazon EC S 通信的@@ 网络负载均衡器支持适合此用例的低毫秒延迟和高吞吐量。

阅读性能效率白皮书

Amazon EC2 Auto Scaling 组允许您在所需的容量下运行应用程序,同时为基于负载的扩展提供动态支持。自动扩缩会根据负载和扩缩策略来增加或减少基础设施。这可以帮助您控制与运行应用程序相关的成本。

阅读成本优化白皮书

基于 Amazon EC2 的 Amazon ECS 集群允许您为特定工作负载选择适当的硬件类型和配置,以便它们高效运行。因此,您可以最大限度地提高利用率并避免过度预置资源。本指南专为低延迟和高性能的模型推理工作负载而设计,因此相应的 EC2 实例类型由 AWS Graviton3 提供支持。该服务消耗的能源最多可减少 60%,性能与同类 EC2 实例相同,从而帮助您减少碳足迹。

阅读可持续发展白皮书

免责声明

示例代码;软件库;命令行工具;概念验证;模板;或其他相关技术(包括由我方人员提供的任何前述项)作为 AWS 内容按照《AWS 客户协议》或您与 AWS 之间的相关书面协议(以适用者为准)向您提供。您不应将这些 AWS 内容用在您的生产账户中,或用于生产或其他关键数据。您负责根据特定质量控制规程和标准测试、保护和优化 AWS 内容,例如示例代码,以使其适合生产级应用。部署 AWS 内容可能会因创建或使用 AWS 可收费资源(例如,运行 Amazon EC2 实例或使用 Amazon S3 存储)而产生 AWS 费用。

找到今天要查找的内容了吗?

请提供您的意见,以便我们改进网页内容的质量。