- AWS 解决方案库›
- 使用 Amazon ECS 进行低延迟、高吞吐量模型推理指南
使用 Amazon ECS 进行低延迟、高吞吐量模型推理指南
概览
工作原理
这些技术细节包含一张架构图,用于说明如何有效使用本解决方案。该架构图展示了关键组件及其相互作用,并逐步概述了架构的结构和功能。
Well-Architected 支柱
上面的架构图是按照 Well-Architected 最佳实践创建的解决方案示例。要做到完全的良好架构,您应该遵循尽可能多的 Well-Architected 最佳实践。
Amazon CloudWatch 监控亚马逊 ECS 集群的性能(包括 CPU 和内存)以及通过网络负载均衡器发送的传入请求。您的 CloudWatch 仪表板(作为 AWS CloudFormation 脚本的一部分创建)可全面查看传入请求的数量及其相关的延迟。通过使用 CloudWatch 来可视化和分析性能和延迟,您可以更好地识别应用程序中的任何瓶颈。
通过将所有 AWS 身份和访问管理 (IAM) 策略的范围缩小到服务正常运行所需的最低权限,您可以限制对资源的未经授权的访问。
Amazon ECS 集群运行的服务定义可维持 EC2 实例的所需容量。如果其中一个实例不可用,则新实例将自动启动并注册到 Amazon ECS 集群中作为运行状况良好的目标,以接收网络负载均衡器路由的传入请求。
与 Amazon EC S 通信的@@ 网络负载均衡器支持适合此用例的低毫秒延迟和高吞吐量。
Amazon EC2 Auto Scaling 组允许您在所需的容量下运行应用程序,同时为基于负载的扩展提供动态支持。自动扩缩会根据负载和扩缩策略来增加或减少基础设施。这可以帮助您控制与运行应用程序相关的成本。
基于 Amazon EC2 的 Amazon ECS 集群允许您为特定工作负载选择适当的硬件类型和配置,以便它们高效运行。因此,您可以最大限度地提高利用率并避免过度预置资源。本指南专为低延迟和高性能的模型推理工作负载而设计,因此相应的 EC2 实例类型由 AWS Graviton3 提供支持。该服务消耗的能源最多可减少 60%,性能与同类 EC2 实例相同,从而帮助您减少碳足迹。
免责声明
找到今天要查找的内容了吗?
请提供您的意见,以便我们改进网页内容的质量。