SageMaker HyperPod 现在支持托管式分层 KV 缓存和智能路由

发布于: 2025年11月26日

Amazon SageMaker HyperPod 现在支持适用于大语言模型(LLM)推理的托管式分层 KV 缓存和智能路由,让客户能够针对长上下文提示和多轮对话优化推理性能。部署生产级 LLM 应用程序的客户在处理冗长文档或维护对话上下文时需要获得快速响应,但传统的推理方法需要在生成每个新 token 时,为所有先前的 token 重新计算注意力机制,导致计算开销不断累积并推高成本。托管式分层 KV 缓存通过智能缓存和重复使用计算值来应对这一挑战,而智能路由则将请求定向到最合适的实例上。

与基准配置相比,这些功能可实现最高 40% 的延迟降低、25% 的吞吐量提升以及 25% 的成本节省。托管式分层 KV 缓存功能使用两层架构,将本地 CPU 内存(L1)与解耦式集群级存储(L2)相结合。推荐使用 AWS 原生的解耦式分级存储作为后端,它可以提供可扩展的 TB 级容量,并支持在 CPU 内存和本地 SSD 之间自动完成数据分层,从而实现最优的内存和存储利用率。我们还提供 Redis 作为二级缓存的替代选项。该架构支持在多个请求间高效复用先前计算的键值对。新推出的智能路由通过三种可配置策略最大限度地提高缓存利用率:前缀感知路由(适用于常见提示模式)、KV 感知路由(通过实时缓存跟踪实现最高缓存效率)以及轮询路由(适用于无状态工作负载)。这些功能可以无缝协作。智能路由会将请求定向到包含相关缓存数据的实例,从而缩短文档分析的首 token 时间,并在多轮对话中保持自然流畅的对话体验。通过与 Amazon Managed Grafana 的内置可观测性集成,您可以监控相关性能指标。通过 HyperPod Inference Operator 在使用 EKS 编排的集群上部署模型时,您可以通过 InferenceEndpointConfig 或 SageMaker JumpStart 启用这些功能。

这些功能已在提供 SageMaker HyperPod 的所有区域推出。有关更多信息,请参阅用户指南