SageMaker HyperPod agora oferece suporte ao cache de chave-valor hierárquico gerenciado e ao roteamento inteligente

Publicado: 26 de nov de 2025

O Amazon SageMaker HyperPod agora oferece suporte ao cache de chave-valor hierárquico gerenciado e ao roteamento inteligente para inferência de grandes modelos de linguagem (LLMs), permitindo que os clientes otimizem a performance da inferência para prompts de longo contexto e conversas em vários turnos. Os clientes que implantam aplicações de LLM de produção precisam de tempos de resposta rápidos enquanto processam documentos longos ou mantêm o contexto da conversa, mas as abordagens tradicionais de inferência exigem o recálculo dos mecanismos de atenção para todos os tokens anteriores a cada nova geração de token, criando sobrecarga computacional e custos crescentes. O cache de chave-valor hierárquico gerenciado enfrenta esse desafio armazenando em cache e reutilizando valores computados de forma inteligente, enquanto o roteamento inteligente direciona as solicitações para instâncias ideais.

Esses recursos oferecem até 40% de redução de latência, 25% de melhoria no throughput e 25% de economia de custos em comparação com as configurações básicas. O atributo de cache de chave-valor hierárquico gerenciado usa uma arquitetura de duas camadas que combina memória de CPU local (L1) com armazenamento desagregado em todo o cluster (L2). O armazenamento hierárquico desagregado nativo da AWS é o backend recomendado, fornecendo capacidade escalável em escala de terabytes e hierarquização automática da memória da CPU para o SSD local para uma utilização ideal da memória e do armazenamento. Também oferecemos o Redis como uma opção alternativa de cache L2. A arquitetura permite a reutilização eficiente de pares de chave-valor calculados anteriormente em todas as solicitações. O roteamento inteligente recém-introduzido maximiza a utilização do cache por meio de três estratégias configuráveis: roteamento com reconhecimento de prefixo para padrões de prompt comuns, roteamento com reconhecimento de chave-valor para máxima eficiência de cache com rastreamento de cache em tempo real e round-robin para workloads sem estado. Esses atributos funcionam perfeitamente juntos. O roteamento inteligente direciona as solicitações para instâncias com dados relevantes em cache, reduzindo o tempo até o primeiro token na análise de documentos e mantendo o fluxo natural da conversa em diálogos de várias interações. A integração integrada de observabilidade com o Amazon Managed Grafana fornece métricas para monitorar a performance. Você pode ativar esses atributos por meio do InferenceEndpointConfig ou do SageMaker JumpStart ao implantar modelos por meio do HyperPod Inference Operator em clusters orquestrados pelo EKS.

Esses atributos estão disponíveis em todas as regiões que oferecem o SageMaker HyperPod. Para saber mais, consulte o guia do usuário.