SageMaker HyperPod ora supporta la Cache KV gestita su più livelli e il Routing intelligente

Inserito il: 26 nov 2025

Amazon SageMaker HyperPod ora supporta la Cache KV gestita su più livelli e il Routing intelligente per l'inferenza a modello linguistico di grandi dimensioni (LLM), consentendo ai clienti di ottimizzare le prestazioni di inferenza per prompt a contesto esteso e conversazioni multi-turno. I clienti che implementano applicazioni LLM di produzione necessitano di tempi di risposta rapidi durante l'elaborazione di documenti lunghi o il mantenimento del contesto della conversazione, ma gli approcci tradizionali alle inferenze richiedono il ricalcolo dei meccanismi di attenzione per tutti i token precedenti ogni volta che viene generato un nuovo token, creando un sovraccarico del calcolo e un aumento dei costi. La Cache KV gestita su più livelli risolve questo inconveniente memorizzando nella cache e riutilizzando in modo intelligente i valori calcolati, mentre il Routing intelligente indirizza le richieste verso istanze ottimali.

Queste funzionalità offrono una riduzione della latenza fino al 40%, un miglioramento del throughput del 25% e un risparmio sui costi del 25% rispetto alle configurazioni di base. La funzionalità Cache KV gestita su più livelli utilizza un'architettura a due livelli che combina la memoria CPU locale (L1) con l'archiviazione disaggregata a livello di cluster (L2). L'archiviazione su più livelli disaggregata nativa di AWS è il backend consigliato, perché fornisce una capacità adattabile su scala terabyte e la divisione automatica in livelli dalla memoria CPU all'SSD locale per un utilizzo ottimale della memoria e dell'archiviazione. Inoltre, offre Redis come opzione di cache L2 alternativa. L'architettura consente il riutilizzo efficiente delle coppie chiave-valore calcolate in precedenza tra le richieste. Il nuovo Routing intelligente introdotto massimizza l'utilizzo della cache attraverso tre strategie configurabili: routing basato sui prefissi per modelli di prompt comuni, routing compatibile con KV per la massima efficienza della cache con suo monitoraggio in tempo reale e round-robin per carichi di lavoro stateless. Queste funzionalità cooperano in perfetta sincronia. Il Routing intelligente indirizza le richieste alle istanze con dati memorizzati nella cache pertinenti, riducendo il tempo necessario per il primo token nell'analisi dei documenti e mantenendo un flusso di conversazione naturale in interazioni su più turni. L'integrazione di osservabilità inclusa con Grafana gestito da Amazon fornisce metriche per il monitoraggio delle prestazioni. Puoi abilitare queste funzionalità tramite InferenceEndpointConfig o SageMaker JumpStart quando si implementano modelli tramite l'Operatore di inferenze HyperPod su cluster orchestrati EKS.

Queste funzionalità sono disponibili in tutte le regioni in cui viene fornito SageMaker HyperPod. Per ulteriori informazioni, consulta la guida utente.