SageMaker HyperPod unterstützt jetzt verwalteten mehrstufigen KV-Cache und intelligentes Routing
Amazon SageMaker HyperPod unterstützt jetzt Managed Tiered KV Cache und Intelligent Routing für LLM-Inferenz (Large Language Model, großes Sprachmodell), sodass Kunden die Inferenzleistung für Prompts mit langem Kontext und für Multi-Turn-Konversationen optimieren können. Kunden, die LLM-Produktionsanwendungen einsetzen, benötigen schnelle Reaktionszeiten bei der Verarbeitung umfangreicher Dokumente oder beim Beibehalten des Konversationskontexts. Herkömmliche Inferenzansätze berechnen jedoch die Aufmerksamkeitsmechanismen für alle vorherigen Token bei jeder neuen Token-Generierung erneut, was den Rechenaufwand und die Kosten erhöht. Managed Tiered KV Cache begegnet dieser Herausforderung, indem berechnete Werte intelligent zwischengespeichert und wiederverwendet werden, während das intelligente Routing Anfragen an optimale Instances weiterleitet.
Diese Funktionen bieten eine Latenzreduzierung von bis zu 40 %, eine Verbesserung des Durchsatzes um 25 % und Kosteneinsparungen von 25 % im Vergleich zu Basiskonfigurationen. Das Managed Tiered KV Cache-Feature verwendet eine zweistufige Architektur, die den lokalen CPU-Speicher (L1) mit disaggregiertem Cluster-weitem Speicher (L2) kombiniert. Der mehrstufige AWS-native disaggregierte Speicher ist das empfohlene Backend, das eine skalierbare Kapazität im Terabyte-Bereich und automatisches Tiering vom CPU-Speicher zur lokalen SSD für eine optimale Arbeitsspeicher- und Speicherauslastung bietet. Redis ist auch als alternative L2-Cache-Option verfügbar. Die Architektur ermöglicht die effiziente Wiederverwendung zuvor berechneter Schlüssel-Wert-Paare über Anfragen hinweg. Das neu eingeführte intelligente Routing maximiert die Cache-Auslastung durch drei konfigurierbare Strategien: präfixfähiges Routing für gängige Prompt-Muster, KV-fähiges Routing für maximale Cache-Effizienz mit Cache-Tracking in Echtzeit und Round-Robin für zustandslose Workloads. Diese Features arbeiten nahtlos zusammen. Das intelligente Routing leitet Anfragen an Instances mit relevanten zwischengespeicherten Daten weiter, wodurch die Zeit bis zum ersten Token bei der Dokumentenanalyse reduziert und der natürliche Gesprächsfluss in Multi-Turn-Dialogen aufrechterhalten wird. Die integrierte Beobachtbarkeits-Integration mit Amazon Managed Grafana bietet Metriken zum Überwachen der Leistung. Sie können diese Features über InferenceEndpointConfig oder SageMaker JumpStart aktivieren, wenn Sie Modelle über den HyperPod Inference Operator auf EKS-orchestrierten Clustern bereitstellen.
Diese Features sind in allen Regionen verfügbar, in denen SageMaker HyperPod verfügbar ist. Mehr erfahren Sie im Benutzerhandbuch.