SageMaker HyperPod prend désormais en charge le cache KV hiérarchisé géré et le routage intelligent
Amazon SageMaker HyperPod prend désormais en charge Managed Tiered KV Cache (cache KV hiérarchisé géré) et le routage intelligent pour l'inférence de grand modèle de langage (LLM), ce qui permet aux clients d'optimiser les performances d'inférence pour les demandes contextuelles longues et les conversations à plusieurs tours. Les clients déployant des applications LLM de production ont besoin de temps de réponse rapides lorsqu'ils traitent des documents volumineux ou conservent le contexte des conversations, mais les approches d'inférence traditionnelles nécessitent de recalculer les mécanismes d'attention pour tous les jetons précédents à chaque nouvelle génération de jetons, ce qui entraîne une surcharge de calcul et une escalade des coûts. Managed Tiered KV Cache permet de palier cette difficulté en mettant en cache et en réutilisant intelligemment les valeurs calculées, tandis que le routage intelligent dirige les demandes vers les instances optimales.
Ces fonctionnalités permettent de réduire la latence jusqu'à 40 %, d'améliorer le débit de 25 % et de réaliser des économies de 25 % par rapport aux configurations de base. La fonctionnalité Managed Tiered KV Cache utilise une architecture à deux niveaux combinant une mémoire CPU locale (L1) et un stockage désagrégé à l'échelle du cluster (L2). Le stockage hiérarchisé désagrégé natif AWS est le back-end recommandé, car il apporte une capacité évolutive de plusieurs téraoctets et une hiérarchisation automatique de la mémoire du processeur au SSD local pour une utilisation optimale de la mémoire et du stockage. Nous proposons également Redis comme option de cache L2 alternative. L'architecture permet de réutiliser efficacement les paires clé-valeur précédemment calculées entre les requêtes. Le nouveau routage intelligent maximise l'utilisation du cache grâce à trois stratégies configurables : un routage tenant compte des préfixes pour les modèles d'invite courants, un routage compatible KV pour une efficacité maximale du cache avec suivi du cache en temps réel, et un routage circulaire pour les charges de travail sans état. Ces fonctionnalités collaborent parfaitement. Le routage intelligent dirige les demandes vers les instances contenant des données mises en cache pertinentes, ce qui réduit le temps nécessaire pour obtenir le premier jeton lors de l'analyse des documents et maintient un flux de conversation naturel dans les dialogues à plusieurs tours. L'intégration native de l'observabilité à Amazon Managed Grafana apporte des métriques permettant de surveiller les performances. Vous pouvez activer ces fonctionnalités via InferenceEndpointConfig ou SageMaker JumpStart lorsque vous déployez des modèles via l'opérateur d'inférence HyperPod sur des clusters orchestrés par EKS.
Ces fonctionnalités sont disponibles dans toutes les régions où SageMaker HyperPod est disponible. Pour en savoir plus, consultez le Guide de l'utilisateur.