SageMaker HyperPod ahora admite la caché KV administrada por niveles y el enrutamiento inteligente
Amazon SageMaker HyperPod ahora admite la caché KV administrada por niveles y el enrutamiento inteligente para la inferencia de modelos de lenguaje de gran tamaño (LLM). Esto permite que los clientes optimicen el rendimiento de la inferencia para peticiones de contexto largo y conversaciones de varios turnos. Los clientes que implementan aplicaciones de LLM de producción necesitan tiempos de respuesta rápidos mientras procesan documentos extensos o mantienen el contexto de la conversación, pero los enfoques de inferencia tradicionales requieren recalcular los mecanismos de atención de todos los tokens anteriores con cada nueva generación de tokens. De este modo, se genera una sobrecarga computacional y costos en aumento. La caché KV administrada por niveles aborda este desafío al almacenar en caché y reutilizar de forma inteligente los valores calculados, mientras que el enrutamiento inteligente dirige las solicitudes a las instancias óptimas.
Estas capacidades ofrecen una reducción de la latencia de hasta un 40 %, una mejora del rendimiento del 25 % y un ahorro de costos del 25 % en comparación con las configuraciones de referencia. La característica de caché KV administrada por niveles utiliza una arquitectura de dos niveles que combina la memoria de la CPU local (L1) con el almacenamiento desagregado para todo el clúster (L2). El almacenamiento por niveles desagregado nativo de AWS es el backend recomendado, ya que proporciona una capacidad escalable a escala de terabytes y una organización automática por niveles de la memoria de la CPU a la SSD local para una utilización óptima de la memoria y el almacenamiento. También ofrecemos Redis como una opción alternativa de caché L2. La arquitectura permite la reutilización eficiente de los pares clave-valor previamente calculados en las solicitudes. El enrutamiento inteligente recientemente presentado maximiza la utilización de la caché mediante tres estrategias configurables: el enrutamiento con reconocimiento de prefijos para los patrones de peticiones comunes, el enrutamiento con reconocimiento de KV para lograr la máxima eficiencia de la caché con seguimiento de la caché en tiempo real y el enrutamiento por turnos para cargas de trabajo sin estado. Estas características funcionan juntas sin inconvenientes. El enrutamiento inteligente dirige las solicitudes a instancias con datos en caché relevantes. De este modo, se reduce el tiempo necesario para analizar los documentos por primera vez y mantiene un flujo natural de conversación en los diálogos de varios turnos. La integración de observabilidad integrada con Amazon Managed Grafana proporciona métricas para supervisar el rendimiento. Puede habilitar estas características mediante InferenceEndpointConfig o SageMaker JumpStart al implementar modelos mediante el operador de inferencia de HyperPod en clústeres orquestados por EKS.
Estas características están disponibles en todas las regiones en las que SageMaker HyperPod está disponible. Para obtener más información, consulte la Guía del usuario.