SageMaker HyperPod теперь поддерживает управляемое многоуровневое KV-кэширование и интеллектуальную маршрутизацию
Amazon SageMaker HyperPod теперь поддерживает управляемое многоуровневое KV-кэширование и интеллектуальную маршрутизацию для вывода больших языковых моделей (LLM). Оно позволяет оптимизировать производительность вывода модели для текстовых запросов с большим контекстом и многошаговых диалогов. Клиентам, развертывающим производственные приложения с LLM, необходим быстрый отклик при обработке объемных документов или сохранении контекста разговора. Традиционные методы вывода предполагают пересчет механизмов внимания для всех предыдущих токенов при генерации каждого нового токена, потребляя больше вычислительных ресурсов и требуя лишних затрат. Технология управляемого многоуровневого KV-кэширования решает эту проблему, эффективно сохраняя и повторно используя вычисленные значений, а Интеллектуальная маршрутизация направляет запросы к наиболее подходящим инстансам.
В сравнении с базовыми конфигурациями эти возможности позволяют ускорить отклик на 40 %, повысить пропускную способность на 25 % и сократить затраты на 25 %. При управляемом многоуровневом KV-кэшировании используется двухуровневая архитектура, сочетающая локальную память ЦПУ (L1) с распределенным кластерным хранилищем (L2). В серверной части рекомендуется использовать распределенное хранилище AWS. Оно обеспечивает емкость терабайтного масштаба и автоматически управляет переключением с памяти ЦПУ на локальный SSD для оптимального использования памяти и хранилища. В качестве альтернативного варианта организации кэша L2 предлагается Redis. Такая архитектура позволяет эффективно использовать в новых запросах пары ключ-значение, уже вычисленные в предыдущих. Новая функция интеллектуальной маршрутизации позволяет максимально задействовать кэш с помощью трех настраиваемых стратегий: маршрутизация с учетом префиксов для распространенных шаблонов запросов, маршрутизация с учетом KV-кэша для эффективного кэширования с отслеживанием в реальном времени, а также циклический алгоритм распределения для рабочих нагрузок без сохранения состояния. Эти функции прекрасно сочетаются друг с другом. Интеллектуальная маршрутизация направляет запросы к инстансам с соответствующими кэшированными данными, сокращая время до первого токена при анализе документов и обеспечивая естественный ход разговора в многошаговых диалогах. Интеграция встроенных средств наблюдаемости с Управляемой Amazon Grafana предоставляет метрики для мониторинга производительности. Эти функции можно включить с помощью InferenceEndpointConfig или SageMaker JumpStart при развертывании моделей с помощью оператора вывода HyperPod в кластерах, управляемых EKS.
Эти функции доступны во всех регионах, где предоставляется SageMaker HyperPod. Подробнее см. в руководстве пользователя.