AWS внедряет поддержку библиотеки NIXL с адаптером EFA, чтобы существенно повысить эффективность вывода больших языковых моделей
Специалисты AWS сообщают о том, что Amazon EC2 теперь поддерживает библиотеку NVIDIA Inference Xfer (NIXL) с интерфейсом эластичной матрицы (EFA), благодаря чему большие языковые модели могут быстрее выполнять деагрегированный вывод. Обработка деагрегированного вывода стала выполняться эффективнее благодаря трем ключевым улучшениям: увеличению пропускной способности KV-кеша, уменьшению задержек между токенами и оптимизации использования памяти KV-кеша.
NIXL с EFA обеспечивает высокую пропускную способность и низкую задержку при передаче KV-кеша между узлами предварительного заполнения и декодирования, а также позволяют эффективнее перемещать KV-кеш между различными уровнями хранения. Библиотека NIXL совместима со всеми инстансами EC2, поддерживающими EFA, и изначально интегрирована с такими платформами, как NVIDIA Dynamo, SGLang и vLLM. NIXL с EFA обеспечивают гибкую интеграцию с выбранными вами инстансом и платформой EC2, благодаря чему деагрегированный вывод выполняется быстрее при любых объемах данных.
AWS позволяет использовать библиотеку NIXL версии 1.0.0 или выше с установщиком EFA версии 1.47.0 или выше при работе со всеми типами инстансов EC2, поддерживающими EFA, во всех регионах AWS. Дополнительная плата за это не взимается. Более подробные сведения см. в документации по EFA.