AWS Neuron представляет ядро Flash Attention для поддержки высокой производительности и большой длины последовательностей

Проведено: 11 июля 2024 г.

Сегодня AWS объявляет о выпуске версии Neuron 2.19, в которой реализована поддержка ядра Flash Attention, позволяющая эффективно обучать большие языковые модели (LLM) и производить логический вывод с большой длиной последовательностей.

AWS Neuron — это пакет средств разработки ПО (SDK) для инстансов на базе AWS Inferentia и Trainium, специально созданный для генеративного искусственного интеллекта. Neuron интегрируется с популярными платформами машинного обучения, такими как PyTorch. Он включает компилятор, среду выполнения, инструменты и библиотеки для поддержки высокопроизводительного обучения и логического вывода в моделях ИИ на инстансах Trn1 и Inf2.

В этом выпуске добавлены новые функции и улучшена производительность как для обучения, так и для вывода, а также добавлены новые средства Глубокого обучения AWS AMI (DLAMI) на базе Ubuntu 22 Neuron для PyTorch 2.1 и 1.13. В Neuron 2.19 добавлена поддержка ядра Flash Attention для обучения последовательностей большой длины (от 8K), обучения моделей Llama3 и обеспечения параллелизма в конвейерах с чередованием для более эффективного обучения и использования ресурсов. Что касается логического вывода, поддержка ядра Flash Attention в этом выпуске позволяет осуществлять в моделях LLM вывод с длиной контекста до 32K. Кроме того, Neuron 2.19 добавляет поддержку логического вывода в моделях Llama3, а также бета-версию поддержки непрерывной пакетной обработки с использованием моделей Mistral-7b-v0.2. В Neuron 2.19 представлены новые инструменты для EKS: плагин для обнаружения и устранения проблем с нейронными узлами и функция улучшенного мониторинга метрик Neuron в Kubernetes.

Пакет SDK AWS Neuron можно использовать для обучения и развертывания моделей на инстансах Trn1 и Inf2, доступных в регионах AWS в виде инстансов по требованию, зарезервированных инстансов, спотовых инстансов или в рамках плана экономии (Savings Plan).

Список функций Neuron 2.19 см. в примечаниях к выпуску Neuron. Чтобы начать работу с Neuron, см. следующие разделы.
AWS Neuron
Инстансы Inf2
Инстансы Trn1