AWS Neuron представляет поддержку логического вывода Trainium2 и NxD

Проведено: 23 дек. 2024 г.

Сегодня AWS объявляет о выпуске версии Neuron 2.21, в которой реализована поддержка чипов AWS Trainium2 и инстансов Amazon EC2 Trn2, включая тип инстансов trn2.48xlarge и Trn2 UltraServer. В этом выпуске также добавлена поддержка PyTorch 2.5 и представлены NxD Inference и Neuron Profiler 2.0 (бета-версия). NxD Inference – это новая библиотека на основе PyTorch, интегрированная с vLLM, которая упрощает развертывание больших языковых моделей и моделей мультимодальности и позволяет внедрять модели PyTorch с минимальными изменениями кода. Neuron Profiler 2.0 (бета-версия) – это новый профилировщик, расширяющий возможности и удобство использования, включая поддержку распределенных рабочих нагрузок.

В Neuron 2.21 также реализована поддержка логического вывода модели Llama 3.1 405B с использованием NxD Inference на одном инстансе trn2.48xlarge. В выпуске обновлены контейнеры глубокого обучения (DLC) и AMI глубокого обучения (DLAMI), а также добавлена поддержка различных архитектур моделей, включая модели Llama 3.2, Llama 3.3 и Mixture-of-Experts (MoE). Новые функции логического вывода включают квантование веса FP8 и флэш-декодирование для спекулятивного декодирования в Transformers NeuronX (TNx). Кроме того, были добавлены новые обучающие примеры и функции, такие как поддержка HuggingFace Llama 3/3.1 70B на инстансах Trn2 и поддержка DPO для согласования моделей после обучения.

Пакет SDK AWS Neuron поддерживает обучение и развертывание моделей на инстансах Trn1, Trn2 и Inf2, доступных в регионах AWS в виде инстансов по требованию, зарезервированных инстансов, спотовых инстансов или в рамках плана экономии.

Полный список новых функций и улучшений в Neuron 2.21 и сведения о начале работы с Neuron см. в следующих разделах.