Что такое AWS Neuron?
AWS Neuron – это Пакет средств разработки ПО (SDK), используемый для выполнения рабочих нагрузок глубокого обучения и генеративного искусственного интеллекта на инстансах Amazon Elastic Compute Cloud (Amazon EC2) на базе AWS Inferentia и AWS Trainium. Он включает компилятор, среду выполнения, библиотеки обучения и вывода, а также инструменты разработчика для мониторинга, профилирования и отладки. Neuron поддерживает весь жизненный цикл разработки систем машинного обучения, включая создание и развертывание моделей глубокого обучения и искусственного интеллекта, оптимизацию для достижения максимальной производительности и снижения затрат, а также более глубокое понимание поведения моделей.

Встроенная интеграция с популярными платформами и библиотеками машинного обучения
Neuron изначально интегрируется с PyTorch и JAX, а также с основными библиотеками машинного обучения, такими как Hugging Face Optimum Neuron, PyTorch Lightning и AXLearn. Neuron также поддерживает OpenXLA, включая StableHLO и GSPMD, что позволяет разработчикам PyTorch, XLA и JAX использовать оптимизацию компилятора Neuron для Inferentia и Trainium. Neuron дает возможность использовать инстансы на базе Trainium и Inferentia с такими сервисами, как Amazon SageMaker, Эластичный сервис Amazon Kubernetes (Amazon EKS), Amazon Elastic Container Service (Amazon ECS), AWS ParallelCluster и Пакет AWS, а также сторонними сервисами, такими как Ray (Anyscale), Domino Data Lab, Datadog и Weights & Biases.

Распределенные библиотеки обучения и логических выводов
Neuron включает готовую оптимизацию для распределенного обучения и вывода с помощью библиотек PyTorch с открытым исходным кодом NxD Training и NxD Inference. NxD Training упрощает и оптимизирует крупномасштабное распределенное обучение и поддерживает различные архитектуры моделей, стратегии параллельной обработки данных и рабочие процессы обучения. NxD Inference представляет собой комплексное решение для оптимизированного вывода моделей с такими ключевыми функциями, как выборка на устройстве, объединение веса QKV, непрерывная обработка пакета, спекулятивное декодирование, динамическое группирование и распределенный вывод. NxD Inference также интегрируется с такими сервисными решениями, как vLLM и Hugging Face TGI, которые включают центр моделей для разных архитектур.

Расширенные возможности в отрасли прикладных наук
Neuron обладает рядом прикладных научных возможностей для сферы прикладных наук, позволяющих ученым расширять границы исследований и инноваций в области искусственного интеллекта с открытым исходным кодом в Trainium и Inferentia. Нейронный интерфейс Kernel (NKI) предоставляет прямой доступ к аппаратным примитивам и инструкциям, доступным в Trainium и Inferentia, что позволяет исследователям создавать и настраивать вычислительные ядра для достижения оптимальной производительности. Это среда программирования на основе Python, в которой используется широко распространенный синтаксис, подобный Triton, и семантика на уровне тайлов. Исследователи могут использовать NKI для улучшения моделей глубокого обучения с помощью новых функций, оптимизации и научных инноваций. Пользовательские операторы Neuron на языке C++ позволяют разработчикам расширять функциональность SDK, создавая собственные операторы, оптимизированные для Inferentia и Trainium.

Мощные инструменты для разработчиков
AWS Neuron SDK предлагает полный набор инструментов для глубокого анализа мониторинга, управления и оптимизации моделей глубокого обучения на инстансах EC2 на базе AWS Inferentia и Trainium. Сервис предоставляет такие утилиты, как neuron-top, neuron-monitor и Neuron Sysfs, для мониторинга аппаратных ресурсов, выполнения моделей и сведений о системе. Для контейнерных приложений на Kubernetes и EKS Neuron упрощает мониторинг посредством интеграции Amazon CloudWatch и других популярных инструментов наблюдаемости, таких как Data Dog и Weights & Biases. Кроме того, инструмент нейронного профиля помогает выявлять и устранять проблемы с производительностью как в одноузловых, так и в распределенных приложениях, а также предоставляет встроенные возможности профилирования для популярных платформ машинного обучения.
