Возможности Amazon SageMaker HyperPod

Масштабируйте и ускоряйте разработку моделей генеративного искусственного интеллекта в тысячах ускорителей ИИ

Управление задачами

Amazon SageMaker HyperPod обеспечивает полную прозрачность и контроль распределения вычислительных ресурсов при выполнении задач разработки моделей генеративного искусственного интеллекта, таких как обучение и логический вывод. SageMaker HyperPod автоматически управляет очередями задач, обеспечивая определение приоритета наиболее важных задач, а также более эффективно используя вычислительные ресурсы для снижения затрат на разработку модели. Всего за несколько простых шагов администраторы могут определять приоритеты для разных задач и устанавливать ограничения по количеству вычислительных ресурсов, которые может использовать каждая команда или проект. Затем специалисты по обработке данных и разработчики создают задачи (например, учебный запуск, тонкая настройка конкретной модели или составление прогнозов на основе обученной модели), которые SageMaker HyperPod автоматически запускает в соответствии с ограничениями вычислительных ресурсов и установленными администратором приоритетами. Если высокоприоритетную задачу необходимо выполнить немедленно, но все вычислительные ресурсы уже заняты, SageMaker HyperPod автоматически высвобождает вычислительные ресурсы, решающие задачи с более низким приоритетом. Кроме того, SageMaker HyperPod автоматически использует неиспользуемые вычислительные ресурсы для ускорения решения задач, находящихся в режиме ожидания. SageMaker HyperPod предлагает панель управления, на которой администраторы могут отслеживать и проверять задачи, которые уже выполняются или ожидают получения вычислительных ресурсов.

Подробнее

Гибкие планы обучения

Чтобы уложиться в сроки и бюджет обучения, SageMaker HyperPod помогает создавать наиболее экономичные учебные планы, в которых используются ресурсы сразу нескольких блоков вычислительных мощностей. Сразу после утверждения учебных планов SageMaker HyperPod автоматически подготовит инфраструктуру и запустит учебные задачи на этих вычислительных ресурсах, не требуя выполнения каких-либо операций вручную. Экономия на управлении учебным процессом составит недели усилий по приведению заданий в соответствие с доступностью вычислительных ресурсов.

Подробнее

 

Оптимизированные рецепты

Благодаря рецептам SageMaker HyperPod специалисты по обработке данных и разработчики с любым арсеналом навыков по достоинству оценят высочайшую производительность и смогут в кратчайшие сроки приступить к обучению и настройке общедоступных моделей генеративного искусственного интеллекта, в число которых входят Llama 3.1 405B, Mixtral 8x22B и Mistral 7B. Каждый рецепт включает протестированный AWS стек обучения, что избавляет от многонедельной утомительной работы по тестированию различных конфигураций моделей. Вы можете переключаться между инстансами на базе графического процессора и инстансами на базе AWS Trainium, изменив одну строку рецепта, включить автоматическую проверку моделей для повышения устойчивости обучения и запустить рабочие нагрузки в рабочей среде на SageMaker HyperPod.

 

Высокопроизводительное распределенное обучение

SageMaker HyperPod ускоряет распределенное обучение, автоматически разделяя модели и обучающие наборы данных по инстансам с ускорителем AWS. Это помогает оптимизировать учебные задачи в рамках сетевой инфраструктуры и топологии кластера AWS, а также упростить проверку моделей за счет оптимизации частоты сохранения контрольных точек и минимизации накладных расходов во время обучения.

Продвинутые инструменты для экспериментов и обеспечения наблюдаемости

Для повышения производительности модели можно использовать встроенные в SageMaker HyperPod инструменты ИИ. Например, управляемый TensorBoard в SageMaker помогает сэкономить время разработки, визуализируя архитектуру модели для выявления и устранения проблем конвергенции. Интеграция с Аналитикой контейнеров Amazon CloudWatch позволяет глубже понять производительность, состояние и использование кластера. Управляемая платформа MLflow в SageMaker помогает эффективно контролировать масштабные эксперименты.

Планирование и оркестрация рабочих нагрузок

Пользовательский интерфейс SageMaker HyperPod легко настраивается с помощью Slurm или Эластичного сервиса Amazon Kubernetes (Amazon EKS). Можно выбрать и установить любые необходимые платформы или инструменты. Всем кластерам предоставляется выбранный тип и количество инстансов, и они сохраняются для использования во всех рабочих нагрузках. Благодаря поддержке Amazon EKS в SageMaker HyperPod вы можете управлять кластерами и работать с ними, используя опыт администратора на основе Kubernetes. Эффективно запускайте и масштабируйте рабочие нагрузки, начиная с обучения и заканчивая настройкой и выводами. Вы также можете распределять вычислительные мощности и переключаться между Slurm и Amazon EKS для разных типов рабочих нагрузок.

Автоматическая проверка работоспособности и восстановление кластера

Если во время выполнения рабочей нагрузки по разработке модели какие-либо инстансы выйдут из строя, SageMaker HyperPod автоматически обнаружит и устранит проблемы с инфраструктурой. Чтобы обнаружить неисправное оборудование, SageMaker HyperPod регулярно проводит множество проверок работоспособности ускорителя и целостности сети.