Масштабирование разработки базовых моделей за счет поддержки Amazon EKS в Amazon SageMaker HyperPod
Мы рады объявить об общедоступной поддержке Amazon EKS в SageMaker HyperPod, которая позволит заказчикам использовать эту специализированную инфраструктуру разработки базовых моделей (FM), обеспечивающую на 40 % более быстрое их обучение, для запуска и контроля рабочих нагрузок Kubernetes.
Многие заказчики используют систему Kubernetes для организации своих рабочих процессов машинного обучения из-за ее универсальности, масштабируемости и обширной экосистемы инструментов. Эти заказчики хотят и дальше использовать привычный интерфейс Kubernetes, но при этом автоматически обрабатывать аппаратные сбои. Поддержка EKS в HyperPod позволяет объединить преимущества инфраструктуры SageMaker HyperPod, содержащей высокопроизводительные кластеры с автоматическим восстановлением, и возможности контейнеризации управляемого Kubernetes-сервиса Amazon EKS. Внедрение этой поддержки позволит заказчикам проводить углубленные проверки работоспособности при создании кластера, чтобы уменьшить количество сбоев в ходе обучения. Кроме того, HyperPod автоматически заменяет неисправные узлы и возобновляет обучение с последней контрольной точки, используя AWS Trainium и графические процессоры Nvidia в масштабе более тысячи ускорителей. Заказчики могут использовать новый интерфейс командной строки HyperPod или удобные им инструменты для передачи рабочих нагрузок на выполнение, управления ими и их мониторинга. Сохраняемая кластерная среда обеспечивает доступ к SSM и возможность настройки кластера. Управляемые EKS кластеры HyperPod также интегрируются с Аналитикой контейнеров CloudWatch, предоставляя готовые инструменты для автоматического определения работоспособности узлов HyperPod и наблюдения за ними на специально подобранных информационных панелях.
Этот выпуск является общедоступным в регионах AWS, где предоставляется инфраструктура SageMaker HyperPod, за исключением региона Европа (Лондон).
Перечень ресурсов с дополнительными сведениями: веб-страница, блог AWS News, документация, репозиторий GitHub.