Анонс оператора обучения Amazon SageMaker HyperPod
Сегодня мы анонсируем всеобщую доступность обучающего оператора Amazon SageMaker HyperPod. Это специализированное расширение Kubernetes формирует устойчивый фундамент для обучения моделей на HyperPod.
Amazon SageMaker HyperPod дает возможность ускорить разработку моделей искусственного интеллекта на сотнях и тысячах графических процессоров со встроенными средствами обеспечения отказоустойчивости. При этом сокращение времени обучения модели может достигать 40 %. По мере расширения учебных кластеров восстановление после прерываний обучения становится все более сложным. Обычно для восстановления требуется полный перезапуск заданий на всех узлах, даже если возник сбой всего одного учебного процесса. Это приводит к дополнительным простоям и увеличению расходов. Также для выявления и решения критических проблем обучения, таких как зависание графических процессоров, низкая пропускная способность ресурсов обучения и числовая нестабильность, обычно требуется сложная специализированная программа мониторинга. Это дополнительно увеличивает сроки разработки и задерживает выход на рынок.
С помощью оператора обучения HyperPod можно дополнительно повысить устойчивость рабочих нагрузок Kubernetes для целей обучения. Вместо полного перезапуска задания при возникновении сбоев оператор обучения HyperPod выполняет хирургически точное восстановление. Он выборочно перезапускает только затронутые учебные ресурсы для ускоренного восстановления. Также внедряется настраиваемая функция мониторинга зависших заданий, которая помогает исключить проблемные сценарии обучения, в частности застрявшие пакеты, нечисловые значения потерь и падение производительности, с помощью простых конфигураций YAML. Начать очень просто: создайте кластер HyperPod, установите надстройку для оператора обучения, при необходимости задайте собственные политики восстановления зависших заданий и запустите обучение.
Этот выпуск общедоступен во всех регионах AWS, где в настоящее время поддерживается SageMaker HyperPod.
Подробное описание содержится в документации.