Amazon SageMaker HyperPod теперь поддерживает программную перезагрузку и замену узлов
Сегодня AWS объявляет о всеобщей доступности новых API для Amazon SageMaker HyperPod, обеспечивающих программную перезагрузку и замену узлов кластера SageMaker HyperPod. SageMaker HyperPod помогает создать устойчивые кластеры для выполнения рабочих нагрузок машинного обучения (ML) и разработки современных моделей, таких как большие языковые модели (LLM), диффузионные и базовые модели (FM). Новые API-интерфейсы BatchRebootClusterNodes и BatchReplaceClusterNodes позволяют программно перезагружать или заменять узлы кластера при отсутствии ответа или снижении производительности. Это надежный способ выполнения операций восстановления узлов, не зависящий от оркестратора.
Новые API расширяют возможности управления узлами кластеров, оркестрируемых как Slurm, так и EKS, дополняя существующие процессы перезагрузки и замены узлов. Собственные инструменты оркестраторов, такие как метки Kubernetes для кластеров EKS и команды Slurm для кластеров Slurm, по-прежнему доступны наряду с недавно представленными программными возможностями для операций перезагрузки и замены через специализированные API. Узлы кластера могут переставать отвечать из-за перерасхода памяти или деградации оборудования. Операции их восстановления, такие как перезагрузка и замена узлов, можно запускать через новые API-интерфейсы. Эти возможности особенно актуальны при выполнении рабочих нагрузок, чувствительных к задержкам. Например, если контроллер, узел входа в систему или вычислительный узел Slurm перестают отвечать на запросы, для возвращения узлов в рабочее состояние администратор может запустить операцию перезагрузки через API и отслеживать ход ее выполнения. Аналогичным образом администратор кластера EKS может программно заменять рабочие узлы при снижении их производительности. Каждый API поддерживает пакетные операции, охватывающие до 25 инстансов, что позволяет эффективно управлять крупномасштабными сценариями восстановления.
API перезагрузки и замены узлов в настоящий момент поддерживаются в трех регионах AWS, где предоставляется SageMaker HyperPod: Восток США (Огайо), Азиатско-Тихоокеанский регион (Мумбаи, Токио). Доступ к API можно получить через интерфейс командной строки AWS, SDK или вызовы API. Дополнительные сведения см. в документации Amazon SageMaker HyperPod по узлам BatchRebootClusterNodes и BatchReplaceClusterNodes.