Amazon SageMaker HyperPod теперь поддерживает углубленную проверку работоспособности по запросу
Amazon SageMaker HyperPod теперь поддерживает углубленную проверку работоспособности по запросу для кластеров, оркестрированных с помощью Amazon EKS и Slurm, что позволяет в любой момент заблаговременно проверить работоспособность ускорителя графического процессора на запущенных инстансах. Кластеры HyperPod, оркестрированные с помощью Slurm, теперь также поддерживают углубленную проверку работоспособности во время подготовки узлов в момент создания кластера. Эта возможность предотвращает возникновение критических проблем, связанных с тем, что даже один неисправный узел способен потратить много часов вычислительного времени и затормозить важнейшие рабочие нагрузки.
Благодаря углубленной проверке работоспособности по запросу можно настроить проведение комплексных стресс-тестов оборудования и подключения для отдельных инстансов или целых групп, прежде чем выделять вычислительные ресурсы для выполнения задач. Прогресс и результаты на уровне отдельных инстансов и групп инстансов отображаются в консоли SageMaker и доступны через API, что обеспечивает полное представление о состоянии графического процессора и сетевого подключения, а также о производительности связи между несколькими узлами. Во время проверки инстансы автоматически изолируются от планирования рабочих нагрузок и возвращаются в эксплуатацию после ее успешного завершения. При использовании в сочетании с функцией автоматического восстановления узлов HyperPod инстансы, не прошедшие проверку, автоматически перезагружаются или заменяются, что гарантирует работоспособность кластера.
Эта возможность доступна во всех регионах, где доступен сервис Amazon SageMaker HyperPod. Дополнительную информацию о проверках работоспособности по требованию см. в документации.