Аналитика контейнеров анонсирует функцию наблюдения за работоспособностью узлов SageMaker HyperPod в сервисе EKS
Аналитика контейнеров Amazon CloudWatch теперь автоматически определяет состояние работоспособности узлов SageMaker HyperPod, работающих в сервисе EKS, и визуализирует их на специально подобранных информационных панелях, помогая отслеживать доступность узлов для обеспечения качественной работы. Используя готовые информационные панели, вы можете легко выявлять неисправные узлы и быстро устранять неисправности, поддерживая высокую скорость обучения.
Взаимодействуя с SageMaker, Аналитика контейнеров получает результаты углубленных проверок работоспособности узлов HyperPod и отображает их на предустановленных информационных панелях, помогая анализировать состояние и производительность узлов и определять, можно ли включать их в рабочие графики. Аналитика контейнеров помогает оптимизировать продолжительность обучения, классифицируя неисправные узлы как ожидающие перезагрузки и ожидающие замены, а также дает указания по поддержанию работоспособности узлов в случае отключения их автоматической замены. Если включено автоматическое восстановление, вы сможете увидеть изменения в узлах, задержки в выполнении заданий обучения и узнать, как возобновляется выполнение задач с последней контрольной точки.
Начать работу с Аналитикой контейнеров очень просто. Можно подключить ее, установив в кластеры дополнение CloudWatch Observability EKS или последнюю версию агента CloudWatch либо обновив версию агента CloudWatch для схем Helm. После настройки вы можете перейти в консоль Аналитики контейнеров и сразу же увидеть состояние работоспособности узлов SageMaker HyperPod.
Наблюдение за работоспособностью узлов SageMaker HyperPod теперь доступно в Аналитике контейнеров для EKS во всех коммерческих регионах, где имеется SageMaker HyperPod. Оплата за метрики работоспособности узлов HyperPod определяется по модели наблюдения. Подробнее см. страницу цен на Аналитику контейнеров. Дополнительные сведения см. в руководстве пользователя Аналитики контейнеров.