Усовершенствованная отладка сценариев жизненного цикла в Amazon SageMaker HyperPod
Amazon SageMaker HyperPod теперь предоставляет расширенные возможности устранения неполадок для сценариев жизненного цикла, упрощая выявление и решение проблем при выделении узлов кластера. Функция SageMaker HyperPod помогает создавать отказоустойчивые кластеры для рабочих нагрузок искусственного интеллекта (ИИ) и машинного обучения (ML), а также для разработки самых современных больших языковых моделей (LLM), базовых моделей (FM) и моделей диффузии.
Теперь, когда в сценариях жизненного цикла возникают проблемы при создании кластера или работе с узлами, вы будете получать подробные сообщения об ошибках, содержащие названия конкретных групп журналов CloudWatch и потоков журналов, по которым можно найти журналы выполнения сценариев жизненного цикла. Вы можете просмотреть эти сообщения об ошибках, запустив API DescribeCluster или открыв страницу сведений о кластере в консоли SageMaker. В консоли также есть кнопка «Просмотр журналов сценариев жизненного цикла», которая позволяет перейти непосредственно к нужному потоку журналов CloudWatch, что упрощает поиск журналов. Кроме того, журналы CloudWatch для сценариев жизненного цикла теперь содержат специальные маркеры, которые помогают отслеживать ход выполнения этих сценариев, включая индикаторы начала журнала, загрузки сценариев, завершения загрузки, а также успешного или неудачного выполнения. Эти маркеры помогают быстро определить, когда именно в процессе выделения ресурсов возникли проблемы. Данные усовершенствования сокращают время диагностики и устранения сбоев сценариев жизненного цикла, помогая быстрее подготавливать кластеры HyperPod к работе.
Эта функция доступна во всех регионах AWS, в которых поддерживается Amazon SageMaker HyperPod. Подробные сведения см. в разделе Управление кластером SageMaker HyperPod в руководстве для разработчиков по Amazon SageMaker.