Amazon SageMaker HyperPod теперь обеспечивает комплексную наблюдаемость для группами инстансов с ограниченным доступом
Amazon SageMaker HyperPod теперь обеспечивает комплексную наблюдаемость для групп инстансов с ограниченным доступом (RIG), что позволяет командам, обучающим базовые модели с помощью Nova Forge, получать подробную информацию о своих вычислительных ресурсах и рабочих нагрузках обучения. Эта новая возможность избавляет от необходимости вручную собирать и сопоставлять метрики в стеке инфраструктуры, поскольку объединяет в одном представлении информацию о производительности графического процессора, состоянии системы, пропускной способности сети и состоянии кластера Kubernetes. Все эти сведения предоставляются в виде предварительно настроенной панели управления управляемой Amazon Grafana при поддержке Управляемого сервиса Amazon для Prometheus.
Теперь вы можете отслеживать использование графического процессора, пропускную способность NVLink, нагрузку на процессор, использование FSx для Lustre и жизненный цикл пода в единой панели управления Grafana. Метрики собираются с помощью четырех экспортеров и охватывают производительность графического процессора, состояние системы на уровне хоста, сетевую структуру и состояние объектов Kubernetes. Кроме того, в этих панелях управления автоматически отображается подборка журналов, содержащих сведения о прогрессе эпохи, обучении на уровне отдельных этапов, ошибках конвейера и трассировках стека Python, что позволяет быстро диагностировать ошибки в обучении. Функция наблюдаемости HyperPod для групп инстансов с ограниченным доступом автоматически включается при создании нового кластера с помощью RIG. Ее также можно включить для существующих кластеров несколькими щелчками мыши в консоли управления кластером HyperPod.
Наблюдаемость для RIG в Amazon SageMaker HyperPod доступна во всех регионах AWS, где поддерживаются группы инстансов с ограниченным доступом SageMaker HyperPod. Чтобы узнать больше, ознакомьтесь с документацией.