Представляем управляемые многоуровневые контрольные точки для Amazon SageMaker HyperPod

Проведено: 8 сент. 2025 г.

Amazon Web Services (AWS) сегодня объявляет о появлении общедоступных управляемых многоуровневых контрольных точек для Amazon SageMaker HyperPod. Эта новая возможность ускоряет восстановление моделей и минимизирует потери в процессе обучения. По мере масштабирования обучения искусственного интеллекта возрастает вероятность сбоев инфраструктуры, из-за чего критически важным становится эффективное использование контрольных точек. Традиционные методы работы с контрольными точками могут быть медленными и ресурсоемкими, особенно для больших моделей. Управляемые многоуровневые контрольные точки SageMaker HyperPod решают эту проблему за счет хранения часто используемых точек в памяти ЦП для их быстрого восстановления. Они также периодически сохраняют данные в Amazon S3 для обеспечения надежности в долгосрочной перспективе. Такой гибридный подход сводит к минимуму потери при обучении и существенно ускоряет возобновление обучения после сбоя.

Управляемые многоуровневые контрольные точки предоставляют организациям возможности отказоустойчивого обучения с высокой пропускной способностью в крупномасштабных кластерах. Это решение позволяет клиентам настраивать частоту контрольных точек и политики хранения как в оперативной памяти, так и на уровнях постоянного хранилища. За счет частого сохранения данных в памяти клиенты могут быстро восстанавливать работу и минимизировать затраты на хранение. Благодаря интеграции с распределенной контрольной точкой PyTorch (DCP) клиенты могут легко внедрять контрольные точки, используя всего несколько строк кода, получая преимущества высокоэффективного хранения в памяти.

В настоящее время эта функция доступна для кластеров SageMaker HyperPod, использующих оркестратор EKS. Клиенты могут активировать управляемые многоуровневые контрольные точки, указав соответствующий параметр API CreateCluster или UpdateCluster при создании или обновлении кластера HyperPod соответственно. Затем клиенты могут использовать Python-библиотеку sagemaker-checkpointing для внедрения управляемых многоуровневых контрольных точек с минимальным изменением кода своих сценариев обучения.

Управляемые многоуровневые контрольные точки поддерживаются во всех регионах, где сейчас доступны функции SageMaker HyperPod. Подробности см. в этой статье блога и документации.