Amazon SageMaker HyperPod, 관리형 계층 체크포인팅 출시

게시된 날짜: 2025년 9월 8일

오늘 Amazon Web Service(AWS)는 Amazon SageMaker HyperPod용 관리형 계층형 체크포인트의 정식 출시를 발표했습니다. 이는 모델 복구 시간을 단축하고 훈련 진행 중 손실을 최소화하도록 설계된 기능입니다. AI 훈련 규모가 커질수록 인프라 장애 발생 가능성이 높아지기 때문에 효율적인 체크포인팅이 중요합니다. 기존의 체크포인팅 방식은 특히 대규모 모델의 경우 느리고 리소스를 많이 소모하는 경향이 있습니다. SageMaker HyperPod의 관리형 계층형 체크포인팅은 이러한 문제를 해결하기 위해 빈번하게 발생하는 체크포인트를 CPU 메모리에 저장하여 빠른 복구를 가능하게 합니다. 동시에 데이터를 Amazon S3에 주기적으로 저장하여 장기적인 안정성을 확보합니다. 이 하이브리드 접근 방식은 훈련 손실을 최소화하고 장애 발생 후 훈련을 재개하는 걸리는 시간을 획기적으로 줄여줍니다.

이를 통해 조직은 대규모 클러스터에서 높은 처리량으로 안정적인 훈련을 진행할 수 있습니다. 고객은 이 솔루션을 통해 인메모리 및 영구 스토리지 계층 모두에서 체크포인트의 빈도와 보존 정책을 구성할 수 있습니다. 메모리에 자주 저장함으로써 고객은 스토리지 비용을 최소화하면서도 신속하게 복구할 수 있습니다. PyTorch의 분산 체크포인트(DCP)와 통합되어 있어, 몇 줄의 코드만으로 체크포인트팅을 손쉽게 구현할 수 있으며 인메모리 스토리지의 성능 이점도 얻을 수 있습니다.

이 기능은 현재 EKS 오케스트레이터를 사용하는 SageMaker HyperPod 클러스터에서 제공됩니다. 관리형 계층형 체크포인팅을 활성화하려면 CreateCluster 또는 UpdateCluster API를 통해 HyperPod 클러스터를 생성하거나 업데이트할 때 API 파라미터를 지정하면 됩니다. 그런 다음 sagemaker-checkpointing python 라이브러리를 사용하면 훈련 스크립트에 대한 최소한의 코드 변경만으로 관리형 계층형 체크포인팅을 구현할 수 있습니다.

관리형 계층형 체크포인팅은 현재 SageMaker HyperPod가 제공되는 모든 리전에서 사용할 수 있습니다. 자세한 내용은 블로그 게시물설명서에서 확인하세요.