Amazon SageMaker HyperPod, 이제 체크포인트 없는 훈련 지원
이제 Amazon SageMaker HyperPod에서 장애 복구 시 체크포인트 기반 작업 수준을 재시작해야 하는 필요성을 완화하는 새로운 파운데이션 모델 훈련 기능인 체크포인트 없는 훈련을 지원합니다. 체크포인트 없는 훈련은 장애가 발생하더라도 순방향 훈련 모멘텀을 유지함으로써 복구 시간을 몇 시간에서 몇 분으로 단축합니다. 이는 장애 발생 시 전체 훈련 클러스터를 일시 중지하고, 수동으로 문제를 진단하고, 저장된 체크포인트에서 복원해야 하는 전통적인 체크포인트 기반 복구 방식에서 벗어나 근본적으로 변화됨을 나타냅니다. 이 프로세스는 값비싼 AI 액셀러레이터가 몇 시간 동안 유휴 상태로 남기 때문에 조직이 컴퓨팅 낭비를 겪게 됩니다.
체크포인트 없는 훈련은 분산 클러스터 전체에 걸쳐 모델 훈련 상태를 보존하고, 장애가 있는 훈련 노드를 즉시 자동으로 교체하고, 장애 복구를 위해 정상 액셀러레이터의 P2P 상태 전송을 사용함으로써 이러한 패러다임을 혁신합니다. 체크포인트 없는 훈련은 복구 중 체크포인트 종속성을 완화하여 조직에서 유휴 AI 액셀러레이터 비용을 절약하고 시간을 단축하는 데 도움이 될 수 있습니다. 더 큰 규모에서도 Amazon SageMaker HyperPod의 체크포인트 없는 훈련을 통해 수천 개의 AI 액셀러레이터를 사용하여 클러스터 규모에 대해 95% 이상의 훈련 효과를 얻을 수 있습니다.
SageMaker HyperPod에 대한 체크포인트 없는 훈련은 현재 Amazon SageMaker HyperPod가 제공되는 모든 AWS 리전에서 이용할 수 있습니다. Llama 및 GPT OSS 같이 공개적으로 제공되는 인기 모델을 위한 HyperPod 레시피를 사용하여 코드 변경 없이 체크포인트 없는 훈련을 사용하도록 설정할 수 있습니다. 사용자 지정 모델 아키텍처의 경우 PyTorch 기반 워크플로의 수정을 최소화하면서 체크포인트 없는 훈련 구성 요소를 통합하여 팀이 분산 훈련 전문 지식과 상관없이 액세스하도록 할 수 있습니다.
시작하려면 Amazon SageMaker HyperPod 제품 페이지로 이동하고 구현 지침의 경우 체크포인트 없는 훈련 GitHub 페이지를 참조하세요.