Amazon SageMaker HyperPod training operator 발표

게시된 날짜: 2025년 6월 30일

오늘 AWS는 HyperPod에서 복원력이 뛰어난 파운데이션 모델 훈련을 위해 특별히 구축된 Kubernetes 확장 기능인 Amazon SageMaker HyperPod Training Operator의 정식 버전을 발표했습니다.

Amazon SageMaker HyperPod는 기본 제공되는 복원력과 함께 수백 또는 수천 개의 GPU로 AI 모델 개발을 가속화하여, 모델 훈련 시간을 최대 40%까지 단축합니다. 훈련 클러스터가 확장되면서 훈련 중단에 따른 복구 부담이 점점 더 커지고 있습니다. 일반적으로 단일 훈련 프로세스가 실패하더라도 장애를 복구하려면 모든 노드에서 작업 전체를 다시 시작해야 했으며, 이로 인해 가동 중지 시간이 늘어나고 비용이 증가했습니다. 게다가 GPU 정지, 훈련 처리량 저하, 수치적 불안정성 등 훈련 중 발생하는 주요 문제를 식별하고 해결하려면 일반적으로 복잡한 사용자 지정 모니터링 코드가 필요했고, 이는 개발 일정 연장 및 출시 시간 지연으로 이어졌습니다.

HyperPod Training Operator를 사용하면 고객이 Kubernetes 워크로드에 대한 훈련 복원력을 더욱 강화할 수 있습니다. 장애가 발생했을 때 전체 작업을 다시 시작하는 대신, 문제가 발생한 훈련 리소스만 선별적으로 재시작하여 장애로부터 더 빠르게 복구할 수 있습니다. 또한 간단한 YAML 구성만으로 훈련 배치 중단, 비수치적 손실 값, 성능 저하와 같은 문제가 있는 훈련 시나리오를 해결할 수 있도록 사용자 지정 가능한 멈춘 작업 모니터링 기능도 도입되었습니다. 시작하는 방법은 간단합니다. HyperPod 클러스터를 생성하고, training operator 애드온을 설치하고, 필요에 따라 멈춘 작업에 대한 사용자 지정 복구 정책을 정의하고, 훈련을 시작하면 됩니다.

이번 릴리스는 현재 SageMaker HyperPod가 지원되는 모든 AWS 리전에서 정식 버전으로 제공됩니다.

자세한 내용은 설명서를 참조하세요.