Amazon SageMaker HyperPod, 탄력적 훈련 기능 도입

게시된 날짜: 2025년 12월 3일

이제 Amazon SageMaker HyperPod에서 이제 탄력적 훈련 기능이 지원됨에 따라 조직은 리소스 가용성 및 워크로드 우선순위를 기반으로 훈련 워크로드를 자동으로 확장하여 파운데이션 모델 훈련을 가속화할 수 있게 되었습니다. 이는 컴퓨팅 가용성에 따라 훈련 작업을 재구성하는 데 소요되는 엔지니어링 시간이 절약되기 때문에 고정된 리소스 세트로 훈련하는 것에서 벗어나 보다 근본적으로 변화됨을 보여줍니다.

이전에는 컴퓨팅 가용성이 변경되면 수동으로 훈련을 중단하고, 훈련 파라미터를 재구성하고, 작업을 다시 시작해야 했습니다. 이러한 프로세스에는 분산 훈련 전문 지식이 필요하고 훈련 작업을 재구성하는 동안 값비싼 AI 액셀러레이터가 유휴 상태로 남게 됩니다. 탄력적 훈련 기능은 훈련 작업을 자동으로 확장하여 유휴 상태인 AI 액셀러레이터를 흡수하고 우선순위가 높은 워크로드에 리소스가 필요할 때 원활하게 축소합니다. 이러한 모든 작업은 훈련을 완전히 중단하지 않고도 가능합니다.

탄력적 훈련 기능은 수동으로 재구성하는 오버헤드를 없애고 사용 가능한 컴퓨팅을 지속적으로 활용함으로써 이전에 인프라를 관리하는 데 소요된 시간을 절약하고, 클러스터 활용도를 극대화하여 비용을 절감하고, 시장 진입 시간을 단축할 수 있습니다. 훈련은 최소한의 리소스로 즉시 시작할 수 있으며, 용량이 늘어남에 따라 긴급하게 필요한 경우 확장할 수 있습니다.

SageMaker HyperPod는 현재 Amazon SageMaker HyperPod가 제공되는 모든 리전에서 사용할 수 있습니다. 조직은 Llama 및 GPT OSS를 비롯한 공개적으로 제공되는 모델을 위한 HyperPod 레시피를 사용하여 코드 변경 없이 탄력적 훈련을 가능하게 할 수 있습니다. 사용자 지정 모델 아키텍처의 경우 고객은 가벼운 구성 업데이트와 최소한의 코드 수정을 통해 탄력적 훈련 기능을 통합할 수 있으므로 분산 시스템 전문 지식이 없어도 팀에서 액세스할 수 있습니다.

시작하려면 Amazon SageMaker HyperPod 제품 페이지로 이동하고 구현 지침의 경우 탄력적 훈련 기능 설명서를 참조하세요.