게시된 날짜: Nov 29, 2023

오늘 Amazon SageMaker HyperPod의 정식 출시가 발표되었습니다. HyperPod에서 제공되는 대규모 분산 훈련용 목적별 인프라를 사용하면 파운데이션 모델(FM) 훈련 시간을 40%까지 단축할 수 있습니다. 

대다수 조직은 저가형 그래픽 처리 장치(GPU) 기반/Tranium 기반 인스턴스를 사용하여 FM을 훈련시키고자 합니다. 하지만 데이터의 양이 늘어나고 모델 크기가 커지는 동시에 FM 훈련 소요 시간이 길어짐에 따라 모델 훈련 방식도 급속도로 복잡해졌습니다. 고객은 수백 개, 많게는 수천 개의 액셀러레이터에서 FM 훈련 과정을 분할해야 하는 경우가 많습니다. 그 후에는 한 번에 몇 주나 몇 달 동안 수조 건의 데이터 계산을 병렬로 실행합니다. 이 과정은 시간도 많이 걸리며 특수한 ML 관련 전문 지식도 필요합니다. 이처럼 훈련 작업에 사용되는 모델 수에 비해 액셀러레이터의 수와 훈련 시간이 대폭 증가하므로 발생 빈도와 심각도가 낮은 단일 액셀러레이터 장애 등의 오류가 발생할 가능성이 높아집니다. 

SageMaker HyperPod 사용 시에는 FM 훈련용 ML 인프라 구축 및 최적화와 관련된 획일적이며 번거로운 작업을 직접 처리할 필요가 없습니다. SageMaker HyperPod는 SageMaker의 분산 훈련 라이브러리로 사전 구성되어 있으므로 고객이 액셀러레이터 수천 개에서 훈련 워크로드를 자동 분할할 수 있습니다. 따라서 워크로드를 병렬로 처리하여 모델 성능을 개선할 수 있습니다. 또한 SageMaker HyperPod는 체크포인트를 주기적으로 저장하므로, 고객이 FM 훈련을 중단하지 않고 계속 진행할 수 있습니다. 훈련 중에 하드웨어 장애가 발생하면 SageMaker HyperPod가 장애를 자동 감지하여 결함이 있는 인스턴스를 복구하거나 교체한 후 마지막으로 저장된 체크포인트부터 훈련을 재개합니다. 그러므로 고객이 프로세스를 수동으로 관리할 필요가 없으며, 분산 환경에서도 훈련을 몇 주나 몇 달 동안 중단하지 않고 계속 진행할 수 있습니다.

SageMaker HyperPod는 정식 출시되었으며 미국 동부(오하이오), 미국 동부(버지니아 북부), 미국 서부(오레곤), 아시아 태평양(서울), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(도쿄), 유럽(프랑크푸르트), 유럽(아일랜드) 및 유럽(스톡홀름) AWS 리전에서 사용 가능합니다.

자세한 내용은 다음 리소스 목록을 참조하세요.