SageMaker HyperPod, LLM 태스크의 토폴로지 인식 스케줄링 지원

게시된 날짜: 2025년 8월 14일

이제 SageMaker HyperPod 태스크 거버넌스가 토폴로지 인식 스케줄링(TAS)을 지원하여, 데이터 과학자가 네트워크 통신을 최소화하고 훈련 효율성을 높일 수 있는 최적의 네트워크 토폴로지에서 대규모 언어 모델(LLM) 작업을 스케줄링할 수 있게 되었습니다.

여러 가속화 컴퓨팅 인스턴스에 분산된 LLM 훈련 및 미세 조정 태스크는 서로 간에 대량의 데이터를 자주 교환합니다. 인스턴스 간 네트워크 홉이 여러 번 발생하면 통신 지연 시간이 증가하여 LLM 태스크 성능에 영향을 줄 수 있습니다. SageMaker HyperPod 태스크 거버넌스는 이제 데이터 과학자가 특정 토폴로지 기본 설정으로 태스크를 예약할 때 네트워크 토폴로지 정보를 활용할 수 있도록 지원합니다. HyperPod에서 네트워크 토폴로지를 활용해 SageMaker HyperPod 태스크 거버넌스는 태스크를 최적의 위치에 자동으로 스케줄링하여 인스턴스 간 통신을 줄이고 훈련 효율성을 높입니다.

SageMaker HyperPod 태스크 거버넌스는 HyperPod가 제공되는 모든 AWS 리전, 즉 미국 서부(캘리포니아 북부), 미국 서부(오리건), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 유럽(프랑크푸르트), 유럽(아일랜드), 유럽(스톡홀름) 리전에서 사용할 수 있습니다.

자세한 내용은 SageMaker HyperPod 웹 페이지SageMaker HyperPod 태스크 거버넌스 설명서에서 확인하세요.