이제 Amazon SageMaker HyperPod용 작업 거버넌스 기능 정식 출시

게시된 날짜: 2024년 12월 4일

이제 Amazon SageMaker HyperPod에서 훈련, 추론 등의 모든 생성형 AI 개발 작업을 관리할 수 있는 중앙 집중식 거버넌스 기능을 제공합니다. 이 기능을 사용하면 컴퓨팅 리소스 할당 현황을 완벽하게 파악하고 제어할 수 있습니다. 그러므로 가장 중요한 작업을 최우선 작업으로 설정하고 컴퓨터 리소스 사용률을 최대한 높임으로써 모델 개발 비용을 40%까지 줄일 수 있습니다.

관리자는 HyperPod 작업 거버넌스 기능을 통해 다양한 작업의 우선 순위를 더욱 쉽게 정의하고 각 팀이 사용할 수 있는 컴퓨팅 리소스의 제한을 설정할 수 있습니다. 또한 관리자는 언제든지 시각적 대시보드를 통해 컴퓨팅 리소스를 실행 중이거나 컴퓨팅 리소스 제공 대기 중인 작업을 모니터링하고 감사할 수 있습니다. 데이터 과학자가 작업을 생성하면 HyperPod는 정의된 컴퓨팅 리소스 제한 및 우선 순위를 준수하여 해당 작업을 자동 실행합니다. 예를 들어 우선 순위가 높은 모델의 훈련을 최대한 빨리 완료해야 하는데 모든 컴퓨팅 리소스가 사용 중이라면 HyperPod는 이 훈련을 지원하기 위해 우선 순위가 낮은 작업에서 리소스를 확보합니다. 즉, 우선 순위가 낮은 작업을 일시 중지하고 체크포인트를 저장한 후 확보된 컴퓨팅 리소스를 재할당합니다. 컴퓨팅 리소스가 선점되어 있던 우선 순위가 낮은 작업은 해당 리소스가 다시 사용 가능해지면 마지막으로 저장된 체크포인트에서 다시 시작됩니다. 그리고 관리자가 설정한 리소스를 팀이 한도까지 모두 사용하지 않는 경우 HyperPod는 해당 유휴 리소스를 사용하여 다른 팀의 작업을 더 빠르게 실행합니다. 뿐만 아니라 HyperPod는 이제 Amazon SageMaker Studio와 통합되므로 Studio 환경 내에서 작업 거버넌스 및 기타 HyperPod 기능이 제공됩니다. 이제 데이터 과학자는 Studio에서 직접 HyperPod 클러스터와 원활하게 상호 작용을 할 수 있습니다. 그러므로 액셀러레이터를 통해 지원되는 고성능 클러스터에서 기계 학습(ML) 작업을 개발/제출/모니터링할 수 있습니다.

HyperPod용 작업 거버넌스 기능은 미국 동부(버지니아 북부), 미국 서부(캘리포니아 북부), 미국 서부(오리건), 아시아 태평양(뭄바이), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(도쿄), 유럽(프랑크푸르트), 유럽(아일랜드), 유럽(런던), 유럽(스톡홀름), 남아메리카(상파울루) 등 HyperPod가 제공되는 모든 AWS 리전에서 사용 가능합니다.

자세히 알아보려면 SageMaker HyperPod 웹 페이지, AWS 뉴스 블로그SageMaker AI 설명서를 참조하세요.