Amazon SageMaker HyperPod 기능

수천 개의 AI 액셀러레이터에서 생성형 AI 모델 개발 규모 조정 및 가속화

작업 거버넌스

Amazon SageMaker HyperPod는 훈련 및 추론과 같은 생성형 AI 모델 개발 작업 전반에 걸쳐 컴퓨팅 리소스 할당에 대한 완전한 가시성과 제어 기능을 제공합니다. SageMaker HyperPod에서 작업 대기열을 자동으로 관리하여 가장 중요한 작업의 우선 순위를 지정하는 동시에 컴퓨팅 리소스를 보다 효율적으로 사용하여 모델 개발 비용을 절감합니다. 관리자는 몇 가지 간단한 단계를 통해 다양한 작업의 우선 순위를 정의하고 각 팀 또는 프로젝트에서 사용할 수 있는 컴퓨팅 리소스의 양을 제한할 수 있습니다. 그런 다음 데이터 과학자와 개발자는 관리자가 설정한 컴퓨팅 리소스 제한 및 우선 순위에 따라 SageMaker HyperPod에서 자동으로 실행하는 작업(예: 훈련 실행, 특정 모델 미세 조정 또는 훈련된 모델에 대한 예측 수행)을 생성합니다. 우선 순위가 높은 작업을 즉시 완료해야 하지만 모든 컴퓨팅 리소스가 사용 중인 경우 SageMaker HyperPod가 우선 순위가 낮은 작업에서 컴퓨팅 리소스를 자동으로 확보합니다. 또한 SageMaker HyperPod는 유휴 컴퓨팅 리소스를 자동으로 사용하여 대기 중인 작업 처리를 가속화합니다. SageMaker HyperPod는 관리자가 컴퓨팅 리소스를 실행 중이거나 대기 중인 작업을 모니터링하고 감사할 수 있는 대시보드를 제공합니다.

자세히 알아보기

유연한 훈련 계획

SageMaker HyperPod는 훈련 일정과 예산을 충족하기 위해 여러 컴퓨팅 용량 블록의 컴퓨팅 리소스를 사용하는 가장 비용 효율적인 훈련 계획을 생성할 수 있도록 도와줍니다. 훈련 계획을 승인하면 SageMaker HyperPod에서 자동으로 인프라를 프로비저닝하고 수동 개입 없이 이러한 컴퓨팅 리소스에서 훈련 작업을 실행합니다. 컴퓨팅 가용성에 맞게 작업을 조정하기 위해 훈련 프로세스를 관리하는 데 드는 몇 주의 시간을 절약할 수 있습니다.

자세히 알아보기

 

최적화된 레시피

SageMaker HyperPod 레시피를 사용하는 경우 기술 분야에 관계없이 데이터 과학자와 개발자가 Lama 3.1 405B, Mixtral 8x22B 및 Mistral 7B를 비롯하여 공개적으로 사용 가능한 생성형 AI 모델을 빠르게 훈련하고 미세 조정할 수 있도록 지원하는 동시에 최신 성능의 이점을 활용할 수 있습니다. 각 레시피에는 AWS에서 테스트한 훈련 스택이 포함되어 있어 여러 모델 구성을 테스트하는 데 몇 주씩 걸리는 지루한 작업이 필요하지 않게 됩니다. 한 줄의 레시피 변경으로 GPU 기반 인스턴스와 AWS Trainium 기반 인스턴스 간에 전환하고, 자동화된 모델 체크포인트 지정을 활성화하여 훈련 복원력을 개선하고, SageMaker HyperPod의 프로덕션 환경에서 워크로드를 실행할 수 있습니다.

 

고성능 분산 훈련

SageMaker HyperPod는 AWS 액셀러레이터에서 모델 및 훈련 데이터세트를 자동으로 분할하여 분산 훈련을 가속화합니다. 체크포인트 저장 빈도를 최적화하여 훈련 중 오버헤드를 최소화함으로써 AWS 네트워크 인프라 및 클러스터 토폴로지에 대한 훈련 작업을 최적화하고 모델 체크포인트를 간소화하도록 돕습니다.

고급 실험 및 관찰성 도구

SageMaker HyperPod에서 기본 제공된 AI 도구를 사용하여 모델 성능을 개선할 수 있습니다. 예를 들어 관리형 TensorBoard in SageMaker를 사용하면 모델 아키텍처를 시각화하여 컨버전스 문제를 식별하고 해결함으로써 개발 시간을 절약할 수 있습니다. Amazon CloudWatch Container Insights와 통합하면 클러스터 성능, 상태 및 사용에 대한 심층적인 인사이트를 얻을 수 있습니다. 관리형 MLflow in SageMaker를 사용하면 대규모 실험을 효율적으로 관리할 수 있습니다.

워크로드 일정 지정 및 오케스트레이션

Slurm 또는 Amazon Elastic Kubernetes Service(Amazon EKS)를 사용하여 SageMaker HyperPod 사용자 인터페이스를 고도로 사용자 지정할 수 있습니다. 필요한 프레임워크 또는 도구를 선택하여 설치할 수 있습니다. 모든 클러스터는 사용자가 선택한 인스턴스 유형과 개수로 프로비저닝되며 워크로드 전체에서 사용할 수 있도록 유지됩니다. SageMaker HyperPod의 Amazon EKS 지원을 통해 일관된 Kubernetes 기반 관리자 경험으로 클러스터를 관리하고 운영할 수 있습니다. 훈련에서 미세 조정, 추론에 이르기까지 워크로드를 효율적으로 실행하고 확장할 수 있습니다. 컴퓨팅 용량을 공유하고 다양한 유형의 워크로드에 대해 Slurm과 Amazon EKS 간을 전환할 수 있습니다.

자동 클러스터 상태 확인 및 복구

모델 개발 워크로드 중에 인스턴스에 결함이 발생하는 경우 SageMaker HyperPod에서 인프라 문제를 자동으로 감지하고 해결합니다. 결함이 있는 하드웨어를 탐지하기 위해 SageMaker HyperPod는 정기적으로 액셀러레이터 및 네트워크 무결성에 대한 일련의 상태 확인을 실행합니다.