메인 콘텐츠로 건너뛰기

Amazon SageMaker HyperPod

Amazon SageMaker HyperPod 기능

수천 개의 AI 액셀러레이터에서 생성형 AI 모델 개발 규모 조정 및 가속화

체크포인트 없는 훈련

Amazon SageMaker HyperPod의 체크포인트 없는 훈련을 통해 수동 개입 없이도 인프라 장애로부터 몇 분 내에 자동으로 복구할 수 있습니다. 이는 장애 복구를 위해 전체 클러스터를 일시 중지하고 문제를 해결한 후 저장된 체크포인트에서 복구해야 하는 체크포인트 기반 작업 수준 재시작의 필요성을 줄여줍니다. 체크포인트 없는 훈련은 SageMaker HyperPod가 결함이 있는 구성 요소를 자동으로 교체하고 정상 AI 액셀러레이터에서 모델 및 옵티마이저 상태를 피어 투 피어 방식으로 전송하여 훈련을 복구하므로 장애가 발생해도 순방향 훈련 진행을 유지합니다. 이는 수천 개의 AI 액셀러레이터가 있는 클러스터에서 95% 이상의 훈련 굿풋을 가능하게 합니다. 체크포인트 없는 훈련을 통해 수백만 달러의 컴퓨팅 비용을 절감하고, 수천 개의 AI 액셀러레이터로 훈련 규모를 조정하고, 모델을 더 빠르게 프로덕션에 적용할 수 있습니다.

자세히 알아보기

탄력적 훈련

Amazon SageMaker HyperPod의 탄력적 훈련은 컴퓨팅 리소스의 가용성에 따라 훈련 작업 규모를 자동으로 조정하여 이전에는 훈련 작업 재구성에 소요되던 주당 수 시간의 엔지니어링 시간을 절약합니다. 추론 워크로드가 트래픽 패턴에 따라 규모가 조정되고, 완료된 실험에서 리소스가 릴리스되고, 새로운 훈련 작업이 워크로드 우선순위를 변경함에 따라 AI 액셀러레이터에 대한 수요는 지속적으로 변동합니다. SageMaker HyperPod는 실행 중인 훈련 작업을 동적으로 확장하여 유휴 AI 액셀러레이터를 흡수함으로써 인프라 활용도를 극대화합니다. 추론이나 평가와 같이 우선순위가 높은 워크로드에 리소스가 필요한 경우 훈련이 완전히 중단되지 않고 더 적은 리소스로 계속 진행되도록 스케일 다운됩니다. 이는 태스크 거버넌스 정책을 통해 설정된 우선순위에 따라 필요한 용량을 확보하기 위함입니다. 탄력적 훈련은 AI 모델 개발을 가속화하는 동시에 활용도가 낮은 컴퓨팅으로 인한 비용 초과를 줄여줍니다.

자세히 알아보기

태스크 거버넌스

Amazon SageMaker HyperPod는 훈련 및 추론과 같은 생성형 AI 모델 개발 태스크 전반에 걸쳐 컴퓨팅 리소스 할당에 대한 완전한 가시성과 제어 기능을 제공합니다. SageMaker HyperPod에서 태스크 대기열을 자동으로 관리하여 가장 중요한 태스크의 우선순위를 지정하는 동시에 컴퓨팅 리소스를 보다 효율적으로 사용하여 모델 개발 비용을 절감합니다. 관리자는 몇 가지 간단한 단계를 통해 다양한 태스크의 우선순위를 정의하고 각 팀 또는 프로젝트에서 사용할 수 있는 컴퓨팅 리소스의 양을 제한할 수 있습니다. 그런 다음 데이터 과학자와 개발자는 관리자가 설정한 컴퓨팅 리소스 제한 및 우선순위에 따라 SageMaker HyperPod에서 자동으로 실행하는 태스크(예: 훈련 실행, 특정 모델 미세 조정 또는 훈련된 모델에 대한 예측 수행)를 생성합니다. 우선순위가 높은 태스크를 즉시 완료해야 하지만 모든 컴퓨팅 리소스가 사용 중인 경우 SageMaker HyperPod가 우선순위가 낮은 태스크에서 컴퓨팅 리소스를 자동으로 확보합니다. 또한 SageMaker HyperPod는 유휴 컴퓨팅 리소스를 자동으로 사용하여 대기 중인 태스크 처리를 가속화합니다. SageMaker HyperPod는 관리자가 컴퓨팅 리소스를 실행 중이거나 대기 중인 태스크를 모니터링하고 감사할 수 있는 대시보드를 제공합니다.

유연한 훈련 계획

SageMaker HyperPod는 훈련 일정과 예산을 충족하기 위해 여러 컴퓨팅 용량 블록의 컴퓨팅 리소스를 사용하는 가장 비용 효율적인 훈련 계획을 생성할 수 있도록 도와줍니다. 훈련 계획을 승인하면 SageMaker HyperPod에서 자동으로 인프라를 프로비저닝하고 수동 개입 없이 이러한 컴퓨팅 리소스에서 훈련 작업을 실행합니다. 컴퓨팅 가용성에 맞게 작업을 조정하기 위해 훈련 프로세스를 관리하는 데 드는 몇 주의 시간을 절약할 수 있습니다.

Amazon SageMaker HyperPod 스팟 인스턴스

SageMaker HyperPod의 스팟 인스턴스를 사용하면 현저히 낮은 비용으로 컴퓨팅 용량에 액세스할 수 있습니다. 스팟 인스턴스는 배치 추론 작업과 같은 내결함성 워크로드에 적합합니다. 요금은 리전 및 인스턴스 유형에 따라 다르며, 일반적으로 SageMaker HyperPod 온디맨드 요금 대비 최대 90%까지 할인된 요금을 제공합니다. 스팟 인스턴스 가격은 Amazon EC2에서 정하고, 스팟 인스턴스 용량의 장기적인 공급 수요 추세에 따라 점진적으로 조정됩니다. 인스턴스가 실행되는 기간 동안 적용되는 스팟 요금을 지불하며, 선불 약정은 필요하지 않습니다. 예상 스팟 인스턴스 요금 및 인스턴스 가용성에 대해 자세히 알아보려면 EC2 스팟 인스턴스 요금 페이지를 방문하세요. HyperPod에서 스팟 사용이 가능한 인스턴스는 HyperPod에서도 지원되는 인스턴스에 한정됩니다.

모델을 사용자 지정하는 데 최적화된 레시피

SageMaker HyperPod 레시피를 사용하면 기술 수준에 관계없이 데이터 과학자와 개발자가 Llama, Mixtral, Mistral 및 DeepSeek 모델을 비롯하여 공개적으로 사용 가능한 파운데이션 모델을 빠르게 훈련하고 미세 조정할 수 있도록 지원하는 동시에 최신 성능의 이점을 활용할 수 있습니다. 또한 SFT, 증류 및 DPO에서 파라미터 효율적 훈련 옵션과 전체 모델 훈련 옵션을 모두 지원하는 지도식 미세 조정(SFT), 지식 증류, 직접 선호 최적화(DPO), 근위 정책 최적화 및 지속적인 사전 훈련을 포함한 일련의 기술을 사용하여 Nova Micro, Nova Lite 및 Nova Pro를 비롯한 Amazon Nova 모델을 사용자 지정할 수 있습니다. 각 레시피에는 AWS에서 테스트한 훈련 스택이 포함되어 있어 여러 모델 구성을 테스트하는 지루한 작업에 소요되는 시간을 몇 주나 절약할 수 있습니다. 한 줄의 레시피 변경으로 GPU 기반 인스턴스와 AWS Trainium 기반 인스턴스 간에 전환하고, 자동화된 모델 체크포인트 지정을 활성화하여 훈련 복원력을 개선하고, SageMaker HyperPod의 프로덕션 환경에서 워크로드를 실행할 수 있습니다.

Amazon Nova Forge는 Nova를 사용하여 자체 프론티어 모델을 구축하는 가장 쉽고 비용 효과적인 방법을 조직에 제공하는 최초의 프로그램입니다. Nova 모델의 중간 체크포인트에서 액세스하여 훈련하고, 훈련 중에 Amazon에서 큐레이팅한 데이터세트와 독점 데이터를 혼합하고, SageMaker HyperPod 레시피를 사용하여 자체 모델을 훈련하세요. Nova Forge를 사용하면 자체 비즈니스 데이터를 사용하여 사용 사례에 맞는 인텔리전스를 확보하고 태스크의 가격 대비 성능을 개선할 수 있습니다.

자세히 알아보기

고성능 분산 훈련

SageMaker HyperPod는 AWS 액셀러레이터에서 모델 및 훈련 데이터세트를 자동으로 분할하여 분산 훈련을 가속화합니다. 체크포인트 저장 빈도를 최적화하여 훈련 중 오버헤드를 최소화함으로써 AWS 네트워크 인프라 및 클러스터 토폴로지에 대한 훈련 작업을 최적화하고 모델 체크포인트를 간소화하도록 돕습니다.

고급 관찰성 및 실험 도구

SageMaker HyperPod 관찰성 기능은 Amazon Managed Grafana에서 사전 구성된 통합 대시보드를 제공하며, 모니터링 데이터는 Amazon Managed Prometheus 워크스페이스에 자동으로 게시됩니다. 실시간 성능 지표, 리소스 사용률, 클러스터 상태를 단일 뷰에서 확인할 수 있으므로, 팀이 병목 지점을 빠르게 찾아내고 비용이 많이 드는 지연을 방지하고 컴퓨팅 리소스를 최적화할 수 있습니다. 또한 SageMaker HyperPod는 Amazon CloudWatch Container Insights와 통합되어 클러스터 성능, 상태 및 사용에 대한 심층적인 인사이트를 제공합니다. 관리형 TensorBoard in SageMaker를 사용하면 모델 아키텍처를 시각화하여 컨버전스 문제를 식별하고 해결함으로써 개발 시간을 절약할 수 있습니다. 관리형 MLflow in SageMaker를 사용하면 대규모 실험을 효율적으로 관리할 수 있습니다.

Screenshot of a GPU cluster dashboard displaying metrics and performance data for HyperPod, including GPU temperature, power usage, memory usage, NVLink bandwidth, and cluster alerts.

워크로드 일정 지정 및 오케스트레이션

Slurm 또는 Amazon Elastic Kubernetes Service(Amazon EKS)를 사용하여 SageMaker HyperPod 사용자 인터페이스를 고도로 사용자 지정할 수 있습니다. 필요한 프레임워크 또는 도구를 선택하여 설치할 수 있습니다. 모든 클러스터는 사용자가 선택한 인스턴스 유형과 개수로 프로비저닝되며 워크로드 전체에서 사용할 수 있도록 유지됩니다. SageMaker HyperPod의 Amazon EKS 지원을 통해 일관된 Kubernetes 기반 관리자 경험으로 클러스터를 관리하고 운영할 수 있습니다. 훈련에서 미세 조정, 추론에 이르기까지 워크로드를 효율적으로 실행하고 규모를 조정할 수 있습니다. 컴퓨팅 용량을 공유하고 다양한 유형의 워크로드에 대해 Slurm과 Amazon EKS 간을 전환할 수 있습니다.

자동 클러스터 상태 확인 및 복구

모델 개발 워크로드 중에 인스턴스에 결함이 발생하는 경우 SageMaker HyperPod에서 인프라 문제를 자동으로 감지하고 해결합니다. 결함이 있는 하드웨어를 탐지하기 위해 SageMaker HyperPod는 정기적으로 액셀러레이터 및 네트워크 무결성에 대한 일련의 상태 확인을 실행합니다.

SageMaker Jumpstart에서 오픈 웨이트 모델 배포 가속화

SageMaker HyperPod는 SageMaker JumpStart의 오픈 웨이트 FM과 Amazon S3 및 Amazon FSx의 미세 조정된 모델의 배포를 자동으로 간소화합니다. SageMaker HyperPod가 자동으로 필요한 인프라를 프로비저닝하고 엔드포인트를 구성하므로 수동으로 프로비저닝할 필요가 없습니다. SageMaker HyperPod 태스크 거버넌스 기능이 엔드포인트 트래픽을 지속적으로 모니터링하고 컴퓨팅 리소스를 동적으로 조정하는 동시에, 실시간 모니터링 및 최적화를 위해 포괄적인 성능 지표를 관찰성 대시보드에 게시합니다.

Screenshot of the deployment settings for deploying a model endpoint using SageMaker HyperPod in SageMaker Studio. The interface shows fields for deployment name, HyperPod cluster selection, instance type, namespace, auto-scaling options, and the model being deployed. Used for large-scale inference with pre-provisioned compute.

관리형 계층별 체크포인팅

SageMaker HyperPod의 관리형 계층형 체크포인팅은 CPU 메모리를 사용하여 빠른 복구를 위해 빈번하게 발생하는 체크포인트를 저장합니다. 동시에 데이터를 Amazon Simple Storage Service(Amazon S3)에 주기적으로 저장하여 장기적인 안정성을 확보합니다. 이 하이브리드 접근 방식은 훈련 손실을 최소화하고 장애 발생 후 훈련을 재개하는 걸리는 시간을 획기적으로 줄여줍니다. 고객은 인메모리 및 영구 스토리지 계층 모두에서 체크포인트의 빈도와 보존 정책을 구성할 수 있습니다. 메모리에 자주 저장함으로써 고객은 스토리지 비용을 최소화하면서도 신속하게 복구할 수 있습니다. PyTorch의 분산 체크포인트(DCP)와 통합되어 있어, 몇 줄의 코드만으로 체크포인팅을 손쉽게 구현할 수 있으며 인메모리 스토리지의 성능 이점도 얻을 수 있습니다.

자세히 알아보기

GPU 파티셔닝으로 리소스 활용도 극대화

SageMaker HyperPod를 사용하면 관리자가 GPU 리소스를 더 작고 격리된 컴퓨팅 유닛으로 분할하여 GPU 활용도를 극대화할 수 있습니다. 리소스의 일부만 필요한 태스크에 전체 GPU를 전용하는 대신 단일 GPU에서 다양한 생성형 AI 태스크를 실행할 수 있습니다. GPU 파티션 전반의 실시간 성능 지표와 리소스 사용률 모니터링을 통해 태스크가 컴퓨팅 리소스를 어떻게 활용하는지 파악할 수 있습니다. 이렇게 최적화된 할당과 간소화된 설정은 생성형 AI 개발을 가속화하고, GPU 활용도를 개선하고, 대규모 태스크 전반에 걸쳐 효율적인 GPU 리소스 사용을 제공합니다.

오늘 원하는 내용을 찾으셨나요?

페이지의 콘텐츠 품질을 개선할 수 있도록 피드백을 보내주십시오.