Amazon SageMaker AI, 추론을 위한 P5e 및 G6e 인스턴스 출시 발표
Amazon SageMaker에서 NVIDIA L40S Tensor Core GPU로 구동되는 추론 최적화 G6e 인스턴스와 NVIDIA H200 Tensor Core GPU로 구동되는 P5e 인스턴스의 정식 버전이 발표되었습니다.
8개의 NVIDIA H200 GPU에 걸친 1128GB의 고대역폭 GPU 메모리, 30TB의 로컬 NVMe SSD 스토리지, 192개의 vCPU, 2TiB의 시스템 메모리를 갖춘 ml.p5e.48xlarge 인스턴스는 1,000억 개 이상의 파라미터가 있는 대규모 언어 모델, 멀티모달 파운데이션 모델, 합성 데이터 생성, 복잡한 생성형 AI 애플리케이션(질문 답변, 코드 생성, 비디오, 이미지 생성 등)과 같은 컴퓨팅 집약적 AI 추론 워크로드에 뛰어난 성능을 제공할 수 있습니다.
GPU당 48GB 메모리를 갖춘 8개의 NVIDIA L40s Tensor Core GPU와 3세대 AMD EPYC 프로세서로 구동되는 ml.g6e 인스턴스는 ml.g5 인스턴스와 비교하여 최대 2.5배 더 뛰어난 성능을 제공할 수 있습니다. 고객은 ml.g6e 인스턴스를 사용하여 최대 130억 개의 파라미터가 있는 대규모 언어 모델(LLM)과 이미지, 비디오, 오디오를 생성하는 확산 모델을 위한 AI 추론을 실행할 수 있습니다.
ml.p5e 및 ml.g6e 인스턴스는 현재 미국 동부(오하이오)와 미국 서부(오리건) 리전의 SageMaker에서 사용할 수 있습니다. 시작하려면 AWS Service Quotas를 통해 한도 증가를 요청하면 됩니다. 인스턴스에 대한 요금 정보는 요금 페이지를 참조하세요. SageMaker를 사용한 모델 배포에 대해 자세히 알아보려면 여기에서 개요를 살펴보거나 여기에서 설명서를 확인하세요. 이러한 인스턴스의 전반적인 내용은 P5e 및 G6e 제품 페이지에서 알아볼 수 있습니다.