Amazon SageMaker AI, 최적화된 생성형 AI 추론 권장 사항 출시

게시된 날짜: 2026년 4월 21일

Amazon SageMaker AI가 이제 추론 권장 사항을 지원합니다. 이 새로운 기능을 통해 수동 최적화와 벤치마킹 없이 최적의 추론 성능을 제공할 수 있습니다. SageMaker AI는 검증된 최적 배포 구성과 성능 지표를 제공하여 프로덕션 환경으로 전환하는 경로를 가속화하고, 모델 개발자가 인프라 관리보다는 정확한 모델 구축에 집중할 수 있도록 지원합니다.

고객은 자체 생성형 AI 모델을 가져오고, 예상 트래픽 패턴을 정의하고, 성능 목표(비용 최적화, 지연 시간 최소화 또는 처리량 최대화)를 지정합니다. 그러면 SageMaker AI는 NVIDIA AIPerf를 통해 실제 GPU 인프라에서 각 구성을 벤치마킹하여 모델의 아키텍처를 분석하고 여러 인스턴스 유형에 걸쳐 해당 목표에 맞춘 최적화를 적용합니다. 고객은 여러 인스턴스 유형을 평가하여 워크로드에 가격 대비 성능이 가장 뛰어난 옵션을 선택할 수 있습니다. 그 결과, 첫 토큰 도달 시간, 토큰 간 지연 시간, 요청 지연 시간 백분위수, 처리량, 비용 예측을 비롯한 검증된 지표를 갖추어 배포 준비가 완료된 구성이 생성됩니다.

 이 기능은 현재 미국 동부(버지니아 북부), 미국 서부(오리건), 미국 동부(오하이오), 아시아 태평양(도쿄), 유럽(아일랜드), 아시아 태평양(싱가포르), 유럽(프랑크푸르트) 등 7개 AWS 리전에서 사용할 수 있습니다. 자세한 내용은 SageMaker AI 설명서를 참조하세요.