Amazon SageMaker, 생성형 AI 모델을 위한 더 빠른 자동 크기 조정 기능 출시

게시된 날짜: 2024년 7월 25일

AWS는 고객이 생성형 AI 모델의 규모를 자동으로 조정하는 데 걸리는 시간을 줄이는 데 도움이 되는 Amazon SageMaker Inference의 새로운 기능을 발표했습니다. 이제 고객은 1분 미만의 지표를 사용하여 AI 모델의 전반적인 규모 조정 지연 시간을 크게 줄일 수 있습니다. 이 향상된 기능을 사용하면 수요가 변동될 때 생성형 AI 애플리케이션의 응답성을 개선할 수 있습니다.

이 기능을 통해 고객은 자동 규모 조정의 속도를 높여주는 두 가지 새로운 고해상도 CloudWatch 지표인 ConcurrentRequestsPerModel과 ConcurrentRequestsPerModelCopy를 활용할 수 있습니다. 이러한 지표는 10초 간격으로 생성되며 모델에서 처리 중인 실제 동시성 또는 진행 중인 추론 요청 수를 추적하여 엔드포인트의 로드를 더욱 정확하게 나타냅니다. 고객은 이러한 고해상도 지표를 사용하여 자동 규모 조정 정책을 생성하고 SageMaker 엔드포인트에 배포된 모델을 확장할 수 있습니다. 이러한 자동 규모 조정 정책에 정의된 임계값에 도달하면 Amazon SageMaker는 1분 이내에 새 인스턴스나 모델 사본을 추가하기 시작합니다. 따라서 고객은 SageMaker의 추론 워크로드에 대한 성능과 비용 효율성을 최적화할 수 있습니다.

이 새로운 기능은 중국 리전과 AWS GovCloud(미국) 리전을 제외하고 Amazon SageMaker Inference가 제공되는 모든 AWS 리전의 가속 인스턴스 패밀리(g4dn, g5, g6, p2, p3, p4d, p4de, p5, inf1, inf2, trn1n, trn1)에서 액세스할 수 있습니다. 자세한 내용은 AWS ML 블로그설명서를 참조하세요.