Amazon SageMaker, 생성형 AI 추론의 규모 조정 기능을 가속화하는 신규 기능 도입
AWS가 생성형 AI 모델의 배포 및 확장 기능이 대폭 개선된 SageMaker Inference의 두 가지 신규 기능인 Container Caching 및 Fast Model Loader를 선보입니다. 이러한 혁신 덕분에 대규모 언어 모델(LLM)을 효율적으로 확장하는 데 따르는 중요한 문제가 해결되어 트래픽 급증에 대해 빠르게 응답하고 비용 효율적으로 규모를 조정할 수 있게 되었습니다. 고객은 이러한 기능으로 모델 로드 시간을 단축하고 자동 크기 조정을 가속화하여 수요 변동에 따라 생성형 AI 애플리케이션의 응답성을 개선할 수 있는데, 이는 특히 동적 트래픽 패턴을 사용하는 서비스에 도움이 됩니다.
Container Caching은 컨테이너 이미지를 사전 캐싱하여 추론을 위해 생성형 AI 모델을 확장하는 데 필요한 시간을 크게 줄여줍니다. 이렇게 하면 확장 시 다운로드할 필요가 없으므로 생성형 AI 모델 엔드포인트의 규모 조정 시간이 크게 단축됩니다. Fast Model Loader는 모델 가중치를 Amazon S3에서 액셀러레이터로 직접 스트리밍하여 기존 방법에 비해 모델을 훨씬 빠르게 로드합니다. 고객은 이러한 기능을 통해 응답성이 더 뛰어난 자동 크기 조정 정책을 만들 수 있으며, 이를 통해 정의된 임계값에 도달할 때 SageMaker가 새 인스턴스 또는 모델 복사본을 빠르게 추가할 수 있으므로 트래픽이 급증하는 동안에도 최적의 성능을 유지하는 동시에 비용을 효과적으로 관리할 수 있습니다.
이러한 신규 기능은 Amazon SageMaker Inference가 제공되는 모든 AWS 리전에서 사용할 수 있습니다. 자세히 알아보려면 설명서에서 세부 구현 지침을 참조하세요.