Amazon SageMaker, 새로운 생성형 AI 추론 최적화 기능 도입
오늘 Amazon SageMaker는 Llama 3, Mistral 및 Mixtral 모델과 같은 생성형 AI 모델에서 비용을 최대 50% 절감하는 동시에 최대 2배 더 높은 처리량을 제공하는 새로운 추론 기능의 정식 버전을 출시했습니다. 예를 들어, Llama 3-70B 모델의 경우 별도의 최적화 없이 ml.p5.48xlarge 인스턴스에서 이전의 초당 최대 1200개 토큰과 대비하여 초당 최대 2400개의 토큰을 달성할 수 있습니다.
이번 신규 기능을 통해 고객은 예측 디코딩, 양자화, 컴파일 등 최신 모델 최적화 기술 메뉴에서 선택하여 생성형 AI 모델에 이를 적용할 수 있습니다. SageMaker는 딥 러닝 프레임워크 및 라이브러리와 함께 최적화 레시피를 실행하는 데 필요한 하드웨어를 프로비저닝하는 번거로운 작업을 처리합니다. 고객은 여러 인기 있는 오픈 소스 모델에 대해 대규모로 성능 테스트를 거친 SageMaker의 예측 디코딩 솔루션을 즉시 지원받거나 자체 예측 디코딩 솔루션을 가져올 수 있습니다. 양자화의 경우, SageMaker는 다양한 모델 아키텍처의 정밀도 유형에 대한 호환성과 지원을 보장합니다. 컴파일의 경우, SageMaker의 런타임 인프라는 최적화된 모델의 효율적인 로딩 및 캐싱을 보장하여 오토 스테일링 시간을 줄여줍니다.
고객은 AWS SDK for Python(Boto3), SageMaker Python SDK 또는 AWS Command Line Interface(AWS CLI)에서 이번 신규 기능을 활용할 수 있습니다. 이 기능은 이제 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(오레곤), 아시아 태평양(뭄바이), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(도쿄), 캐나다(중부), 유럽(프랑크푸르트), 유럽(아일랜드), 유럽(런던), 유럽(파리), 유럽(스톡홀름) 및 남아메리카(상파울루) 리전에서 사용할 수 있습니다.
설명서 페이지와 AWS ML 블로그로 이동하여 자세한 내용을 알아보세요.