Amazon SageMaker 추론이란 무엇인가요?
Amazon SageMaker AI를 사용하면 모든 사용 사례에서 최상의 가격 대비 성능으로 파운데이션 모델(FM)을 비롯한 ML 모델을 손쉽게 배포하여 추론 요청을 수행할 수 있습니다. 짧은 지연 시간 및 높은 처리량부터 장기 실행 추론에 이르기까지, SageMaker AI를 모든 추론 니즈를 지원하는 데 사용할 수 있습니다. 완전관리형 서비스인 SageMaker AI는 MLOps 도구와 통합되므로, 모델 배포 규모를 조정하고, 추론 비용을 줄이고, 프로덕션 환경에서 모델을 보다 효과적으로 관리하며, 운영 부담을 줄일 수 있습니다.
SageMaker Inference의 이점
광범위한 추론 옵션
실시간 추론
Serverless Inference
비동기 추론
배치 변환
확장 가능하고 비용 효율적인 추론 옵션
단일 모델 엔드포인트
짧은 지연 시간과 높은 처리량이 요구되는 경우 전용 인스턴스 또는 서버리스 인스턴스에서 호스팅되는 컨테이너에 단일 모델을 구축합니다.

단일 엔드포인트의 여러 모델
여러 모델을 동일한 인스턴스에 호스팅하여 기본 액셀러레이터를 더 효과적으로 활용하여 배포 비용을 최대 50% 절감할 수 있습니다. 각 FM에 대한 규모 조정 정책을 개별적으로 제어할 수 있으므로 인프라 비용을 최적화하는 동시에 모델 사용 패턴에 쉽게 적응할 수 있습니다.

직렬 추론 파이프라인
여러 컨테이너가 전용 인스턴스를 공유하면서 순차적으로 실행됩니다. 추론 파이프라인을 사용하여 전처리, 예측 및 후처리 데이터 과학 작업을 결합할 수 있습니다.

대부분의 기계 학습 프레임워크 및 모델 서버 지원
Amazon SageMaker 추론은 TensorFlow, PyTorch, ONNX, XGBoost 등 가장 많이 사용되는 기계 학습 프레임워크에 대한 내장 알고리즘과 사전 빌드된 Docker 이미지를 지원합니다. 사전 빌드된 Docker 이미지가 요구 사항을 충족하지 못하는 경우 CPU 기반 다중 모델 엔드포인트와 함께 사용할 자체 컨테이너를 구축할 수 있습니다. SageMaker 추론은 TensorFlow Serving, TorchServe, NVIDIA Triton, AWS 다중 모델 서버 등 가장 인기 있는 모델 서버를 지원합니다.
Amazon SageMaker AI는 모델 병렬 처리 및 대규모 모델 추론(LMI)을 위한 전문화된 딥 러닝 컨테이너(DLC), 라이브러리 및 도구를 제공하여 파운데이션 모델의 성능을 개선하는 데 도움을 줍니다. 이러한 옵션을 사용하면 거의 모든 사용 사례에 대해 파운데이션 모델(FM)을 포함한 각종 모델을 신속하게 배포할 수 있습니다.





저렴한 비용으로 높은 추론 성능 달성
저렴한 비용으로 높은 추론 성능 달성
Amazon SageMaker AI의 새로운 추론 최적화 도구 키트는 Llama 3, Mistral, Mixtral 모델 같은 생성형 AI 모델에서 비용을 최대 50% 절감하는 동시에 최대 2배 높은 처리량을 제공합니다. 예를 들어, Llama 3-70B 모델의 경우 별도의 최적화 없이 ml.p5.48xlarge 인스턴스에서 이전의 초당 최대 1200개 토큰과 대비하여 초당 최대 2400개의 토큰을 달성할 수 있습니다. 추측 디코딩, 양자화, 컴파일 같은 모델 최적화 기법을 선택하거나, 여러 기법을 결합하여 모델에 적용하고, 벤치마크를 실행하여 기법이 출력 품질 및 추론 성능에 미치는 영향을 평가하고, 클릭 몇 번으로 모델을 배포할 수 있습니다.

최고 성능의 인프라에 모델을 배포하거나 서버리스로 전환
Amazon SageMaker AI는 다양한 수준의 컴퓨팅 및 메모리를 갖춘 70개 이상의 인스턴스 유형을 제공합니다. 여기에는 AWS가 설계 및 구축한 고성능 ML 추론 칩인 AWS Inferentia를 기반으로 한 Amazon EC2 Inf1 인스턴스와 Amazon EC2 G4dn 같은 GPU 인스턴스가 포함됩니다. 또는 Amazon SageMaker 서버리스 추론을 선택하여 엔드포인트당 수천 개의 모델, 수백만 TPS(초당 트랜잭션)의 처리량 및 10밀리초 미만의 오버헤드 지연 시간을 제공하도록 손쉽게 확장할 수 있습니다.

ML 모델의 성능 검증을 위한 섀도우 테스트
Amazon SageMaker AI는 실시간 추론 요청을 통해 현재 SageMaker에서 배포된 모델을 대상으로 성능을 섀도우 테스트하여 새 모델을 평가할 수 있도록 도와줍니다. 섀도우 테스트는 최종 사용자가 영향을 받기 전에 발생 가능한 구성 오류와 성능 문제를 파악하는 데 도움이 될 수 있습니다. SageMaker AI를 사용하면 자체 섀도우 테스트 인프라를 구축하는 데 몇 주의 시간을 허비할 필요가 없습니다. 테스트하려는 프로덕션 모델을 선택하기만 하면 SageMaker AI가 새 모델을 섀도우 모드로 자동 배포하고, 프로덕션 모델에서 수신한 추론 요청의 사본을 새 모델로 실시간으로 라우팅합니다.

탄력성을 위한 오토 스케일링
규모 조정 정책을 사용하여 추론 요청량의 변동에 따라 기반 컴퓨팅 리소스의 규모를 자동으로 조정할 수 있습니다. 각 ML 모델의 규모 조정 정책을 개별적으로 제어하여 모델 사용량의 변화에 쉽게 대응하는 동시에, 인프라 비용을 최적화할 수 있습니다.

개선된 지연 시간과 지능적인 라우팅
이미 추론 요청을 처리하느라 사용량이 많은 인스턴스에 요청을 무작위로 라우팅하는 대신 새로운 추론 요청을 사용 가능한 인스턴스로 지능적으로 라우팅하여 ML 모델의 추론 지연 시간을 줄일 수 있습니다. 이를 통해 추론 지연 시간을 평균 20% 줄일 수 있습니다.
운영 부담 감소 및 가치 실현 가속화
완전관리형 모델 호스팅 및 관리
완전관리형 서비스인 Amazon SageMaker AI는 인스턴스, 소프트웨어 버전 호환성, 패치 버전 설정 및 관리를 모두 처리합니다. 또한 알림을 모니터링하고 수신하는 데 사용할 수 있는 엔드포인트에 대한 기본 제공 지표 및 로그도 제공합니다.

MLOps 기능과의 기본 통합
Amazon SageMaker AI 모델 배포 기능은 SageMaker Pipelines(워크플로 자동화 및 오케스트레이션), SageMaker 프로젝트(ML의 CI/CD), SageMaker 특성 저장소(특성 관리), SageMaker 모델 레지스트리(계보를 추적하고 자동화된 승인 워크플로를 지원하기 위한 모델 및 아티팩트 카탈로그), SageMaker Clarify(편향 탐지), SageMaker Model Monitor(모델 및 컨셉 드리프트 탐지) 등의 MLOps 기능과 기본적으로 통합됩니다. 따라서 단일 모델을 배포하든 수만 개의 모델을 배포하든 관계없이, SageMaker는 ML 모델을 더 빠르게 프로덕션 환경에 적용하는 동시에 배포, 규모 조정 및 관리에 따른 운영 부담을 덜어줍니다.

고객
SageMaker Inference 리소스
새로운 소식
Total results: 416
- 날짜(최신순)
-
2025.01.30
-
2024.12.11
-
2024.12.06
-
2024.12.06
-
2024.12.04