SageMaker JumpStart, 이제 파운데이션 모델을 위한 최적화된 배포 제공
이제 SageMaker JumpStart에서는 최적화된 배포를 제공하여 고객이 특정 사용 사례 및 성능 제약에 맞게 사전 구성된 설정으로 파운데이션 모델을 배포할 수 있도록 지원합니다. SageMaker JumpStart 최적화 배포는 콘텐츠 생성, 요약 또는 Q&A 등 워크로드 요구 사항을 기반으로 비용, 처리량 또는 지연 시간을 최적화하는 태스크 인식 구성을 제공하여 모델 배포를 간소화합니다. 이번 출시에는 Meta, Microsoft, Mistral AI, Qwen, Google, TII의 인기 모델 30개 이상에 대한 지원이 포함되며 P50 지연 시간, TTFT(Time-to-First Token), 배포 전 처리량 등과 같은 주요 성능 지표를 가시적으로 확인할 수 있는 기능도 제공됩니다.
SageMaker JumpStart 최적화 배포를 통해 고객은 사용 사례별 구성(예: 생성형 글쓰기 또는 채팅 스타일 상호 작용) 중에서 원하는 구성을 선택하고 비용 최적화, 처리량 최적화, 지연 시간 최적화 또는 균형 잡힌 성능 등을 비롯한 최적화 목표를 선택할 수 있습니다. 사전 설정된 구성을 사용하여 모델을 SageMaker AI Managed Inference 엔드포인트 또는 SageMaker HyperPod 클러스터에 배포할 수 있습니다. 이러한 사전 설정된 구성을 활용하면 배포 세부 정보에 대한 완전한 가시성을 유지하면서 추측에 의존하지 않게 됩니다. 사용 가능한 모델에는 Meta Llama 3.1 및 3.2 변형, Microsoft Phi-3, Mistral AI 모델(새로운 Mistral-Small-24B-Instruct-2501), Qwen 2 및 3 시리즈(멀티모달 Qwen2-VL 포함), Google Gemma, TII Falcon3가 포함됩니다. 모든 배포는 SageMaker의 VPC 배포 기능을 활용하므로, 엔터프라이즈급 보안이 적용되는 데이터 제어 및 프로덕션 지원 인프라를 지원합니다. 이 기능은 현재 SageMaker JumpStart가 지원되는 모든 AWS 리전에서 사용할 수 있습니다.
최적화된 배포를 시작하려면 SageMaker Studio의 모델로 이동한 후 JumpStart Models 탭에서 원하는 파운데이션 모델을 선택하고 ‘배포’를 선택한 다음, 사용 사례 및 성능 최적화 목표를 선택합니다. 자세한 내용은 SageMaker JumpStart 설명서를 참조하세요. AWS에서는 추가 모델을 포함할 수 있도록 지원을 적극적으로 확장하고 있습니다.