SageMaker HyperPod, 이제 Managed Tiered KV 캐시 및 지능형 라우팅 지원
Amazon SageMaker HyperPod는 이제 대규모 언어 모델(LLM) 추론을 위한 Managed Tiered KV 캐시 및 지능형 라우팅을 지원합니다. 따라서 고객이 긴 컨텍스트 프롬프트 및 연속 대화에서 추론 성능을 최적화할 수 있도록 합니다. 프로덕션 LLM 애플리케이션을 배포하는 고객은 긴 문서를 처리하거나 대화 맥락을 유지할 때 빠른 응답 시간이 필요하지만, 기존 추론 방식에서는 토큰이 새로 생성될 때마다 모든 이전 토큰에 대한 주의 메커니즘을 다시 계산해야 하므로 계산 오버헤드가 발생하고 비용이 증가합니다. Managed Tiered KV 캐시는 계산된 값을 지능적으로 캐싱하고 재사용하여 이러한 문제를 해결하며, 지능형 라우팅은 요청을 최적의 인스턴스로 전달합니다.
이러한 기능은 기본 구성 대비 최대 40%의 지연 시간 감소, 25%의 처리량 향상 및 25%의 비용 절감을 제공합니다. Managed Tiered KV 캐시 기능은 로컬 CPU 메모리(L1)와 분산된 클러스터 전체 스토리지(L2)를 결합한 2티어 아키텍처를 사용합니다. AWS 네이티브 분산 계층형 스토리지는 권장 백엔드로, 확장 가능한 테라바이트 규모의 용량을 제공하며 CPU 메모리에서 로컬 SSD로 이어지는 자동 계층화를 통해 메모리 및 스토리지 활용을 최적화합니다. 또한 AWS는 Redis를 대체 L2 캐시 옵션으로 제공합니다. 이 아키텍처를 사용하면 이전에 계산된 키-값 쌍을 요청 전체에서 효율적으로 재사용할 수 있습니다. 새로 도입된 지능형 라우팅은 세 가지 구성 가능한 전략, 즉 공통 프롬프트 패턴을 위한 접두사 인식 라우팅, 실시간 캐시 추적을 통해 캐시 효율성을 극대화하는 KV 인식 라우팅, 그리고 상태 비저장 워크로드를 위한 라운드 로빈을 이용해 캐시 활용도를 극대화합니다. 이러한 기능은 서로 원활하게 연동되어 작동합니다. 지능형 라우팅은 관련 캐시 데이터를 보유한 인스턴스로 요청을 전달하여, 문서 분석 시 첫 토큰까지 도달하는 데 걸리는 시간을 단축하고 연속 대화에서 자연스러운 대화 흐름을 유지합니다. 기본으로 제공되는 Amazon Managed Grafana와의 관찰성 통합 기능은 성능 모니터링을 위한 지표를 제공합니다. EKS 오케스트레이션된 클러스터에서 HyperPod 추론 연산자를 통해 모델을 배포할 때 InferenceEndpointConfig 또는 SageMaker JumpStart를 통해 이러한 기능을 활성화할 수 있습니다.
이러한 기능은 SageMaker HyperPod를 사용할 수 있는 모든 리전에서 사용할 수 있습니다. 자세한 내용은 사용 설명서를 참조하세요.