Amazon Bedrock의 기초 모델용 지연 시간 최적화 추론 기능 출시

게시된 날짜: 2024년 12월 2일

이제 Amazon Bedrock의 기초 모델용 지연 시간 최적화 추론 기능이 공개 미리 보기로 제공됩니다. 이 기능을 사용하면 AI 애플리케이션의 응답성을 개선하고 응답 시간을 단축할 수 있습니다. 이번에 새롭게 제공되는 이러한 추론 옵션은 Anthropic의 Claude 3.5 Haiku 모델Meta의 Llama 3.1 405B 및 70B 모델을 지원합니다. 이러한 모델에서 해당 옵션을 사용하는 경우 정확도는 그대로 유지하면서 표준 모델에 비해 지연 시간을 줄일 수 있습니다. Anthropic에서 검증한 바와 같이 Amazon Bedrock의 지연 시간 최적화 추론을 통해 Claude 3.5 Haiku는 다른 어느 곳보다 AWS에서 더 빠르게 실행됩니다. 그리고 Llama 3.1 405B 및 70B 역시 Bedrock의 지연 시간 최적화 추론 기능을 사용하는 경우 다른 어떤 주요 클라우드 제공업체의 클라우드보다 AWS에서 더 빠르게 실행됩니다.

생성형 AI 애플리케이션을 프로덕션 환경으로 이전하는 고객이 늘어남에 따라 최종 사용자 경험 최적화의 중요성도 높아졌습니다. 특히 실시간 고객 서비스 챗봇, 대화형 코딩 어시스턴트 등 지연 시간이 중요한 애플리케이션을 이전하는 고객의 경우에는 최적화된 최종 사용자 경험을 반드시 제공해야 합니다. 고객은 AWS Trainium2와 같은 목적별 AI 칩과 Amazon Bedrock의 고급 소프트웨어 최적화 기능을 사용하여 특정 사용 사례에 맞게 추론을 최적화하는 더욱 다양한 옵션에 액세스할 수 있습니다. 추가 설정이나 모델 미세 조정을 수행하지 않고도 이러한 기능에 액세스할 수 있으므로 기존 애플리케이션을 즉시 개선하여 응답 시간을 단축할 수 있습니다.

미국 동부(오하이오) 리전에서 교차 리전 추론을 통해 Anthropic의 Claude 3.5 Haiku 모델과 Meta의 Llama 3.1 405B 및 70B 모델에 지연 시간 최적화 추론 기능을 사용할 수 있습니다. 이 기능의 사용을 시작하려면 Amazon Bedrock 콘솔로 이동하세요. Amazon Bedrock 및 해당 기능에 대한 자세한 내용은 Amazon Bedrock 제품 페이지, 요금 페이지설명서를 참조하세요.