Amazon Bedrock, Priority 및 Flex 추론 서비스 티어 출시
오늘 Amazon Bedrock은 다양한 AI 워크로드의 비용과 성능을 최적화하는 두 가지 새로운 추론 서비스 티어를 출시했습니다. 새로운 Flex 티어는 모델 평가, 콘텐츠 요약처럼 시간이 중요하지 않은 애플리케이션에 비용 효율적인 요금을 제공하는 반면, Priority 티어는 미션 크리티컬 애플리케이션에 프리미엄 성능과 우선 처리 기능을 제공합니다. Priority 티어를 지원하는 대부분의 모델에서 고객은 Standard 티어에 비해 초당 출력 토큰 수(OTPS) 지연 시간이 최대 25% 향상되는 경험을 할 수 있습니다. 이들은 안정적인 성능을 갖춘 일상적인 AI 애플리케이션을 위한 기존 Standard 티어에 합류합니다.
이러한 서비스 티어는 조직이 AI를 대규모로 배포할 때 직면하는 주요 문제를 해결합니다. Flex 티어는 더 긴 지연 시간을 견딜 수 있는 비대화형 워크로드에 맞게 설계되어 모델 평가, 콘텐츠 요약, 레이블 지정, 주석 달기, 다단계 에이전틱 워크플로에 적합하며 Standard 티어에 비해 할인된 가격으로 책정되었습니다. 수요가 많은 기간에는 Flex 요청의 우선 순위가 Standard 티어에 비해 낮습니다. Priority 티어는 일관되고 빠른 응답이 필수적인 미션 크리티컬 애플리케이션, 실시간 최종 사용자 상호 작용, 대화형 경험에 적합합니다. 수요가 많은 기간에는 Priority 요청이 다른 서비스 티어에 비해 프리미엄 가격으로 처리 우선 순위를 받습니다. 이러한 새로운 서비스 티어는 현재 OpenAI(gpt-oss-20b, gpt-oss-120b), DeepSeek(DeepSeek V3.1), Qwen3(Coder-480B-A35B-Instruct, Coder-30B-A3B-Instruct, 32B dense, Qwen3-235B-A22B-2507), Amazon Nova(Nova Pro와 Nova Premier)를 비롯해 다양한 주요 파운데이션 모델에서 사용할 수 있습니다. Amazon Bedrock은 이러한 새로운 옵션을 통해 고객이 비용 효율성과 성능 요구 사항의 균형을 더 잘 관리하도록 지원함으로써 가장 중요한 애플리케이션에 최적의 사용자 경험을 보장하는 동시에 경제적으로 AI 워크로드를 규모 조정할 수 있도록 돕습니다.
Amazon Bedrock Priority 및 Flex 추론 서비스 티어를 사용할 수 있는 AWS 리전에 대한 자세한 정보는 AWS 리전 표를 참조