Amazon Bedrock führt Priorität und Flex Inference Service-Tiers ein

Veröffentlicht am: 18. Nov. 2025

Heute stellt Amazon Bedrock zwei neue Inferenzservice-Ebenen vor, um Kosten und Leistung für verschiedene KI-Workloads zu optimieren. Das neue Flex-Tier bietet kosteneffiziente Preise für nicht zeitkritische Anwendungen wie Modellbewertung und Inhaltszusammenfassungen, während das Priorität-Tier Premium-Leistung und bevorzugte Verarbeitung für unternehmenskritische Anwendungen bietet. Bei den meisten Modellen, die die Priorität-Stufe unterstützen, können Kunden im Vergleich zum Standard-Tier eine bis zu 25 % bessere Latenzzeit für Output-Token pro Sekunde (OTPS) erzielen. Diese ergänzen das bestehende Standard-Tier für alltägliche KI-Anwendungen mit zuverlässiger Leistung.

Diese Serviceebenen adressieren die wichtigsten Herausforderungen, mit denen Unternehmen bei der Bereitstellung von KI in großem Umfang konfrontiert sind. Das Flex-Tier ist für nicht-interaktive Workloads konzipiert, die längere Latenzzeiten tolerieren können. Sie eignet sich daher ideal für Modellbewertungen, Inhaltszusammenfassungen, Beschriftungen und Annotationen sowie mehrstufige Kundendienstmitarbeiter-Workflows. Dabei ist es im Vergleich zum Standard-Tier günstiger. In Zeiten hoher Nachfrage erhalten Flex-Anfragen eine niedrigere Priorität als das Standard-Tier. Das Priorität-Tier eignet sich ideal für unternehmenskritische Anwendungen, Echtzeit-Interaktionen mit Endbenutzern und interaktive Erlebnisse, bei denen konsistente, schnelle Antworten unerlässlich sind. In Zeiten hoher Nachfrage werden Priority-Anfragen vorrangig und zu einem höheren Preis als die anderen Service-Tiers bearbeitet. Diese neuen Service-Tiers sind ab heute für eine Reihe führender Basismodelle verfügbar, darunter OpenAI (gpt-oss-20b, gpt-oss-120b), DeepSeek (DeepSeek V3.1), Qwen3 (Coder-480B-A35B-Instruct, Coder-30B-A3B-Instruct, 32B dense, Qwen3-235B-A22B-2507) und Amazon Nova (Nova Pro und Nova Premier). Mit diesen neuen Optionen verhilft Amazon Bedrock seinen Kunden zu einer besseren Kontrolle über das Gleichgewicht zwischen Kosteneffizienz und Leistungsanforderungen. So können sie KI-Workloads wirtschaftlich skalieren und gleichzeitig eine optimale Benutzererfahrung für ihre wichtigsten Anwendungen sicherstellen.

Weitere Informationen über die AWS-Regionen, in denen Amazon Bedrock Priorität und Flex Inference Service-Tiers verfügbar sind, finden Sie in der Tabelle der AWS-Regionen

Erfahren Sie mehr über Service-Tiers in unserem News Blog und in der Dokumentation.