Einführung latenzoptimierter Inferenz für Basismodelle in Amazon Bedrock

Veröffentlicht am: 2. Dez. 2024

Latenzoptimierte Inferenz für Basismodelle in Amazon Bedrock ist jetzt als öffentliche Vorschauversion verfügbar, mit schnelleren Reaktionszeiten und einer verbesserten Reaktionsfähigkeit für KI-Anwendungen. Zum jetzigen Zeitpunkt unterstützen diese neuen Inferenzoptionen das Modell Claude 3.5 Haiku von Anthropic und die Modelle Llama 3.1 405B- und 70B von Meta, welche im Vergleich zu den Standardmodellen eine geringere Latenz bieten, ohne Kompromisse bei der Genauigkeit einzugehen. Wie Anthropic bestätigt, mit latenzoptimierter Inferenz in Amazon Bedrock, laufen Claude 3.5 Haiku in AWS schneller als irgendwo sonst. Zusätzlich, mit latenzoptimierter Inferenz in Bedrock, laufen Llama 3.1  405B und 70B in AWS schneller als auf jedem anderen großen Cloud-Anbieter.

Da mehr Kunden ihre generativen KI-Anwendungen in die Produktion migrieren, ist die Optimierung des Endbenutzererlebnisses speziell für latenzempfindliche Anwendungen wie Echtzeit-Kundenservice-Chatbots und interaktive Codierassistenten von zentraler Bedeutung. Mithilfe speziell entwickelter KI-Chips wie AWS Trainium2 und fortschrittlicher Softwareoptimierung in Amazon Bedrock können Kunden auf mehr Optionen zugreifen, um ihre Inferenz für einen besonderen Anwendungsfall zu optimieren. Der Zugriff auf diese Funktionen bedarf keiner zusätzlichen Konfiguration oder einer Feinabstimmung des Modells, was eine umgehende Erweiterung bestehender Anwendungen mit schnelleren Reaktionszeiten erlaubt.

Latenzoptimierte Inferenz ist für das Modell Claude 3.5 Haiku und die Modelle Llama 3.1 405B und 70B, der Unternehmen Anthropic bzw. Meta, in der Region USA Ost (Ohio) über regionsübergreifende Inferenz verfügbar. Zum Einstieg können Sie die Amazon-Bedrock-Konsole aufrufen. Weitere Informationen zu Amazon Bedrock und seinen Funktionen finden Sie auf der Amazon-Bedrock-Produktseite, Preisseite und Dokumentation.