Amazon SageMaker führt für generative KI-Inferenz eine neue Optimierungsfunktion ein
Heute kündigte Amazon SageMaker die allgemeine Verfügbarkeit einer Inferenzfunktion an, die einen bis zu 2-mal höheren Durchsatz bietet und gleichzeitig die Kosten für generative KI-Modelle wie Llama 3, Mistral und Mixtral um bis zu 50 % senkt. Beispielsweise können Sie mit einem Llama 3-70B-Modell bis zu ~2400 Token/Sek auf einer ml.p5.48xlarge Instance erreichen, im Vergleich zu ~1200 Token/Sek. zuvor ohne jegliche Optimierung.
Mit dieser neuen Funktion können Kunden aus einem Menü die neuesten Techniken der Modelloptimierung wie spekulative Dekodierung, Quantisierung und Kompilierung wählen und diese auf ihre generativen KI-Modelle anwenden. SageMaker übernimmt die Hauptarbeit bei der Bereitstellung der für die Ausführung des Optimierungsrezepts erforderlichen Hardware sowie der Deep-Learning-Frameworks und -Bibliotheken. Kunden erhalten eine sofort einsatzbereite Unterstützung für eine spekulative Dekodierungslösung von SageMaker, die für verschiedene beliebte Open-Source-Modelle auf ihre skalierbare Leistung getestet wurde, oder sie können ihre eigene spekulative Dekodierungslösung nutzen. SageMaker gewährleistet im Bereich Quantisierung die Kompatibilität und Unterstützung für Präzisionstypen auf verschiedenen Modellarchitekturen. Die Laufzeitinfrastruktur von SageMaker garantiert im Bereich Kompilierung ein effizientes Laden und Zwischenspeichern optimierter Modelle, um die Zeit für die automatische Skalierung zu reduzieren.
Kunden können diese neue Funktion über das AWS SDK für Python (Boto3), das SageMaker Python SDK oder das AWS Command Line Interface (AWS CLI) nutzen. Diese Funktion ist jetzt in den folgenden Regionen allgemeinen verfügbar: USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Oregon), Asien-Pazifik (Mumbai), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney) Asien-Pazifik (Tokio), Kanada (Zentral), Europa (Frankfurt), Europa (Irland), Europa (London), Europa (Paris), Europa (Stockholm) und Südamerika (São Paulo).
Weitere Informationen finden auf unserer Dokumentationsseite und in unserem AWS-ML-Blog.