Amazon SageMaker bietet neue Funktionen, um die Skalierung von Generative AI Inference zu forcieren
Wir sind erfreut, Ihnen zwei neue Funktionen in SageMaker Inference vorstellen zu dürfen, die die Bereitstellung und Skalierung generativer KI-Modelle deutlich verbessern: Container Caching und Fast Model Loader. Diese Innovationen bewältigen die kritischen Herausforderungen bei der Skalierung großer Sprachmodelle (LLMs) effizient, machen schnellere Reaktionszeiten bei Verkehrsspitzen und eine kosteneffizientere Skalierung möglich. Diese Features verkürzen die Modellladezeiten und beschleuingen die automatische Skalierung. Dies erlaubt es Kunden, die Reaktionsfähigkeit ihrer generativen KI-Anwendungen bei schwankenden Nachfrage zu verbessern, wovon insbesondere Services mit dynamischen Verkehrsmustern profitieren.
Container-Caching verkürzt die Zeit, die benötigt wird, um generative KI-Modelle für Inferenzen zu skalieren, drastisch, indem die Container-Images vorher zwischengespeichert werden. Dadurch entfällt die Notwendigkeit diese während des Hochskalierens herunterzuladen, was die Skalierungszeit für generativer KI-Modellendpunkte deutlich reduziert. Fast Model Loader streamt Modellgewichte von Amazon S3 direkt an den Beschleuniger, wodurch das Laden der Modelle im Vergleich zu traditionellen Methoden wesentlich schneller von statten geht. Diese Funktionen ermöglichen es Kunden, reaktionsschnellere Auto-Scaling-Richtlinien zu erstellen, sodass SageMaker schnell neue Instances oder Modellkopien hinzufügen kann, wenn definierte Schwellenwerte erreicht werden. Auf diese Weise wird die optimale Leistung bei Datenverkehrsspitzen aufrechterhalten und gleichzeitig ein effektives Kostenmangement realisiert.
Die neuen Funktionen sind in allen AWS-Regionen zugänglich, in denen Amazon SageMaker Inference verfügbar ist. Weitere Informationen inklusive einer ausführlichen Anleitung zur Implementierung finden Sie in unserer Dokumentation .