Amazon SageMaker AI unterstützt jetzt die spekulative EAGLE-Dekodierung
Amazon SageMaker AI unterstützt jetzt die spekulative EAGLE-Dekodierung (Extrapolation Algorithm for Greater Language-model Efficiency), um den Inferenzdurchsatz für große Sprachmodelle um das bis zu 2,5-fache zu verbessern. Mit diesem Feature können Modelle mehrere Token gleichzeitig anstatt einzeln vorhersagen und validieren, um die Reaktionszeiten für KI-Anwendungen zu verbessern.
Wenn Kunden KI-Anwendungen in ihrer Produktionsumgebung einsetzen, müssen sie Modelle mit niedriger Latenz und hohem Durchsatz bereitstellen können, um reaktionsfähige Nutzererlebnisse zu bieten. Datenwissenschaftlern und ML-Ingenieuren fehlen effiziente Methoden, um die Token-Generierung zu beschleunigen, ohne die Ausgabequalität zu beeinträchtigen oder eine komplexe Umstellung der Modellarchitektur zu erfordern, was es erschwert, die Leistungserwartungen in der Praxis zu erfüllen. Teams verbringen viel Zeit damit, die Infrastruktur zu optimieren, anstatt ihre KI-Anwendungen zu verbessern. Mit der spekulativen EAGLE-Dekodierung von SageMaker AI können Kunden den Inferenzdurchsatz beschleunigen, indem die Modelle mehrere Token parallel statt nacheinander generieren und verifizieren, wobei die Ausgabequalität beibehalten und gleichzeitig der Durchsatz drastisch erhöht wird. SageMaker AI wählt je nach Modellarchitektur automatisch zwischen EAGLE 2 und EAGLE 3 und bietet integrierte Optimierungs-Jobs, die entweder kuratierte Datensätze oder Ihre eigenen Anwendungsdaten verwenden, um spezialisierte Prognosemodule zu trainieren. Anschließend können Sie optimierte Modelle über Ihren bestehenden SageMaker-KI-Inferenz-Workflow ohne Infrastrukturänderungen bereitstellen, um schnellere KI-Anwendungen mit vorhersehbarer Leistung anzubieten.
Die spekulative EAGLE-Decodierung ist in den folgenden AWS-Regionen verfügbar: USA Ost (Nord-Virginia), USA West (Oregon), USA Ost (Ohio), Asien-Pazifik (Tokio), Europa (Irland), Asien-Pazifik (Singapur) und Europa (Frankfurt).
Weitere Informationen zur spekulativen EAGLE-Dekodierung finden Sie im AWS-News-Blog und in der SageMaker-AI-Dokumentation.