Veröffentlicht am: Sep 9, 2022
Mit Amazon SageMaker können Kunden ML-Modelle bereitstellen, um für jeden Anwendungsfall Vorhersagen (auch Inferenz genannt) zu treffen. Sie können für die Echtzeit- und Asynchrone-Inferenz-Optionen von Amazon SageMaker jetzt große Modelle (bis zu 500 GB) bereitstellen, indem Sie die maximalen EBS-Volume-Größe und Timeout-Kontingente konfigurieren. Mit dieser Einführung können Kunden die vollständig verwalteten Echtzeit- und Asynchrone-Inferenz-Fähigkeiten von SageMaker nutzen, um große ML-Modelle, wie Varianten von GPT und OPT, bereitzustellen und zu verwalten.
Zuvor fügte SageMaker EBS-Volumes mit bis zu 30 GB Größe an einen SageMaker-Endpunkt an, was die maximale Größe des Modells, das Sie bereitstellen konnte, einschränkte. Jetzt ist die EBS-Volume-Größe bis 500 GB konfigurierbar, wodurch Sie größere Modelle verwenden und mehr Ressourcen für Ihre Inferenzbedürfnisse nutzen können. Außerdem können die Container-Zustandsprüfung und Download-Timeout-Kontingente auf bis zu 60 Minuten konfiguriert werden, wodurch Sie mehr Zeit haben, um Ihr Modell und die damit verbundenen Ressourcen herunterzuladen und zu laden. Darüber hinaus können Sie mit diesen Änderungen SageMaker nutzen, um fortschrittlichere Deep-Learning-Modelle bereitzustellen, die in der Regel größer sind. Mit den vor Kurzem eingeführten ml.p4d- und ml.g5-Instances beispielsweise können Sie diese Änderung jetzt nutzen, um große Modelle bereitzustellen, die den Speicher auf mehreren GPUs nutzen, um Hochleistungsinferenz zu erreichen.
Diese neuen Konfigurationsoptionen sind in allen kommerziellen Regionen verfügbar, in denen SageMaker verfügbar ist.
Informationen zu den ersten Schritten finden Sie hier in unserer Dokumentation. Einen Beispielanwendungsfall finden Sie in unserem Blog-Post darüber, wie Sie die Änderung zusammen mit DeepSpeed on SageMaker nutzen können, um große Modelle auf verschiedene GPU-Geräte zu verteilen, um Hochleistungsinferenz zu erreichen.