Veröffentlicht am: May 4, 2023
Wir freuen uns, die Verfügbarkeit der Instance-Familien ml.inf2 und ml.trn1 in Amazon SageMaker für die Bereitstellung von Machine-Learning-Modellen (ML) für Echtzeit- und asynchrone Inferenz bekannt zu geben. Sie können diese Instances in SageMaker verwenden, um eine hohe Leistung bei niedrigen Kosten für generative künstliche Intelligenz (KI) zu erzielen, einschließlich großer Sprachmodelle (LLMs) und Vision Transformers. Darüber hinaus können Sie den SageMaker Inference Recommender verwenden, um Lasttests durchzuführen und die Preis-Leistungs-Vorteile zu bewerten, die sich aus der Bereitstellung Ihres Modells auf diesen Instances ergeben.
Die Instances ml.inf2 und ml.trn1 werden jeweils von den AWS-Inferentia2- und Trainium-Accelerators unterstützt.
- Sie können ml.inf2-Instances verwenden, um Ihre ML-Anwendungen in SageMaker zur Textzusammenfassung, Codegenerierung, Video- und Bildgenerierung, Spracherkennung und mehr auszuführen. ml.inf2-Instances bieten bis zu 384 GB gemeinsam genutzten Accelerator-Speicher für leistungsstarke generative KI-Inferenz.
- ml.trn1-Instances ähneln ml.inf2-Instances, verfügen jedoch über 512 GB gemeinsam genutzten Accelerator-Speicher. Sie können diese Instances verwenden, um noch größere Modelle in SageMaker bereitzustellen. Darüber hinaus verfügen diese Instances über bis zu 8 TB lokalen NVMe Solid State Drive (SSD)-Speicher für schnellen Workload-Zugriff auf große Datensätze und Modelle.
ml.inf2-Instances sind für die Modellbereitstellung in SageMaker in der Region USA Ost (Ohio) und ml.trn1-Instances in der Region USA Ost (Nord-Virginia) verfügbar.
Sie können ganz einfach in die Verwendung von ml.trn1- und ml.inf2-kompatiblen AWS Deep Learning Containers (DLCs) für PyTorch, Tensorflow, HuggingFace und Large Model Inference (LMI) bei der Bereitstellung von Endpunkten einsteigen (weitere Details). Die Preise finden Sie auf der Seite mit Preisen.