Veröffentlicht am: Nov 27, 2023
Heute hat Amazon SageMaker eine neue Version (0.25.0) des Large Model Inference (LMI) Deep Learning Container (DLC) mit Unterstützung für die TensorRT-LLM-Bibliothek von NVIDIA veröffentlicht. Mit diesen Upgrades können Kunden problemlos auf modernste Tools zugreifen, um große Sprachmodelle (LLMs) auf SageMaker zu optimieren. Amazon SageMaker LMI TensorRT-LLM DLC reduziert die Latenz um durchschnittlich 33% und verbessert den Durchsatz für die Modelle Llama2-70B, Falcon-40B und Codellama-34B im Vergleich zur Vorgängerversion um durchschnittlich 60%.
LLMs haben in letzter Zeit in einem breiten Anwendungsspektrum einen beispiellosen Anstieg der Popularität erlebt. Diese Modelle sind jedoch oft zu groß, um auf ein einzelnes Beschleuniger- oder GPU-Gerät zu passen, was es schwierig macht, eine Inferenz mit niedriger Latenz zu erzielen und eine Skalierung zu erreichen. Amazon SageMaker bietet LMI-Deep-Learning-Container (DLCs), mit denen Kunden die Nutzung verfügbarer Ressourcen maximieren und die Leistung verbessern können. Die neuesten LMI-DLCs bieten kontinuierliche Batching-Unterstützung für Inferenzanfragen zur Verbesserung des Durchsatzes, effiziente kollektive Inferenzoperationen zur Verbesserung der Latenz und die neueste TensorRT-LLM-Bibliothek von NVIDIA zur Maximierung der Leistung auf GPUs. LMI TensorRT-LLM DLC bietet eine codearme Schnittstelle, die die Kompilierung mit TensorRT-LLM vereinfacht, indem nur die Modell-ID und optionale Modellparameter benötigt werden. Der gesamte Aufwand, der beim Erstellen eines für TensorRT-LLM optimierten Modells erforderlich ist, wird von LMI DLC verwaltet. Kunden können auch die neuesten Quantisierungstechniken wie GPTQ, AWQ und SmoothQuant mit LMI-DLCs nutzen.
Diese neuen LMI-DLCs werden in allen AWS-Regionen unterstützt, in denen SageMaker verfügbar ist. Detaillierte Schritte zu den ersten Schritten finden Sie im AWS ML-Blog, in der Large Model Inference DLC-Dokumentation und im Beispielnotizbuch.