Veröffentlicht am: Oct 25, 2022
Amazon SageMaker Multi-Model Endpoint (MME) ist eine vollständig verwaltete Funktion von SageMaker Inference, die es Kunden ermöglicht, Tausende von Modellen auf einem einzigen Endpunkt bereitzustellen und Kosten zu sparen, indem sie Instances, auf denen die Endpunkte ausgeführt werden, für alle Modelle gemeinsam nutzen. Bis heute wurde MME nur für Machine-Learning-Modelle (ML) unterstützt, die auf CPU-Instances laufen. Jetzt können Kunden MME nutzen, um Tausende von ML-Modellen auch auf GPU-basierten Instances bereitzustellen und so potenziell 90 % der Kosten einzusparen.
MME lädt und entlädt Modelle dynamisch aus dem GPU-Speicher, je nach eingehendem Datenverkehr zum Endpunkt. Kunden sparen mit MME Kosten, da die GPU-Instances von Tausenden von Modellen gemeinsam genutzt werden. Kunden können ML-Modelle aus mehreren ML-Frameworks ausführen, darunter PyTorch, TensorFlow, XGBoost und ONNX. Kunden können mit der Verwendung beginnen, indem sie NVIDIA Triton™ Inference Server einsetzen und Modelle auf GPU-Instances von SageMaker im „Multi-Modell“-Modus bereitstellen. Sobald der MME erstellt ist, geben die Kunden beim Aufrufen des Endpunkts das ML-Modell an, aus dem sie Inferenz abrufen möchten.
Multi Model Endpoints for GPU ist in allen AWS-Regionen verfügbar, in denen Amazon SageMaker verfügbar ist. Mehr erfahren Sie in unserem Launch-Blog und in der Ankündigung zu NVIDIA Triton™ Inference Server. Besuchen Sie auch unsere Dokumentationsseite und nutzen Sie dieses Beispiel-Notebook zum Einstieg.