Veröffentlicht am: Sep 6, 2023
Multimodell-Endpunkt (MME) von SageMaker ist eine vollständig verwaltete Funktion mit der Kunden Tausende von Modellen auf einem einzigen SageMaker-Endpunkt bereitstellen und Kosten senken können. Bis heute wurde MME für PyTorch-Modelle, die mit TorchServe bereitgestellt wurden, nicht unterstützt. Jetzt können Kunden MME für die Bereitstellung von Tausenden von PyTorch-Modellen mit TorchServe verwenden, um die Inferenzkosten zu senken.
Kunden erstellen zunehmend ML-Modelle mit PyTorch, um Geschäftsergebnisse zu erzielen. Für die Bereitstellung dieser ML-Modelle verwenden Kunden TorchServe auf CPU/GPU-Instances, um die gewünschten Latenz- und Durchsatzziele zu erreichen. Allerdings können sich die Kosten summieren, wenn Kunden mehr als 10 Modelle bereitstellen. Mit dem MME-Support für TorchServe können Kunden Tausende von PyTorch-basierten Modellen auf einem einzigen SageMaker-Endpunkt bereitstellen. MME führt im Hintergrund mehrere Modelle auf einer einzigen Instance aus und lädt bzw. entlädt Modelle dynamisch über mehrere Instances hinweg auf der Grundlage des eingehenden Datenverkehrs. Mit diesem Feature können Kunden Kosten sparen, da sie die Instances hinter einem Endpunkt für Tausende von Modellen gemeinsam verwenden können und nur für die Anzahl der verwendeten Instances zahlen.
Diese Feature unterstützt PyTorch-Modelle, die den TorchServe-Inference-Container von SageMaker mit allen für Machine Learning optimierten CPU-Instances und einzelnen GPU-Instances der Familien ml.g4dn, ml.g5, ml.p2 und ml.p3 verwenden. Es ist außerdem in allen Regionen verfügbar, die von Amazon SageMaker unterstützt werden.
Erstellen Sie für die ersten Schritte einen MME-Endpunkt mit einem Instance-Typ Ihrer Wahl unter Verwendung unserer APIs oder des SageMaker Python SDK. Weitere Informationen finden Sie auf unserer Dokumentationsseite zu MME für TorchServe und in unserem Einführungs-Blog.