Publicado en: Sep 6, 2023
El punto de conexión miltimodelo de SageMaker (MME) es una capacidad completamente administrada que permite a los clientes implementar miles de modelos en un único punto de conexión de SageMaker y reducir los costos. Hasta hoy, MME no era compatible con los modelos de PyTorch implementados con TorchServe. Ahora, los clientes pueden usar MME para implementar miles de modelos de PyTorch con TorchServe para reducir los costos de inferencia.
Los clientes crean cada vez más modelos de ML con PyTorch para lograr resultados comerciales. Para implementar estos modelos de ML, los clientes usan TorchServe en instancias de CPU/GPU para cumplir con los objetivos de latencia y rendimiento deseados. Sin embargo, los costos pueden aumentar si los clientes implementan más de 10 modelos. Con el soporte de MME para TorchServe, los clientes pueden implementar miles de modelos basados en PyTorch en un único punto de conexión de SageMaker. Entre bastidores, MME ejecutará varios modelos en una sola instancia y cargará y descargará dinámicamente los modelos en varias instancias en función del tráfico entrante. Con esta característica, los clientes pueden ahorrar costos, ya que pueden compartir instancias detrás de un punto de conexión en miles de modelos y pagar solo por la cantidad de instancias utilizadas.
Esta característica es compatible con los modelos de PyTorch que utilizan el contenedor de inferencias TorchServe de SageMaker con todas las instancias de CPU optimizadas para machine learning y las instancias de GPU únicas de la familia ml.g4dn, ml.g5, ml.p2 y ml.p3. También está disponible en todas las regiones compatibles con Amazon SageMaker.
Para empezar, cree un punto de conexión de MME con el tipo de instancia que elija mediante nuestras API o el SDK para Python de SageMaker. Para obtener más información, visite nuestra página de documentación sobre MME para TorchServe y visite nuestro blog de lanzamiento.