Amazon SageMaker AI ahora admite la inferencia basada en la capacidad con respaldo automático de instancias
Los puntos de enlace de inferencia de Amazon SageMaker AI ahora admiten el aprovisionamiento flexible en una lista priorizada de tipos de instancias. Cuando el tipo de instancia preferido no tiene capacidad suficiente, SageMaker AI se aprovisiona automáticamente desde la siguiente opción disponible de la lista, lo que permite que la creación de puntos de enlace y el ajuste de escala automático funcionen sin problemas y sin intervención manual. Esto brinda a los equipos que implementan modelos de inteligencia artificial y machine learning (IA/ML) en la producción la resiliencia necesaria para manejar las limitaciones de capacidad con elegancia, garantizando que los puntos de enlace funcionen de manera confiable y se escalen según la demanda.
Con la compatibilidad con grupos de instancias, usted define una lista priorizada de tipos de instancias y SageMaker AI aprovisiona automáticamente la capacidad al revisar la lista en orden. Esto se aplica a la creación, las actualizaciones y el escalado de puntos de enlace. Al reducir la escala, la IA de SageMaker elimina primero las instancias de menor prioridad, preservando su infraestructura preferida a medida que la flota se contrae. Esto funciona para los puntos de enlace de modelo único, los puntos de enlace basados en componentes de inferencia y los puntos de enlace de inferencia asincrónica, incluidos los puntos de enlace que se escalan a cero, en los que SageMaker AI se aprovisiona desde su grupo disponible de mayor prioridad cuando vuelve a escalar.
Como los tipos de instancia de respaldo difieren en cuanto a la memoria de la GPU y la capacidad de procesamiento, puede especificar un modelo optimizado diferente para cada tipo de instancia de su lista de prioridades. Puede preparar estos artefactos usted mismo o usar las recomendaciones de inferencia de SageMaker AI, que generan automáticamente configuraciones optimizadas específicas del hardware por tipo de instancia. Además, las métricas de CloudWatch por tipo de instancia le brindan visibilidad de la latencia, el rendimiento, la utilización de la GPU y el recuento de instancias por tipo de hardware en un único punto de enlace.
Esta capacidad ya está disponible en el este de EE. UU. (norte de Virginia), este de EE. UU. (Ohio), oeste de EE. UU. (Oregón), Canadá (centro), América del Sur (São Paulo), Europa (Irlanda), Europa (Londres), Europa (Fráncfort), Europa (Estocolmo), Europa (Zúrich) Asia-Pacífico (Tokio), Asia-Pacífico (Seúll), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), Asia-Pacífico (Mumbai) y Asia-Pacífico (Yakarta). Para obtener más información, consulte la documentación de Amazon SageMaker AI.