Amazon SageMaker HyperPod ahora admite la captura de datos para cargas de trabajo de inferencia
Amazon SageMaker HyperPod ahora admite la captura de datos para cargas de trabajo de inferencia, una nueva capacidad que registra las cargas útiles de solicitud y respuesta de inferencia desde los puntos de conexión de producción en Amazon S3. Los clientes que implementan modelos de IA generativa en HyperPod necesitan ver las entradas y salidas del modelo para detectar desviaciones, solucionar problemas de producción, crear conjuntos de datos de evaluación y mejorar continuamente sus modelos implementados. Sin embargo, anteriormente debían crear canalizaciones de registro personalizadas fuera del servicio para obtener esta visibilidad.
Con la captura de datos, los clientes pueden entrenar modelos preliminares de decodificación especulativa a partir de su tráfico de producción real para obtener un mejor rendimiento que los modelos preliminares genéricos, crear procesos de evaluación a partir de los datos de producción, alimentar los trabajos de refinamiento con información del mundo real y mantener registros de auditoría para garantizar el cumplimiento. Los clientes eligen dónde capturar el tráfico de inferencias en cada punto de conexión: en el punto de conexión de SageMaker, el equilibrador de carga o el pod del modelo. Los datos capturados se entregan de forma asíncrona a su bucket de Amazon S3 sin bloquear la inferencia y admiten el muestreo configurable y el cifrado de AWS KMS administrado por el cliente. Puede habilitar la captura de datos al implementar modelos a través del operador de inferencia de HyperPod y utilizar los datos capturados con Monitor de modelos de Amazon SageMaker y sus flujos de trabajo actuales de evaluación, refinamiento y entrenamiento de modelos preliminares.
Esta característica está disponible para los clústeres de SageMaker HyperPod que utilizan el orquestador de EKS en todas las regiones de AWS en las que se admite Amazon SageMaker HyperPod. Para obtener más información, consulte Captura de datos para inferencias en HyperPod.