Publicado en: Nov 30, 2022
Hoy, nos complace anunciar la compatibilidad con el despliegue de flujos de preparación de datos creados en Data Wrangler para canalizaciones de inferencia en tiempo real y por lotes, además de configuraciones adicionales para trabajos de procesamiento de Data Wrangler en Amazon SageMaker Data Wrangler.
Amazon SageMaker Data Wrangler reduce el tiempo necesario para crear prototipos de cargas de trabajo de procesamiento de datos y desplegarlos en producción, y se integra fácilmente con canalizaciones de CI/CD y entornos de producción de MLOps a través de las API de procesamiento de SageMaker. Al ejecutar y programar cargas de trabajo de procesamiento de datos con Data Wrangler a fin de preparar datos para entrenar modelos de ML, los clientes desean personalizar la memoria de Spark y la configuración de la partición de salida para sus cargas de trabajo de preparación de datos a escala. Luego, cuando los clientes procesan sus datos y entrenan un modelo de ML, necesitan desplegar tanto la canalización de transformación de datos como el modelo de ML detrás de un punto de conexión de SageMaker para los casos de uso de inferencia en tiempo real y por lotes. A continuación, los clientes deben crear secuencias de comandos de procesamiento de datos desde cero para ejecutar en la inferencia los mismos pasos de procesamiento de datos que se aplican al entrenar el modelo y, después de que se despliega el modelo, deben asegurarse de que las secuencias de comandos de entrenamiento y despliegue se mantengan sincronizadas.
Este lanzamiento facilita la configuración la memoria de Spark y el formato de la partición de salida cuando se ejecuta un trabajo de procesamiento de Data Wrangler para procesar datos a escala. Tras preparar los datos y entrenar un modelo de ML, se puede desplegar de manera sencilla la canalización de transformación de datos (conocida también como “flujo de datos”) junto a un modelo de ML como parte de una canalización de inferencia en serie para aplicaciones de inferencia tanto en tiempo real como por lotes. También es posible registrar los flujos de datos de Data Wrangler con el registro de modelos de SageMaker. Para comenzar a desplegar su flujo de Data Wrangler para la inferencia en tiempo real, haga clic en Export to > Inference Pipeline (via Jupyter Notebook) (Exportar a > Canalización de inferencia [a través de cuaderno de Jupyter]) desde la vista Data Flow (Flujo de datos) en Data Wrangler. Ahora la memoria de Spark se puede configurar durante el proceso de creación de flujos de trabajo y particiones dentro de los ajustes del nodo de destino.
Esta función está disponible en general en todas las regiones de AWS que en este momento admiten Data Wrangler sin costo adicional. Para comenzar con SageMaker Data Wrangler, lea el blog y la documentación de AWS.