Publicado en: Oct 17, 2022
Nos complace anunciar hoy la compatibilidad de las transformaciones de reajuste con Amazon SageMaker Data Wrangler. Para lograr que algoritmos tales como XgBoost puedan utilizar los datos, los científicos de datos deben transformar los valores no numéricos en valores numéricos mediante transformaciones, como la codificación one-hot. Ya que las transformaciones como la codificación one-hot dependen de los datos, dichas transformaciones suelen denominarse “transformaciones ajustadas”. Estas transformaciones deben actualizarse o reajustarse para dar cuenta de los cambios en los datos, ya que los datos continúan cambiando a través del tiempo. Además, cuando se trabaja en un conjunto de datos de muestra, deben actualizarse las transformaciones para dar cuenta de los cambios entre un conjunto de datos de muestra y el conjunto de datos más grande. El uso de transformaciones como la codificación one-hot genera información adicional, que se debe rastrear y capturar en la canalización de preparación de los datos. La omisión o el seguimiento incorrecto de esta información pueden provocar errores en el proceso de preparación de los datos. Sin la compatibilidad con las transformaciones de reajuste, muchos científicos de datos no podían especificar fácilmente cuándo se debía utilizar una versión ajustada de una transformación o cuándo se debía reajustar su transformación en función de datos nuevos. Los científicos de datos tampoco tenían una forma de generar versiones actualizadas de sus canalizaciones de transformación cuando reajustaban en función de conjuntos de datos nuevos.
Ahora, Data Wrangler realiza un seguimiento de las transformaciones ajustadas en los flujos de datos de todas las transformaciones correspondientes. Estas transformaciones ajustadas ahora pueden utilizarse para preparar más fácilmente los datos nuevos según sea necesario. Los usuarios pueden especificar cuándo quieren reutilizar transformaciones o reajustar nuevas transformaciones en función de sus datos. La característica de reajuste está disponible en la interfaz visual de Data Wrangler cuando se inicia un trabajo de procesamiento de Data Wrangler y, además, dentro del cuaderno para crear el trabajo. Solo debe seleccionar “Reajustar” en “Parámetros entrenados” en el flujo de trabajo para crear el trabajo y reajustará las transformaciones del flujo. Data Wrangler también generará automáticamente un nuevo archivo de flujo que incluirá los valores actualizados para las transformaciones de reajuste.
Esta característica está disponible en general en todas las regiones de AWS que en este momento admiten Data Wrangler sin costo adicional. Para comenzar con SageMaker Data Wrangler, lea la documentación de AWS.