Publicado en: Oct 21, 2022
Hoy, nos complace anunciar la capacidad de admitir dinámicamente diferentes conjuntos de datos almacenados en S3 mediante el uso de parámetros en Amazon SageMaker Data Wrangler. Amazon SageMaker Data Wrangler reduce, de semanas a minutos, el tiempo que se demora en agregar y preparar datos para machine learning (ML). Con Data Wrangler, podrá simplificar el proceso de preparación de datos e ingeniería de características, y podrá completar cada paso del flujo de trabajo de preparación de datos, incluida la selección, limpieza, exploración y visualización de datos en una única interfaz visual. Anteriormente, los clientes no tenían una manera fácil de hacer referencia dinámicamente a conjuntos de datos cuando ejecutaban trabajos de procesamiento de Data Wrangler según una programación. Los clientes también carecían de una forma de filtrar más fácilmente los archivos en un bucket S3 para usarlos para el procesamiento. Por último, los clientes carecían de una forma sencilla de cambiar los orígenes de datos al ejecutar un trabajo de procesamiento de Data Wrangler desde el flujo de trabajo Crear trabajo o desde un cuaderno de procesamiento de Data Wrangler.
Con la compatibilidad con conjuntos de datos parametrizados en Data Wrangler, puede usar parámetros para especificar qué conjuntos de datos procesar con su flujo de Data Wrangler. Un parámetro es una variable que puede guardar en su flujo de Data Wrangler. Puede especificar parámetros de fecha y hora para hacer referencia a un rango específico de conjuntos de datos de fecha y hora. Con los parámetros de patrón, puede especificar una expresión regular de Python para que coincida con los nombres de archivos que se ajustan a un patrón específico. Los parámetros de cadena o número se pueden usar para hacer coincidir los nombres de archivos con una cadena o valor numérico correspondiente. Puede acceder a los parámetros en Data Wrangler haciendo clic en el menú del nodo “+” y seleccionando “Editar conjunto de datos”. Al resaltar cualquier parte de la ruta de S3, aparece el menú “Crear parámetro personalizado” que se puede usar para agregar fácilmente un nuevo parámetro. Se puede acceder a la lista completa de parámetros haciendo clic en el ícono “{{ }}” junto a la ruta de S3.
Esta característica está disponible en general en todas las regiones de AWS que en este momento admiten Data Wrangler sin costo adicional. Para comenzar a programar sus trabajos de procesamiento de datos con SageMaker Data Wrangler, lea la documentación de AWS.