Prepare datos JSON y ORC, equilibre y cifre conjuntos de datos y lance trabajos de procesamiento de datos con un solo clic con Amazon SageMaker Data Wrangler

Publicado en: Feb 2, 2022

Amazon SageMaker Data Wrangler reduce el tiempo necesario para agregar y preparar los datos para el machine learning (ML) de semanas a minutos. Con SageMaker Data Wrangler, es posible simplificar el proceso de preparación de datos e ingeniería de características, así como completar cada paso del flujo de trabajo de preparación de datos, incluida la selección, limpieza, exploración y visualización de datos en una única interfaz visual. Con la herramienta de selección de datos de Amazon SageMaker Data Wrangler, puede seleccionar rápidamente datos de diferentes orígenes de datos, como Simple Storage Service (Amazon S3), Amazon Athena, Amazon Redshift, AWS Lake Formation, el almacén de características de Amazon SageMaker y Snowflake.

Hoy anunciamos la disponibilidad general de la compatibilidad con los formatos de archivo JSON, JSONL y ORC en Data Wrangler. Ahora puede examinar, previsualizar e importar sus datos en estos formatos de archivo con Data Wrangler. El formato de archivo ORC brinda una manera altamente eficiente para almacenar datos de Hive; sin embargo, puede resultar difícil previsualizar estos datos con un editor de texto. Gracias a la compatibilidad de Data Wrangler con el formato de archivo ORC, ahora puede examinar datos de un archivo ORC con facilidad, al igual que lo haría con un archivo CSV. Para obtener más información sobre la importación de archivos ORC y la preparación de datos JSON con Data Wrangler, consulte el blog.

Además, presentamos la disponibilidad general de un buen número de transformaciones, incluidas transformaciones para administrar el desequilibrio de clase en sus conjuntos de datos, transformaciones para procesar columnas con matrices y cadenas con formato JSON y una transformación de cifrado de similaridad para cifrar de manera eficiente datos categóricos con alta cardinalidad. Estas transformaciones se suman a la colección de más de 300 transformaciones de Data Wrangler, entre las que se incluyen muchas transformaciones para procesar datos de serie temporal. A continuación encontrará una descripción detallada de estas nuevas transformaciones:

Equilibrar datos. A menudo, los conjuntos de datos pueden estar desequilibrados y favorecer una clase de destino por encima de la otra. La nueva transformación de equilibrio puede ayudarlo a sobremuestrear una clase minoritaria dispersa según sus requisitos. Además, ahora puede generar nuevas muestras de la clase minoritaria con la técnica de sobremuestreo de minorías sintéticas (SMOTE), la cual está ahora disponible de manera general en Data Wrangler. SMOTE genera automáticamente nuevas observaciones de su clase minoritaria a partir de grupos de filas similares de su conjunto de datos. Para obtener más información acerca de cómo administrar conjuntos de datos desequilibrados con Data Wrangler, consulte el blog.
Administrar columnas estructuradas. En el caso de columnas que contienen matrices, una nueva transformación explosión de matriz genera una nueva fila para cada valor en la matriz. Para cadenas con formato JSON, una nueva transformación nivelación de columnas estructuradas crea nuevas columnas para cada par clave valor en la cadena con formato JSON. Para obtener más información acerca de cómo administrar columnas estructuradas con Data Wrangler, consulte el blog.
Cifrar variables categóricas. Con una nueva transformación de cifrado de similaridad, ahora puede cifrar de manera eficiente variables categóricas con alta cardinalidad. Muchos científicos de datos aplican con frecuencia un cifrado one-hot a sus variables categóricas, el cual convierte cada valor categórico en una columna individual. El proceso de cifrado one-hot puede convertir una única columna con estados de EE. UU. en 50 nuevas variables con valor binario (una por cada estado). Con el cifrado de similaridad, ya disponible en Data Wrangler, puede cifrar una variable categórica en un número mucho menor de columnas, a la vez que mantiene, o posiblemente aumente, el rendimiento del modelo.

Por último, anunciamos la disponibilidad general de una experiencia “Create job” (Crear trabajo) de un solo clic para lanzar trabajos de procesamiento de datos. A partir de hoy, puede hacer clic en un botón “Create job” (Crear trabajo) que le permite comenzar un trabajo de procesamiento de datos mediante los pasos que se especifican en un flujo de Data Wrangler. Puede seguir utilizando los blocs de notas de procesamiento de datos en Data Wrangler para lanzar trabajos de procesamiento de datos e integrar Data Wrangler en sus canalizaciones de MLOps. Para obtener más información acerca de cómo lanzar un trabajo de procesamiento de datos con Data Wrangler, consulte el blog.

Para empezar a utilizar las nuevas capacidades de Amazon SageMaker Data Wrangler, puede abrir Amazon SageMaker Studio tras actualizar a la versión más reciente y hacer clic en File (Archivo) > New (Nuevo) > Flow (Flujo) en el menú o en “new data flow” (nuevo flujo de datos) en el lanzador de SageMaker Studio. Para obtener más información sobre las nuevas características, consulte la documentación.

Prepare datos JSON y ORC, equilibre y cifre conjuntos de datos y lance trabajos de procesamiento de datos con un solo clic con Amazon SageMaker Data Wrangler

Finalización de la compatibilidad con Internet Explorer