Publicado en: Jun 16, 2022
Actualmente, estamos haciendo que la preparación y la visualización de datos sean más rápidas y fáciles si se usa PySpark y Altair con compatibilidad con fragmentos de código en Amazon SageMaker Data Wrangler. Amazon SageMaker Data Wrangler reduce, de semanas a minutos, el tiempo que se demora en agregar y preparar datos para machine learning (ML). Con SageMaker Data Wrangler, es posible simplificar el proceso de preparación de datos e ingeniería de características, así como completar cada paso del flujo de trabajo de preparación de datos, incluida la selección, limpieza, exploración y visualización de datos en una única interfaz visual. Con la herramienta de selección de datos de SageMaker Data Wrangler, puede seleccionar rápidamente datos de diferentes orígenes, como Simple Storage Service (Amazon S3), Amazon Athena, Amazon Redshift, AWS Lake Formation, el Almacén de características de Amazon SageMaker, Databricks y Snowflake.
A partir de hoy, pueden preparar y visualizar datos más rápido utilizando fragmentos de código de PySpark y Altair en Amazon SageMaker Data Wrangler. PySpark es una interfaz para Apache Spark en Python. Altair es una biblioteca de visualización estadística declarativa para Python que se basa en Vega y Vega-Lite. Anteriormente, los científicos de datos que usaban Data Wrangler comenzaban con un editor en blanco o buscaban fragmentos de código en Internet si querían escribir código en PySpark o Altair para preparar y visualizar sus datos. Ahora, los científicos de datos que quieran usar PySpark para escribir una transformación personalizada en SageMaker Data Wrangler pueden buscar entre más de 30 fragmentos de código de PySpark para necesidades de procesamiento de datos, como eliminar filas, cambiar nombres por lotes, convertir y reorganizar columnas y filtrar columnas de texto por valores que incluyan una cadena específica. Además, los científicos de datos que quieran escribir código de Altair para crear visualizaciones en SageMaker Data Wrangler pueden buscar fragmentos de código de Altair para crear mapas de calor, diagramas de dispersión agrupados y gráficos de pasos completos desde SageMaker Data Wrangler.
Para empezar a utilizar las nuevas capacidades de Amazon SageMaker Data Wrangler, puede abrir Amazon SageMaker Studio tras actualizar a la versión más reciente y hacer clic en Archivo > Nuevo > Flujo en el menú o en “nuevo flujo de datos” en el iniciador de SageMaker Studio. Para obtener más información sobre las nuevas características, lea la publicación del blog y consulte la documentación.