Publicado en: Apr 1, 2022
Con Amazon SageMaker Data Wrangler, puede reducir de semanas a minutos el tiempo que se tarda en agregar y preparar datos para machine learning (ML) en Amazon SageMaker Studio, el primer entorno de desarrollo (IDE) totalmente integrado para ML. Con SageMaker Data Wrangler, es posible simplificar el proceso de preparación de datos e ingeniería de características, así como completar cada paso del flujo de trabajo de preparación de datos, incluida la selección, limpieza, exploración y visualización de datos en una única interfaz visual. Puede importar datos de varios orígenes, como Amazon Simple Storage Service (Amazon S3), Amazon Athena, Amazon Redshift y Snowflake. A partir de hoy, puede utilizar Databricks como origen de datos en Amazon SageMaker Data Wrangler para preparar datos fácilmente en Databricks para machine learning. Databricks es un socio de AWS que ayuda a las organizaciones a preparar sus datos para analizarlos y potenciar la ciencia de datos y las decisiones controladas por datos en toda la organización, así como a adoptar rápidamente el machine learning.
Con Databricks como fuente de datos para SageMaker Data Wrangler, ahora puede conectarse de forma rápida y sencilla a Databricks, consultar de forma interactiva los datos almacenados en Databricks mediante SQL y obtener una vista previa de los datos antes de importarlos. Además, puede unir sus datos en Databricks con otros almacenados en Amazon S3 y datos consultados mediante Amazon Athena, Amazon Redshift y Snowflake para crear el conjunto de datos que mejor se adapte a su caso de uso de ML. Una vez que haya importado los datos, puede explorarlos y analizarlos con las visualizaciones integradas de SageMaker Data Wrangler para identificar posibles errores y valores extremos. Puede limpiar rápidamente los datos y diseñar características con más de 300 transformaciones de datos integradas, incluyendo transformaciones específicas para ML, como la codificación en caliente y el equilibrio de datos, sin escribir una sola línea de código. Asimismo, puede detectar sesgos gracias a Amazon SageMaker Clarify, encontrar fugas de datos, llevar a cabo análisis hipotéticos con un modelo rápido para comprender la importancia de las características y otros problemas de calidad de los datos que afectarán al modelo de machine learning incluso antes de entrenar e implementar modelos en producción. Por último, puede exportar los datos procesados directamente en el almacén de características de Amazon SageMaker o a Amazon S3 con unos pocos clics para entrenar modelos de ML con SageMaker Autopilot o SageMaker Training. También puede exportar el flujo de trabajo de preparación de datos para que se ejecute en conjuntos más grandes en el trabajo de procesamiento de SageMaker o como un paso en Amazon SageMaker Pipelines.
Si desea obtener más información sobre la integración de Databricks con SageMaker Data Wrangler, consulte nuestro blog o la documentación de AWS. Para comenzar a usar SageMaker Data Wrangler, consulte nuestra documentación de AWS y nuestra página web.