Publicado en: Jun 9, 2022
Hoy anunciamos la disponibilidad general de la división de datos en divisiones para entrenamiento y prueba con Amazon SageMaker Data Wrangler. Amazon SageMaker Data Wrangler reduce, de semanas a minutos, el tiempo que toma agregar y preparar datos para machine learning (ML). Con SageMaker Data Wrangler, es posible simplificar el proceso de preparación de datos e ingeniería de características, así como completar cada paso del flujo de trabajo de preparación de datos, incluida la selección, limpieza, exploración y visualización de datos en una única interfaz visual. Con la herramienta de selección de datos de Amazon SageMaker Data Wrangler, puede seleccionar rápidamente datos de diferentes orígenes de datos, como Amazon S3, Amazon Athena, Amazon Redshift, AWS Lake Formation Snowflake y Databricks Delta Lake.
A partir de hoy, puede dividir sus datos en conjuntos de entrenamiento y prueba con tan solo unos clics en Data Wrangler. Antes, los científicos de datos tenían que escribir código para dividir sus datos en conjuntos de entrenamiento y prueba antes de entrenar modelos de ML. Con la nueva transformación de división para entrenamiento y prueba de SageMaker Data Wrangler, ahora puede dividir sus datos en conjuntos de entrenamiento, prueba y validación para utilizarlos en entrenamiento y validación de modelos de flujo descendente. SageMaker Data Wrangler también brinda varios tipos de divisiones, incluidas divisiones aleatorias, ordenadas, estratificadas y basadas en claves, junto con la opción de especificar qué cantidad de datos incluye cada división. Por ejemplo, si crea una división aleatoria de sus datos en un conjunto de entrenamiento y un conjunto de prueba, puede entrenar un modelo de machine learning con el conjunto de entrenamiento y luego evaluar su modelo de machine learning con el conjunto de prueba. Evaluar el modelo con datos vistos durante el entrenamiento puede causar sesgos; por tanto, separar los datos de prueba antes del entrenamiento es crucial. Como resultado, la evaluación la precisión del modelo con el conjunto de datos de prueba brinda una estimación real del rendimiento del modelo.
Para empezar a utilizar las nuevas capacidades de Amazon SageMaker Data Wrangler, actualice a la versión más reciente y haga clic en Archivo > Nuevo > Flujo en el menú o en “nuevo flujo de datos” en el lanzador de SageMaker Studio. Para obtener más información sobre las nuevas características, lea la publicación de blog y consulte la documentación.