Publicado en: May 7, 2021
Amazon SageMaker Data Wrangler reduce el tiempo necesario para agregar y preparar los datos para el machine learning (ML) de semanas a minutos. Con SageMaker Data Wrangler, es posible simplificar el proceso de preparación de datos y la ingeniería de características, así como completar cada paso del flujo de trabajo de preparación de datos, incluida la selección, la limpieza, la exploración y la visualización de datos desde una única interfaz visual. A partir de hoy, puede utilizar las nuevas capacidades de Amazon SageMaker Data Wrangler que facilitan y agilizan la preparación de los datos para el machine learning, entre las que se incluyen: el acceso entre cuentas para Amazon S3, la compatibilidad con hasta 1000 columnas de datos, los trabajos distribuidos y una nueva experiencia de bloc de notas de SageMaker Data Wrangler.
Con el lanzamiento del acceso entre cuentas de Amazon S3, se pueden importar datos desde cualquier bucket de S3 al que se tenga acceso y explorar fácilmente los datos dentro de los buckets de S3, independientemente de la cuenta en la que se encuentren. Una vez que haya navegado hasta el bucket de S3, puede examinar de forma interactiva el contenido que contiene e importarlo a Amazon SageMaker Data Wrangler con un solo clic. Además, varias aplicaciones de machine learning requieren la preparación de conjuntos de datos con cientos de columnas. Con el lanzamiento de la compatibilidad con conjuntos de datos de 1000 columnas, es posible preparar fácilmente los datos para las aplicaciones de machine learning. Con los trabajos distribuidos, ahora puede escalar las cargas de trabajo de procesamiento de datos en múltiples instancias para procesar datos de casi cualquier tamaño. Actualmente, puede especificar un recuento de instancias superior a 1 para los tipos de instancia ml.m5.4xlarge, ml.m5.12xlarge y ml.m5.24xlarge para escalar fácilmente las cargas de trabajo de procesamiento de datos. Por último, la nueva experiencia de bloc de notas de SageMaker hace que los blocs de notas de Jobs sean más fáciles de usar. Los blocs de notas se han reorganizado para facilitar la configuración y ofrecen documentación para que se pueda comenzar a trabajar más rápidamente.
Para empezar a utilizar las nuevas capacidades de Amazon SageMaker Data Wrangler, puede abrir Amazon SageMaker Studio y hacer clic en Archivo > Nuevo > Flujo en el menú o en “nuevo flujo de datos” en el lanzador de SageMaker Studio. Para obtener más información, visite la página de características o consulte la documentación.