Publicado en: Sep 22, 2022
Con Amazon SageMaker Data Wrangler, puede reducir de semanas a minutos el tiempo que se tarda en agregar y preparar datos para machine learning (ML) en Amazon SageMaker Studio, el primer entorno de desarrollo (IDE) totalmente integrado para ML. Con SageMaker Data Wrangler, podrá simplificar el proceso de preparación de datos e ingeniería de características, y podrá completar cada paso del flujo de trabajo de preparación de datos, incluida la selección, limpieza, exploración y visualización de datos en una única interfaz visual. Puede importar datos de varios orígenes, como Amazon Simple Storage Service (Amazon S3), Amazon Redshift, Snowflake y 26 fuentes de datos de la Consulta Federada compatibles con Amazon Athena. A partir de hoy, los clientes que importan datos desde las fuentes de datos de Athena pueden configurar las ubicaciones de salida de las consultas de S3 y el período de retención de datos para controlar dónde Athena almacena los datos intermediarios y durante cuánto tiempo.
Amazon Athena es un servicio de consultas interactivo que facilita la navegación por el catálogo de datos de Glue y el análisis de datos directamente en Amazon S3 y las 26 fuentes de datos de la consulta federada con SQL estándar. Data Wrangler admite el grupo de trabajo de Athena con el fin de proporcionar una ubicación de datos de salida para las consultas personalizadas de S3. A partir de hoy, puede especificar una ubicación personalizada de S3 para las salidas de consulta de Athena o seguir usando el bucket existente predeterminado en Data Wrangler. Ahora cuenta con un período predeterminado de 5 días de retención de datos para la salida de consultas de Athena para controlar el costo de almacenamiento. Puede cambiar este período de retención de datos para que se ajuste a sus necesidades y a las directrices de seguridad de datos de su organización. Una vez que importe los datos con Athena, puede usar la interfaz visual Data Wrangler para unir los datos provenientes de múltiples fuentes, explorar y analizar sus datos con el informe de Calidad e Información de datos y otras visualizaciones incorporadas para identificar posibles errores y valores extremos. Con las más de 300 transformaciones de datos incorporadas, puede limpiar los datos y diseñar funciones con rapidez. Con los datos preparados, puede crear un trabajo para procesar un conjunto de datos más grande o lanzar un trabajo de entrenamiento con el piloto automático de SageMaker directamente desde Data Wrangler para encontrar de manera automática el mejor modelo para los problemas de su empresa.
Por lo general, estas funciones están disponibles sin costo adicional en todas las regiones de AWS que en estos momentos admite Data Wrangler. Para comenzar con SageMaker Data Wrangler, consulte el blog y la documentación de AWS.