Publicado en: Oct 14, 2021
Amazon SageMaker Data Wrangler reduce el tiempo que tarda agregar y preparar los datos para el machine learning (ML) de semanas a minutos. Con SageMaker Data Wrangler, es posible simplificar el proceso de preparación de datos y la ingeniería de características, así como completar cada paso del flujo de trabajo de preparación de datos, incluida la selección, la limpieza, la exploración y la visualización de datos desde una única interfaz visual.
A partir de hoy, puede consultar datos en Amazon Athena mediante grupos de trabajo, habilitar uniones multiclave para conjuntos de datos, visualizar correlaciones y columnas duplicadas y brindar claves administradas por el cliente al exportar sus flujos de datos, de modo que es más fácil y rápido preparar datos para ML. A continuación encontrará una descripción detallada de estas características:
- Compatibilidad con grupos de trabajo de Amazon Athena. Los grupos de trabajo de Amazon Athena son un nuevo tipo de recurso que se puede utilizar para separar la ejecución y el historial de las consultas de usuarios, equipos y aplicaciones que se ejecutan en la misma cuenta de AWS. A partir de hoy, puede consultar datos con Athena desde SageMaker Data Wrangler con el grupo de trabajo de su elección.
- Dos nuevas visualizaciones para ayudar con la preparación de datos:
- Gracias a la visualización de correlación de características de SageMaker Data Wrangler, puede calcular con facilidad la correlación de características en su conjunto de datos y visualizarla como una matriz de correlación.
- Con la nueva visualización de detección de columnas duplicadas, puede detectar con rapidez si su conjunto de datos tiene algunas columnas duplicadas.
- Uniones multiclave. Ahora puede especificar varias columnas al unir dos conjuntos de datos en SageMaker Data Wrangler y eliminar pasos intermedios dentro de flujos de SageMaker Data Wrangler.
- Compatibilidad con claves administradas por el cliente (CMK) mediante Amazon Key Management Service (KMS). A partir de hoy, puede especificar la clave KMS al utilizar la característica “Export to S3” (Exportar S3) además de los blocs de notas exportados desde SageMaker Data Wrangler.
Para empezar a utilizar las nuevas capacidades de Amazon SageMaker Data Wrangler, puede abrir Amazon SageMaker Studio tras actualizar a la versión más reciente y hacer clic en File (Archivo) > New (Nuevo) > Flow (Flujo) en el menú o en “new data flow” (nuevo flujo de datos) en el lanzador de SageMaker Studio. Para obtener más información sobre las nuevas características, consulte la documentación.