Publicado en: Aug 9, 2022
Nos complace anunciar capacidades ampliadas para la preparación y el análisis de datos en Amazon SageMaker Canvas, incluida la sustitución de valores faltantes y de valores atípicos, y la flexibilidad para elegir diferentes tamaños de muestra para sus conjuntos de datos. Amazon SageMaker Canvas es una interfaz visual interactiva que permite a los analistas empresariales generar predicciones de ML precisas por su cuenta, sin necesidad de contar con experiencia en esa tecnología ni escribir líneas de código. SageMaker Canvas facilita el acceso y la combinación de datos de diversos orígenes, limpia automáticamente los datos y crea modelos de ML para generar predicciones precisas con unos pocos clics.
A partir de hoy, SageMaker Canvas le permite reemplazar valores faltantes para preparar sus datos más rápido, reemplazar valores atípicos en sus datos para crear modelos de ML más precisos y le da la flexibilidad de poder elegir el tamaño de la muestra de su conjunto de datos para lograr un análisis más rápido.
Reemplazar valores que faltan: en los conjuntos de datos es común que falten valores y esto puede afectar la precisión de los modelos de ML. Esta nueva capacidad en SageMaker Canvas lo ayuda a reemplazar (también llamada imputar) valores faltantes en sus datos con valores personalizados y prepararlos más rápido, mientras mantiene su conjunto de datos intacto. Como ejemplo, puede reemplazar los valores faltantes en columnas numéricas con la media o la mediana de sus datos, o un valor personalizado. Esto garantiza que sus datos estén listos antes de crear modelos de ML.
Reemplazar valores atípicos: los valores atípicos o raros en el intervalo de sus datos pueden generar una gran variación o sesgo para crear modelos de ML. SageMaker Canvas ahora le permite detectar valores atípicos en columnas numéricas y lo ayuda a reemplazarlos con valores dentro de un intervalo específico. Puede elegir la desviación estándar o un intervalo personalizado y reemplazar los valores atípicos con valores mínimos y máximos en este intervalo especificado.
Elección de tamaños para muestras de conjuntos de datos: SageMaker Canvas ahora le permite elegir el tamaño de la muestra de su conjunto de datos para analizarlos mejor. El muestreo es una técnica estadística para identificar patrones y tendencias en un gran conjunto de datos porque se trabaja con una cantidad de datos pequeña y manejable, al tiempo que permite un análisis de datos preciso para construir modelos de ML. SageMaker Canvas utiliza el método de muestreo aleatorio que permite obtener información más rápida sobre sus datos. De forma predeterminada, Canvas utiliza un tamaño de muestra de 20 000 filas de su conjunto de datos. Ahora puede elegir entre 500 filas y 40 000 filas para los datos de la muestra según el tamaño de su conjunto de datos, lo que le brinda flexibilidad y control.
Las nuevas capacidades se suman a la variedad de capacidades de preparación de datos y transformaciones de datos avanzadas compatibles con SageMaker Canvas. Para obtener más información y dar los primeros pasos, consulte la documentación y visite la página del producto.