¿Qué es la preparación de datos?
¿Cuál es la conexión entre el ML y la preparación de datos?
¿Por qué es importante la preparación de datos para el ML?
Los datos alimentan el ML. Sacar partido de estos datos para reinventar tu empresa, además de ser desafiante, es fundamental para ser relevante tanto ahora como en el futuro. Quienes sobreviven son los que cuentan con mayor información, y aquellos que sacan partido de sus datos para tomar mejores decisiones y más fundamentadas responden antes a lo inesperado y descubren nuevas oportunidades. Este proceso importante, aunque tedioso, es un requisito previo para la creación de modelos de ML y análisis precisos, y es la parte que requiere más tiempo de un proyecto de ML. Para reducir esta inversión de tiempo, los científicos de datos pueden utilizar herramientas con el objetivo de automatizar la preparación de datos de varias formas.
¿Cómo debe preparar sus datos?
La preparación de datos sigue una serie de pasos que comienza con la recopilación de los datos adecuados, seguido de procesos de limpieza, etiquetado y, más tarde, de validación y visualización.
Recopilar datos
Limpiar datos
Etiquetar datos
Validar y visualizar
¿Cómo puede AWS ayudar?
Las herramientas de preparación de datos de Amazon SageMaker pueden ayudar a las organizaciones a obtener información tanto de datos estructurados como no estructurados. Por ejemplo, puede utilizar Amazon SageMaker Data Wrangler para simplificar la preparación de datos estructurada con visualizaciones de datos integradas mediante una interfaz visual sin código. SageMaker Data Wrangler incluye más de 300 transformaciones de datos integradas, para que pueda normalizar, transformar y combinar características de forma rápida sin tener que escribir código. Si lo prefiere, también puede incorporar sus propias transformaciones en Python o Apache Spark. En el caso de datos no estructurados, necesita conjuntos de datos de alta calidad y etiquetados de mayor tamaño. Gracias a Amazon SageMaker Ground Truth Plus puede crear conjuntos de datos de entrenamiento de ML alta calidad, a la vez que reduce los costos de etiquetado de datos hasta un 40 % sin tener que crear aplicaciones de etiquetado o administrar el personal de etiquetado por su cuenta.
En el caso de analistas o usuarios empresariales que prefieran preparar datos dentro de un cuaderno, es posible examinar, descubrir y conectarse de manera visual a entornos de procesamiento de datos de Spark que se ejecutan en Amazon EMR desde sus cuadernos de Amazon SageMaker Studio con tan solo unos clics. Una vez conectado, puede consultar, explorar y visualizar los datos de forma interactiva, y ejecutar trabajos de Spark con el lenguaje que elija (SQL, Python o Scala) para crear flujos de trabajo de preparación de datos y ML completos.
Siguientes pasos para la preparación de datos


Obtenga acceso instantáneo al nivel Gratuito de AWS.

Comience a crear con machine learning en la consola de administración de AWS.