¿En qué consiste la ingeniería de características?

Las características del modelo son las entradas que los modelos de machine learning (ML) utilizan durante el entrenamiento y la inferencia para realizar predicciones. La precisión del modelo de ML depende de un conjunto y una composición exactos de características. Por ejemplo, dentro de una aplicación de ML que recomienda una lista de reproducción de música, las características podrían incluir las calificaciones de las canciones, así como qué canciones se escucharon anteriormente y durante cuánto tiempo. Es posible que la creación de características requiera un esfuerzo de ingeniería importante. La ingeniería de características implica la extracción y transformación de variables a partir de datos sin procesar, como las listas de precios, las descripciones de los productos y los volúmenes de ventas, de modo que sea posible utilizar las características para el entrenamiento y la predicción. Los pasos necesarios dentro de un proceso de ingeniería de características incluyen la extracción y la limpieza de los datos y, a continuación, la creación y el almacenamiento de las características.

¿Cuáles son los retos que plantea la ingeniería de características?

La ingeniería de características supone un reto porque implica una combinación de análisis de datos, conocimiento del dominio empresarial y algo de intuición. Al crear características, resulta tentador recurrir inmediatamente a los datos disponibles, pero a menudo conviene comenzar por reflexionar sobre los datos que se necesitan por medio de conversaciones con expertos, lluvias de ideas e investigaciones de terceros. Si no se hace este ejercicio, se podrían omitir importantes variables de predicción.

Extracción de datos

La recopilación de datos es el proceso de agrupar todos los datos que se necesitan para el ML. Dicho proceso puede resultar tedioso, ya que los datos residen en muchos orígenes de datos, incluidos portátiles, almacenamientos de datos, la nube, aplicaciones y dispositivos. Encontrar maneras de conectarse a diferentes orígenes de datos puede ser un desafío. Los volúmenes de datos también están aumentando de manera exponencial, así que hay una enorme cantidad de datos en la que buscar. Además, los datos pueden tener un buen número de formatos y tipos diferentes según el origen. Por ejemplo, no es fácil utilizar juntos datos de video y datos tabulares.

Creación de características

El etiquetado de datos es el proceso para identificar los datos sin procesar (imágenes, archivos de texto, videos, etc.) y agregar una o más etiquetas significativas e informativas para proporcionar contexto, de manera que un modelo de machine learning pueda aprender de estos. Por ejemplo, las etiquetas pueden indicar si una fotografía contiene un pájaro o un auto, qué palabras se dijeron en una grabación de audio o si una imagen de rayos X contiene algo irregular. El etiquetado de datos se requiere para una variedad de casos de uso, como la visión artificial, el procesamiento de lenguaje natural y el reconocimiento de habla.

Almacenamiento de características

Una vez que los datos están limpios y etiquetados, los equipos de ML a menudo los exploran los para asegurarse de que son correctos y están listos para el ML. Las visualizaciones como histogramas, gráficos de dispersión, gráficos de caja, gráficos de línea y gráficos de barra son herramientas útiles para confirmar que los datos son correctos. Además, las visualizaciones también ayudan a los equipos de ciencia de datos a completar análisis exploratorios de datos. Este proceso utiliza las visualizaciones para detectar patrones, encontrar anomalías, probar una hipótesis o verificar supuestos. Los análisis exploratorios de datos no requieren un modelado formal; en lugar de eso, los equipos de ciencia de datos pueden utilizar visualizaciones para descifrar los datos. 

¿Cómo puede AWS ayudar con la ingeniería de características?

Gracias a Amazon SageMaker Data Wrangler, es posible simplificar el proceso de ingeniería de características mediante una única interfaz visual. Mediante la herramienta de selección de datos de SageMaker Data Wrangler, puede elegir los datos sin procesar que desee a partir de varios orígenes de datos e importarlos con tan solo un clic. SageMaker Data Wrangler contiene más de 300 transformaciones de datos incorporadas de modo que sea posible normalizar, transformar y combinar características rápidamente sin necesidad de escribir código alguno. Después de preparar los datos, se pueden crear flujos de trabajo de ML completamente automatizados con las Canalizaciones de Amazon SageMaker y guardarlos para reutilizarlos en el Almacén de características de Amazon SageMaker. El Almacén de características de SageMaker es un repositorio creado específicamente para almacenar características y obtener acceso a estas, lo que facilita nombrarlas, organizarlas y reutilizarlas en los distintos equipos de trabajo. Además, provee un almacén unificado para las características durante el entrenamiento y la inferencia en tiempo real sin la necesidad de escribir código adicional ni de crear procesos manuales para mantener las características consistentes.

Siguientes pasos en AWS

Descubra otros recursos relacionados con el producto
AWS Support para la ingeniería de características 
Regístrese para obtener una cuenta gratuita

Obtenga acceso instantáneo al nivel Gratuito de AWS.

Regístrese 
Comenzar a crear en la consola

Comience a crear en la consola de administración de AWS.

Iniciar sesión