¿Por qué debería elegir el Almacén de características de Amazon SageMaker?
El almacén de características de Amazon SageMaker es un repositorio completamente administrado y creado específicamente para almacenar, actualizar, recuperar y compartir características de machine learning (ML). Las características son entradas para los modelos de ML que se usan durante el entrenamiento y la inferencia. Por ejemplo, en una aplicación que recomienda una lista de reproducción de música, las características pueden incluir clasificaciones de canciones, duración de escucha y datos demográficos de los oyentes. Muchos equipos utilizan las características de forma continua y la calidad de dichas características resulta fundamental para garantizar un modelo de alta precisión. Además, cuando las características utilizadas para entrenar modelos sin conexión en lotes están disponibles para la inferencia en tiempo real, resulta difícil mantener sincronizadas los dos almacenes de características. El almacén de características de SageMaker proporciona un almacén seguro y unificado para procesar, estandarizar y utilizar las características a escala a lo largo del ciclo de vida del aprendizaje automático.
Funcionamiento

Beneficios del almacén de características de SageMaker
Administración de características
Procesamiento y recepción de características
Puede recibir datos en el almacén de características de SageMaker de una variedad de orígenes, tales como registros de aplicaciones y servicios, secuencias de clics, sensores y datos tabulares de Amazon S3, Amazon Redshift, AWS Lake Formation, Snowflake y Databricks Delta Lake. Mediante el procesamiento de características, puede especificar el origen de datos por lotes y la función de transformación de características (por ejemplo, el recuento de las vistas del producto o los agregados de ventanas temporales), y el almacén de características de SageMaker transforma los datos, en el momento de su recepción, en funciones de aprendizaje automático. Con Amazon SageMaker Data Wrangler, puede publicar características directamente en el almacén de características de SageMaker. Con el conector de Apache Spark, puede recibir, por lotes, un gran volumen de datos con una sola línea de código.

Almacenamiento, catálogo, búsqueda y reutilización de características
El almacén de características de SageMaker etiqueta e indexa los grupos de características para que puedan localizarse de manera sencilla a través de una interfaz visual en Amazon SageMaker Studio. Explorar el catálogo de características permite a los equipos descubrir características existentes que pueden reutilizar de manera fiable y evitar la duplicación de canalizaciones. El almacén de características de SageMaker utiliza el catálogo de datos de AWS Glue de forma predeterminada, pero le permite utilizar uno diferente si lo desea. También puede consultar características utilizando SQL familiar con Amazon Athena u otra herramienta de consulta que elija.

Coherencia de las características
El almacén de características de SageMaker admite almacenamiento sin conexión para el entrenamiento y el almacenamiento en línea para la inferencia en tiempo real. Estos son casos de uso muy distintos y los requisitos de almacenamiento difieren para cada uno de ellos. Con frecuencia, durante el entrenamiento los modelos usan el conjunto de datos completo y pueden tardar horas en completarse, mientras que la inferencia debe producirse en cuestión de milisegundos y, por lo general, necesita un subconjunto de los datos. Cuando se usan juntos, el almacén de características de SageMaker garantiza que los conjuntos de datos en línea y sin conexión permanezcan sincronizados, lo cual es fundamental porque si divergen, puede afectar negativamente la precisión del modelo.

Viaje en el tiempo
Los científicos de datos pueden necesitar entrenar modelos con el conjunto exacto de valores de características de un momento específico en el pasado sin tener que correr el riesgo de incluir datos anteriores a ese momento (llamados también filtración de características), como los datos médicos del paciente antes del diagnóstico. La API fuera de línea del almacén de características de SageMaker admite consultas de un momento dado para recuperar el estado de cada característica en el momento histórico del interés.
