Almacén de características de Amazon SageMaker

Un servicio completamente administrado para las características de machine learning

¿Por qué debería elegir el Almacén de características de Amazon SageMaker?

El almacén de características de Amazon SageMaker es un repositorio completamente administrado y creado específicamente para almacenar, actualizar, recuperar y compartir características de machine learning (ML). Las características son entradas para los modelos de ML que se usan durante el entrenamiento y la inferencia. Por ejemplo, en una aplicación que recomienda una lista de reproducción de música, las características pueden incluir clasificaciones de canciones, duración de escucha y datos demográficos de los oyentes. Muchos equipos utilizan las características de forma continua y la calidad de dichas características resulta fundamental para garantizar un modelo de alta precisión. Además, cuando las características utilizadas para entrenar modelos sin conexión en lotes están disponibles para la inferencia en tiempo real, resulta difícil mantener sincronizadas los dos almacenes de características. El almacén de características de SageMaker proporciona un almacén seguro y unificado para procesar, estandarizar y utilizar las características a escala a lo largo del ciclo de vida del aprendizaje automático.

Funcionamiento

Cómo funciona el almacén de características de Amazon SageMaker

Beneficios del almacén de características de SageMaker

Transforme los datos en características de aprendizaje automático y cree canalizaciones de características que respalden las prácticas de MLOps y aceleren el tiempo necesario para modelar el despliegue
Ingiera características de cualquier origen de datos, incluidos streaming y lotes, como registros de aplicaciones, registros de servicios, secuencias de clics, sensores y datos tabulares de AWS o orígenes de datos de terceros
Almacene, comparta y administre características de modelos de ML para el entrenamiento y la inferencia de forma que se promueva la reutilización de funciones en aplicaciones de ML

Administración de características

Procesamiento y recepción de características

Puede recibir datos en el almacén de características de SageMaker de una variedad de orígenes, tales como registros de aplicaciones y servicios, secuencias de clics, sensores y datos tabulares de Amazon S3, Amazon Redshift, AWS Lake Formation, Snowflake y Databricks Delta Lake. Mediante el procesamiento de características, puede especificar el origen de datos por lotes y la función de transformación de características (por ejemplo, el recuento de las vistas del producto o los agregados de ventanas temporales), y el almacén de características de SageMaker transforma los datos, en el momento de su recepción, en funciones de aprendizaje automático. Con Amazon SageMaker Data Wrangler, puede publicar características directamente en el almacén de características de SageMaker. Con el conector de Apache Spark, puede recibir, por lotes, un gran volumen de datos con una sola línea de código.

Captura de pantalla de

Almacenamiento, catálogo, búsqueda y reutilización de características

El almacén de características de SageMaker etiqueta e indexa los grupos de características para que puedan localizarse de manera sencilla a través de una interfaz visual en Amazon SageMaker Studio. Explorar el catálogo de características permite a los equipos descubrir características existentes que pueden reutilizar de manera fiable y evitar la duplicación de canalizaciones. El almacén de características de SageMaker utiliza el catálogo de datos de AWS Glue de forma predeterminada, pero le permite utilizar uno diferente si lo desea. También puede consultar características utilizando SQL familiar con Amazon Athena u otra herramienta de consulta que elija.

La imagen muestra el catálogo de grupos de características

Coherencia de las características

El almacén de características de SageMaker admite almacenamiento sin conexión para el entrenamiento y el almacenamiento en línea para la inferencia en tiempo real. Estos son casos de uso muy distintos y los requisitos de almacenamiento difieren para cada uno de ellos. Con frecuencia, durante el entrenamiento los modelos usan el conjunto de datos completo y pueden tardar horas en completarse, mientras que la inferencia debe producirse en cuestión de milisegundos y, por lo general, necesita un subconjunto de los datos. Cuando se usan juntos, el almacén de características de SageMaker garantiza que los conjuntos de datos en línea y sin conexión permanezcan sincronizados, lo cual es fundamental porque si divergen, puede afectar negativamente la precisión del modelo.

La imagen muestra la creación de un grupo de características

Viaje en el tiempo

Los científicos de datos pueden necesitar entrenar modelos con el conjunto exacto de valores de características de un momento específico en el pasado sin tener que correr el riesgo de incluir datos anteriores a ese momento (llamados también filtración de características), como los datos médicos del paciente antes del diagnóstico. La API fuera de línea del almacén de características de SageMaker admite consultas de un momento dado para recuperar el estado de cada característica en el momento histórico del interés.  

La imagen muestra el flujo de las consultas de la API fuera de línea del almacén de características para recuperar el estado de cada característica en el momento histórico del interés.