Publicado en: Oct 23, 2023
El almacén de características de Amazon SageMaker permite incorporar orígenes de datos personalizados en las canalizaciones de procesamiento de características. Puede crear características de machine learning (ML) más completas y variadas al incorporar diversas fuentes de datos y definir las funciones de transformación que se van a realizar, y el almacén de características de SageMaker se encarga de procesar los datos para convertirlos en características de ML.
Con este lanzamiento, puede conectarse a orígenes de datos de streaming como Amazon Kinesis y crear transformaciones con Spark Structured Streaming, que es un motor de procesamiento de streams, escalable y tolerante a errores, para procesar datos en tiempo real. También puede conectarse a almacenes de datos como Amazon Redshift, Snowflake y Databricks para procesar las características por lotes e iniciar el procesamiento de características según una programación o con un activador mediante las reglas de Amazon EventBridge. El almacén de características de Amazon SageMaker crea y administra las canalizaciones y las escribe en sus grupos de características para utilizarlas en la preparación y el entrenamiento de modelos de ML. Puede realizar un seguimiento de las ejecuciones de su canalización, visualizar el linaje para rastrear las características hasta los orígenes de datos y ver el código de procesamiento de características, todo en un solo entorno en Amazon SageMaker Studio.
Para obtener más información, consulte la documentación aquí. Para empezar, vaya a SageMaker Studio desde la consola de Amazon SageMaker.