Publicado en: Jan 10, 2022
El almacén de características de Amazon SageMaker anuncia una nueva mejora, un conector para Apache Spark que facilita la ingesta de datos por lotes a los clientes. El almacén de características de Amazon SageMaker es un repositorio completamente administrado y creado específicamente para almacenar, actualizar, recuperar y compartir características del modelo de machine learning (ML). Hay varias formas de ingerir datos en el almacén de características de SageMaker, incluida la API PutRecord, la funcionalidad FeatureGroup.ingest del SDK de Python de SageMaker y el trabajo de procesamiento de SageMaker.
Para la ingesta por lotes, los clientes pueden ingerir datos de orígenes Spark, como Amazon EMR y trabajos de procesamiento. Esto requiere iterar a través de registros de marco de datos y configurar la API PutRecord con nombres y grupos de características varias veces, lo que puede llevar mucho tiempo. Con la nueva versión, los clientes pueden utilizar el conector del almacén de características de SageMaker para Apache Spark, que simplifica y automatiza estos pasos. El conector pone a disposición todas las bibliotecas de Spark y los clientes pueden agregar llamadas a la API simples para su canalización de ingeniería de características existente en Amazon EMR para ingerir fácilmente datos por lotes en el almacén de características de SageMaker. Además, el conector también permite la ingesta directa en el almacén sin conexión del almacén de características de SageMaker para simplificar el proceso de relleno.
Para obtener más información, consulte la documentación. Para comenzar, inicie sesión en la consola de Amazon SageMaker.