Publié le: Jan 10, 2022
Amazon SageMaker Feature Store annonce une nouvelle amélioration, un connecteur pour Apache Spark qui rend l'ingestion des données par lot plus simple pour les clients. Amazon SageMaker Feature Store est un référentiel entièrement géré et spécialement conçu pour stocker, mettre à jour, récupérer et partager des caractéristiques de modèle de machine learning (ML). Il existe différentes façons d'intégrer les données dans SageMaker Feature Store y compris l'API PutRecord, la fonctionnalité FeatureGroup.ingest de SageMaker Python SDK et la tâche de traitement de SageMaker.
Pour l'ingestion par lot, les clients peuvent intégrer les données à partir des sources Spark comme Amazon EMR et tâches de traitement. Cela nécessite de passer par des registres de cadre de données spark et de configurer l'API PutRecord avec des noms et des groupes de fonctions plusieurs fois, ce qui peut prendre du temps. Avec la nouvelle version, les clients peuvent utiliser le connecteur SageMaker Feature Store pour Apache Spark qui simplifie et automatise ces étapes. Le connecteur met à disposition toutes les bibliothèques de Spark et les clients peuvent ajouter des appels d'API simples à leur pipeline d'ingénierie des fonctionnalités existante sur Amazon EMR pour intégrer facilement les données par lot dans SageMaker Feature Store. De plus, le connecteur autorise également l'ingestion directe dans le magasin hors ligne de SageMaker Feature Store pour simplifier le processus de remblayage.
Pour en savoir plus, consultez la documentation. Pour commencer, connectez-vous à la console Amazon SageMaker.