Publié le: Nov 30, 2022
Aujourd'hui, nous sommes ravis de vous annoncer la prise en charge du déploiement des flux de préparation des données créés dans Data Wrangler pour les pipelines d'inférence en temps réel et par lots, ainsi que des configurations supplémentaires pour les tâches de traitement Data Wrangler dans Amazon SageMaker Data Wrangler.
Amazon SageMaker Data Wrangler permet de créer un prototype rapidement, réduit les temps de déploiement des charges de travail de traitement des données en production et s'intègre facilement aux pipelines CI/CD et aux environnements de production MLOps par l'intermédiaire des API SageMaker Processing. Lorsqu'ils exécutent et planifient des charges de travail de traitement des données avec Data Wrangler pour préparer des données pour entraîner des modèles de ML, les clients sont invités à personnaliser les paramètres de mémoire Spark et de partition de sortie pour leurs charges de travail de préparation de données à grande échelle. Ensuite, après avoir traité les données et entraîné un modèle ML, les clients doivent déployer le pipeline de transformation de données et le modèle ML derrière un point de terminaison SageMaker pour des cas d'utilisation d'inférence en temps réel et par lots. Les clients doivent ensuite créer des scripts de traitement de données de zéro afin d'exécuter les mêmes étapes de traitement des données aux inférences appliquées lors de l'entraînement du modèle. Une fois le modèle déployé, ils doivent s'assurer que leurs scripts d'entraînement et de déploiement sont toujours synchronisés.
Avec cette version, vous pouvez à présent facilement configurer des configurations de mémoire Spark et un format de partition de sortie lorsque vous exécutez une tâche de traitement Data Wrangler pour traiter des données à grande échelle. Après avoir préparé vos données et entraîné un modèle de ML, vous pouvez désormais facilement déployer votre pipeline de transformation des données (également connu sous le nom de « flux de données ») avec un modèle de ML dans le cadre d'un pipeline d'inférence en série pour des applications d'inférence par lots et en temps réel. Vous pouvez également désormais enregistrer vos flux de données Data Wrangler dans le registre des modèles SageMaker. Vous pouvez commencer à déployer votre flux Data Wrangler pour des inférences en temps réel en cliquant sur « Export to > Inference Pipeline (via Jupyter Notebook) » (Exporter vers > Pipeline d'inférence (via le bloc-notes Jupyter)) depuis la vue Data Flow dans Data Wrangler. Il est désormais possible de configurer les paramètres de mémoire Spark dans le cadre du flux de travail Create job (créer une tâche) et de configurer des partitions dans le cadre des paramètres du nœud de destination.
Cette fonctionnalité est généralement disponible dans toutes les régions AWS actuellement prises en charge par Data Wrangler sans coût supplémentaire. Pour commencer à utiliser SageMaker Data Wrangler, consultez le blog et la documentation AWS.