Publié le: Nov 30, 2022
Aujourd'hui, AWS annonce la disponibilité générale de la prise en charge par Amazon SageMaker Data Wrangler de plus de 40 applications tierces comme sources de données pour le machine learning (ML) grâce à l'intégration à Amazon AppFlow. Amazon SageMaker Data Wrangler réduit le temps nécessaire à l'agrégation et à la préparation des données pour le machine learning (ML) de plusieurs semaines à quelques minutes. La préparation de données de haute qualité pour le ML est souvent complexe et prend du temps, car elle nécessite l'agrégation de données provenant de sources et de formats divers et utilisant différents outils. Avec SageMaker Data Wrangler, vous pouvez explorer et importer des données provenant de diverses sources populaires comme Amazon S3, Amazon Athena, Amazon Redshift, Snowflake, Databricks et Salesforce Customer Data Platform. À compter d'aujourd'hui, nous facilitons l'agrégation des données pour le ML à partir de plus de 40 sources de données d'applications tierces, y compris Salesforce Marketing, SAP, Google Analytics, LinkedIn etc., via Amazon AppFlow.
Amazon AppFlow est un service entièrement géré qui permet aux clients de transférer en toute sécurité les données d'applications tierces vers les services AWS comme Amazon S3, et de cataloguer les données dans le catalogue de données AWS Glue en quelques clics seulement. Une fois les sources de données configurées dans AppFlow, vous pouvez parcourir les tables et les schémas de ces sources de données en utilisant l'explorateur SQL Data Wrangler. Vous pouvez écrire des requêtes Athena pour prévisualiser les données et vous assurer qu'elles correspondent à vos cas d'utilisation, et importer des données pour préparer la formation du modèle ML. Vous pouvez également joindre des données provenant de plusieurs sources après importation afin de créer l'ensemble de données approprié pour le ML. Une fois les données importées, vous pouvez rapidement comprendre la qualité des données, les nettoyer et créer des fonctions grâce à plus de 300 analyses et transformations de données intégrées. Vous pouvez également former et déployer un modèle avec SageMaker Autopilot, et rendre opérationnel le processus de préparation des données dans un pipeline d'ingénierie des fonctionnalités, de formation ou de déploiement en utilisant l'intégration avec SageMaker Pipeline depuis Data Wrangler.
Data Wrangler prend en charge plus de 40 sources de données tierces dans toutes les régions actuellement prises en charge par AppFlow. Cette fonction est disponible sans frais supplémentaires en plus du coût de Data Wrangler et AppFlow.
Pour démarrer, consultez les ressources suivantes :
- Nouveau : Amazon SageMaker Data Wrangler prend en charge les applications SaaS comme source de données
- Importer des données à partir d'applications tierces dans la documentation technique AWS