Publié le: May 7, 2021
Avec Amazon SageMaker Data Wrangler, regrouper et préparer des données pour le machine learning (ML) ne prend plus des semaines mais seulement quelques minutes. SageMaker Data Wrangler vous permet également de simplifier le processus de préparation des données et d'ingénierie des fonctionnalités mais aussi d'effectuer toutes les étapes du flux de travail de préparation de données telles que la sélection, le nettoyage, l'exploration et la visualisation des données depuis une seule interface visuelle. À compter d'aujourd'hui, vous pouvez utiliser de nouvelles fonctionnalités d'Amazon SageMaker Data Wrangler qui simplifient et accélèrent la préparation des données pour le machine learning, dont : un accès entre comptes à Amazon S3, une prise en charge d'un maximum de 1 000 colonnes de données, des tâches distribuées et une nouvelle expérience de bloc-notes SageMaker Data Wrangler.
Avec le lancement de l'accès entre comptes à Amazon S3, vous pouvez importer des données à partir de n'importe quel compartiment S3 auquel vous avez accès, et parcourir facilement les données contenues dans vos compartiments S3, quel que soit le compte dans lequel elles se trouvent. Une fois que vous avez accédé au compartiment S3, vous pouvez parcourir de manière interactive le contenu du compartiment S3 et l'importer dans Amazon SageMaker Data Wrangler en un seul clic. De plus, de nombreuses applications de machine learning nécessitent de préparer des ensembles de données contenant des centaines de colonnes. Avec le lancement de la prise en charge de 1 000 colonnes d'ensembles de données, vous pouvez facilement préparer des données pour les applications de machine learning. Grâce aux tâches distribuées, vous pouvez désormais augmenter vos charges de travail de traitement des données sur plusieurs instances pour traiter des données de pratiquement n'importe quelle taille. Aujourd'hui, vous pouvez spécifier un nombre d'instances supérieur à 1 pour les types d'instances ml.m5.4xlarge, ml.m5.12xlarge et ml.m5.24xlarge, dans le but d'augmenter facilement vos charges de travail de traitement des données. Enfin, la nouvelle expérience de bloc-notes SageMaker Data Wrangler facilite l'utilisation des blocs-notes Jobs. Les blocs-notes ont été réorganisés pour une configuration facile et fournissent une documentation pour que vous puissiez démarrer plus rapidement.
Pour démarrer avec les nouvelles fonctionnalités d'Amazon SageMaker Data Wrangler, ouvrez Amazon SageMaker Studio et cliquez sur Fichier > Nouveau> Flux dans le menu ou cliquez sur « Nouveau flux de données » dans le lanceur de SageMaker Studio. Pour en savoir plus, consultez la page des fonctionnalités ou notre documentation.