Publié le: Apr 27, 2022
Amazon SageMaker Data Wrangler réduit le temps nécessaire à l'agrégation et à la préparation des données pour le machine learning (ML) de plusieurs semaines à quelques minutes. SageMaker Data Wrangler vous permet également de simplifier le processus de préparation des données et d'ingénierie des fonctionnalités mais aussi d'effectuer toutes les étapes du flux de travail de préparation de données telles que la sélection, le nettoyage, l'exploration et la visualisation des données depuis une seule interface visuelle. Grâce à l'outil de sélection des données de SageMaker Data Wrangler, vous pouvez sélectionner rapidement des données à partir de plusieurs sources de données, comme Amazon S3, Amazon Athena, Amazon Redshift, AWS Lake Formation, Amazon SageMaker Feature Store, Databricks Delta Lake et Snowflake.
Aujourd'hui, nous annonçons la disponibilité générale de l'échantillonnage aléatoire des données lors de l'importation depuis S3 et de nouvelles transformations pour créer des échantillons aléatoires ou stratifiés de vos jeux de données avec Amazon SageMaker Data Wrangler dans Amazon SageMaker Studio. Auparavant, vous deviez écrire du code pour créer des échantillons aléatoires ou des échantillons stratifiés de vos données lorsque vous prépariez des données pour des applications de ML. Aujourd'hui, grâce à l'option d'échantillonnage aléatoire à l'importation, vous pouvez désormais créer un échantillon aléatoire de vos données sur S3 lorsque vous importez vos données dans Data Wrangler. De plus, avec nos nouvelles transformations pour l'échantillonnage aléatoire et stratifié, vous pouvez créer les types d'échantillons suivants pour votre jeu de données :
- Échantillon aléatoire. Les échantillons aléatoires sont utiles lorsque vous avez un jeu de données trop volumineux pour être préparé de manière interactive. Avec la transformation d'échantillonnage aléatoire, vous pouvez échantillonner de manière aléatoire une proportion de votre jeu de données afin de le préparer pour le machine learning.
- Échantillon stratifié. Les échantillons stratifiés sont utiles lorsque vos données contiennent un événement rare (tel que les transactions frauduleuses par carte de crédit qui se produisent beaucoup moins d'un pour cent de toutes les transactions par carte de crédit) et que vous voulez préserver la proportion de l'événement rare dans votre jeu de données échantillonné.
- Échantillon des premières K. Les échantillons des premières K créent un échantillon en utilisant les premières K lignes de votre jeu de données, où K est un nombre quelconque. Par exemple, si K est égal à 1 000, un échantillon sera créé contenant les 1 000 premières lignes de votre jeu de données. Les échantillons des premières K sont utiles lorsque vous n'avez besoin que du schéma de colonnes correct pour préparer vos données. Un avantage supplémentaire de l'échantillon des premières K est qu'il s'agit d'une opération extrêmement efficace en termes de temps.
Pour en savoir plus sur la façon d'échantillonner vos données avec Amazon SageMaker Data Wrangler, lisez le blog.
Pour démarrer avec les nouvelles fonctions d'Amazon SageMaker Data Wrangler, vous pouvez ouvrir Amazon SageMaker Studio après avoir effectué la mise à niveau vers la dernière version. Cliquez ensuite sur File > New > Flow (Fichier > Nouveau > Flux) dans le menu, ou sur « New data flow » (Nouveau flux de données) dans l'outil de lancement de SageMaker Studio. Pour en savoir plus sur les nouvelles fonctions, consultez la documentation.