Publié le: Aug 9, 2022
Nous sommes ravis de vous annoncer que nous élargissons nos fonctionnalités, afin de favoriser la préparation des données et l’analyse dans Amazon SageMaker Canvas incluant un remplacement des valeurs manquantes, un remplacement des valeurs aberrantes, et une flexibilité de choix entre différentes tailles d’échantillons pour vos jeux de données. Amazon SageMaker Canvas est une interface visuelle de type pointer-cliquer qui permet aux analystes d'affaires de générer seuls des prédictions de ML précises, sans nécessiter une expérience dans le machine learning (ML) ou d'écrire la moindre ligne de code. SageMaker Canvas permet d'accéder facilement à des données provenant de diverses sources et de les combiner, de nettoyer automatiquement les données et de créer des modèles ML pour générer des prédictions précises en quelques clics.
Dès aujourd’hui, SageMaker Canvas vous permet de remplacer des valeurs manquantes afin de préparer vos données plus rapidement, remplacer les valeurs aberrantes dans vos données afin de créer des modèles de ML plus précis. Il permet également une flexibilité de choix de taille de votre échantillon de jeu de données pour une analyse de données plus rapide.
Remplacer les valeurs manquantes : les valeurs manquantes surviennent couramment dans les jeux de données et peuvent avoir des répercussions sur la précision des modèles de ML. Cette nouvelle fonctionnalité dans SageMaker Canvas vous aide à remplacer (également appelé attribution) des données manquantes dans vos données avec des valeurs personnalisées et à préparer vos données plus rapidement, tout en gardant votre jeu de données intact. Par exemple, vous pouvez remplacer des valeurs manquantes avec la moyenne ou la médiane de vos données, ou une valeur personnalisée. Cela garantie que vos données sont prêtes avant de créer des modèles de ML.
Remplacer les valeurs aberrantes : les valeurs aberrantes ou les valeurs rares dans la gamme de vos données peuvent mener à une grande variance ou à un biais pour créer des modèles ML. SageMaker Canvas vous permet désormais de détecter des valeurs aberrantes dans des colonnes numériques et aide à les remplacer par des valeurs comprises dans une gamme spécifique. Vous pouvez choisir soit la déviation standard ou une gamme personnalisée et remplacer les valeurs aberrantes par des valeurs minimum et maximum dans cette gamme spécifique.
Choix de tailles pour échantillons de jeux de données : SageMaker Canvas vous permet désormais de choisir la taille de votre échantillon de jeux de données afin d’améliorer l’analyse de vos données. L’échantillonnage est une technique permettant d’identifier des modèles et des tendances à l’intérieur d’un large jeu de données en travaillant avec un nombre peu élevé et gérable de données, tout en permettant aux analyses de données précises de créer des modèles ML. SageMaker Canvas utilise la méthode d’échantillonnage aléatoire pour des aperçus plus rapides de vos données. Par défaut, Canvas utilise une taille d’échantillon de 20 000 lignes à partir de votre jeu de données. Vous avez désormais le choix entre 500 lignes et 40 000 lignes pour les données d’échantillon selon votre taille et votre jeu de données, ce qui vous offre de la flexibilité et du contrôle.
Les nouvelles fonctionnalités viennent s’ajouter à la gamme des fonctionnalités de préparation et aux transformations de données avancées prises en charge par SageMakerCanvas. Pour en savoir plus et démarrer, consultez la documentation et la page du produit.