Publié le: Sep 8, 2022
Amazon SageMaker Canvas annonce des fonctionnalités supplémentaires pour l'analyse exploratoire des données (EDA) avec des visualisations avancées, vous permettant de mieux explorer et analyser vos données avant de créer des modèles de machine learning (ML). SageMaker Canvas est une interface visuelle de type pointer-cliquer qui permet aux analystes métier de générer seuls des prédictions de ML précises, sans nécessiter une expérience dans le machine learning (ML) ou écrire la moindre ligne de code.
À compter d'aujourd'hui, Amazon SageMaker Canvas fournit de nouvelles visualisations pour EDA qui vous permettent de mieux comprendre vos données avant la création de modèles. Ces visualisations viennent compléter la gamme de fonctionnalités de préparation et d'exploration des données que Canvas propose déjà, telles que des tailles flexibles pour l'échantillonnage des données, l'imputation des valeurs manquantes, le remplacement des valeurs aberrantes, le filtrage, la jointure et la modification des jeux de données, ainsi que les formats d'horodatage étendus. Les visualisations vous aident à analyser les relations entre les entités de vos jeux de données et à mieux comprendre vos données. Pour cela, vous profitez d'un format visuel facile à lire et avez la possibilité d'interagir avec les données et de découvrir des informations qui peuvent passer inaperçues avec des requêtes ad hoc. Ces visualisations peuvent être créées rapidement via le Visualiseur de données dans SageMaker Canvas avant de créer et d'entraîner des modèles ML. Les nouvelles visualisations incluent :
- Nuages de points : ces graphiques peuvent être utilisés pour observer les relations entre différentes variables numériques dans vos données. Les points servent à présenter les valeurs de deux variables numériques différentes, la position de chaque point indiquant la valeur d'un point de données particulier sur les axes horizontal et vertical.
- Graphiques à barres : ces graphiques peuvent être utilisés pour résumer un ensemble de données catégorielles représentées par des barres pour une comparaison instantanée des données. La hauteur de chaque barre représente la proportion d'une agrégation de données spécifique.
- Diagrammes en boîte : ces diagrammes représentent des groupes de données numériques à travers leurs quartiles. Les diagrammes en boîte vous aident à déterminer comment les valeurs de vos données sont réparties. La vue graphique représente la distribution d'un ou plusieurs groupes de données numériques.
Toutes les fonctionnalités EDA, y compris les nouvelles visualisations, sont prises en charge dans toutes les régions AWS où SageMaker Canvas est disponible. Pour en savoir plus sur Canvas, les régions prises en charge et pour vous lancer, veuillez consulter la documentation, la page produit et la page FAQ de Canvas.