Publié le: Sep 30, 2022
Amazon SageMaker Data Wrangler réduit le temps nécessaire à l'agrégation et à la préparation des données pour le machine learning (ML) de plusieurs semaines à quelques minutes. Amazon SageMaker Autopilot crée, entraîne et ajuste automatiquement les meilleurs modèles de machine learning en fonction de vos données, tout en vous permettant de conserver un contrôle et une visibilité totale. Data Wrangler permet, en seulement quelques clics, d'unifier la préparation des données et l'entraînement des modèles avec Amazon SageMaker Autopilot. Cette intégration est désormais améliorée pour inclure et réutiliser les transformations de fonctionnalités de Data Wrangler telles que les imputateurs de valeurs manquantes et les encodeurs ordinaux ou de type « one-hot » avec les modèles Autopilot pour l'inférence ML. Lorsque vous préparez des données dans Data Wrangler et entraînez un modèle en faisant appel à Autopilot, vous pouvez désormais déployer le modèle formé avec toutes les transformations de fonctionnalités de Data Wrangler en tant que pipeline d'inférence en série SageMaker. Cette action permet de prétraiter automatiquement les données brutes et de réutiliser les transformations de fonctionnalités de Data Wrangler au moment de l'inférence. Cette fonctionnalité n'est actuellement prise en charge que pour les flux Data Wrangler qui n'utilisent pas de transformations de type « join », « groupBy », de concaténation et par séries chronologiques.
Avant ce lancement, lors de l'utilisation de modèles Autopilot entraînés sur des données préparées à partir de Data Wrangler, les données présentées pour l'inférence nécessitaient une étape de prétraitement dans SageMaker Data Wrangler. Ce prétraitement était nécessaire avant de présenter les données pour inférence en temps réel ou par lot. Dès aujourd'hui, après avoir préparé les données avec Data Wrangler et formé un modèle dans SageMaker Autopilot, vous pouvez soit réaliser des prédictions par lots qui comprennent des transformations de traitement des données, soit déployer le modèle formé avec les transformations de Data Wrangler derrière un point de terminaison SageMaker. Cette inclusion automatique des transformations de traitement des données permet une inférence qui ne nécessite pas de prétraitement manuel des données. L'inférence est disponible à la fois en temps réel et par lots.
Cette nouvelle expérience est désormais disponible dans toutes les régions où SageMaker Data Wrangler et SageMaker Autopilot sont disponibles. Pour vous lancer, consultez la section Entraîner automatiquement des modèles dans votre flux de données ou l'article de blog.