Publié le: Jan 28, 2022
Amazon SageMaker Autopilot crée, entraîne et ajuste automatiquement les meilleurs modèles de machine learning en fonction de vos données, tout en vous permettant de conserver le contrôle et de bénéficier d'une visibilité totale. À partir d'aujourd'hui, SageMaker Autopilot prend en charge le format de fichier Apache Parquet. Apache Parquet est un format de stockage de données orienté colonnes gratuit et open source pour l'écosystème Apache Hadoop. Il fournit des schémas de compression et d'encodage de données efficaces et des performances améliorées. Ces nouvelles fonctions permettent la création d'expériences SageMaker Autopilot avec des fichiers stockés au format de fichier Apache Parquet.
Lors de la création d'une expérience Autopilot avec cette version, vous pouvez spécifier l'emplacement Amazon S3 pour les données Parquet d'entrée qui sont dirigées vers un seul fichier Parquet ou vers un fichier manifeste contenant des métadonnées et faisant référence à plusieurs fichiers Parquet. Autopilot peut accepter jusqu'à 2 Go de données compressées pour chaque fichier Parquet dans l'emplacement d'entrée ou le manifeste. Vous pouvez augmenter la limite de service par défaut de 2 Go pour un fichier compressé au format Parquet en déposant une demande d'augmentation de la limite de service dans la console AWS Support Center. Lorsque vous spécifiez un dossier Amazon S3 ou un fichier manifeste avec plusieurs fichiers Parquet en entrée, la limite par défaut de 2 Go est appliquée pour chaque fichier Parquet séparément. Cette version inclut également la prise en charge du traitement de jeux de données Parquet volumineux. SageMaker Autopilot sous-échantillonnera automatiquement les données non compressées stockées dans le(s) fichier(s) Parquet afin de s'adapter à la limite maximale prise en charge, tout en tenant compte du déséquilibre des classes et en préservant les labels de classe rares.
Le format de fichier Parquet est pris en charge dans toutes les régions AWS où SageMaker Autopilot est disponible. Pour plus d'informations, consultez les rubriques Données et types de problèmes et Quotas dans le guide du développeur Amazon SageMaker Autopilot, et ContentType dans la référence d'API AutoMLChannel. Afin d'obtenir davantage de détails, veuillez consulter notre article de blog ainsi que notre exemple de bloc-notes présentant ces nouvelles fonctions. Afin de commencer l'utilisation de SageMaker Autopilot, consultez la section Mise en route ou accédez à Autopilot dans SageMaker Studio.