Publié le: Dec 7, 2022
Amazon SageMaker Feature Store permet désormais de créer des groupes de fonctionnalités dans le magasin hors ligne au format de table Apache Iceberg. Le magasin hors ligne contient des fonctionnalités de machine learning historiques, organisées en groupes de fonctionnalités logiques, et est utilisé pour l'entraînement des modèles et l'inférence par lots. Apache Iceberg est un format de table ouvert destiné à de très grands jeux de données analytiques, comme le magasin hors ligne. Il gère de grandes collections de fichiers sous forme de tables et prend en charge les opérations de lacs de données analytiques modernes optimisées pour une utilisation sur Amazon S3.
L'ingestion de données, en particulier lors du streaming, peut entraîner la création d'un grand nombre de petits fichiers, ce qui peut avoir un impact négatif sur les performances des requêtes du fait du nombre plus élevé d'opérations requises sur les fichiers. Avec Iceberg, vous pouvez compacter les petits fichiers de données dans un nombre moins important de gros fichiers au sein de la partition, ce qui accélère considérablement les requêtes. Cette opération de compactage est simultanée et n'affecte pas les opérations de lecture et d'écriture en cours sur le groupe de fonctionnalités. Si vous avez choisi l'option Iceberg lors de la création de nouveaux groupes de fonctionnalités, SageMaker Feature Store créera les tables Iceberg au format de fichier Parquet et enregistrera les tables dans le catalogue de données AWS Glue.
Pour en savoir plus, consultez la documentation disponible ici. Pour commencer, accédez à SageMaker Studio depuis la console Amazon SageMaker.