Amazon SageMaker Feature Store

Un référentiel entièrement géré pour les caractéristiques de machine learning

Amazon SageMaker Feature Store est un référentiel entièrement géré et spécialement conçu pour stocker, mettre à jour, récupérer et partager des caractéristiques de machine learning (ML).

Les caractéristiques sont les attributs ou les propriétés que les modèles utilisent pendant l'entraînement et l'inférence pour faire des prédictions. Par exemple, dans une application de ML qui recommande une liste de lecture musicale, les caractéristiques pourraient inclure le classement des chansons, les chansons qui ont été écoutées précédemment et leur durée d'écoute. La précision d'un modèle ML repose sur un ensemble et une composition précis de caractéristiques. Souvent, ces caractéristiques sont utilisées de manière répétée par plusieurs équipes qui entraînent plusieurs modèles. Et quel que soit l'ensemble de caractéristiques utilisé pour entraîner le modèle, il doit être disponible pour faire des prédictions en temps réel (inférence). Maintenir une source unique de caractéristiques qui soit cohérente et à jour pour ces différents scénarios d'accès est un défi car la plupart des organisations conservent deux magasins de caractéristiques différents, l'un pour l'entraînement et l'autre pour l'inférence.

Amazon SageMaker Feature Store est un référentiel spécialement conçu pour vous permettre de stocker et d'accéder à des caractéristiques afin de les nommer, de les organiser et de les réutiliser au sein des équipes. SageMaker Feature Store fournit un magasin unifié pour les caractéristiques pendant l'entraînement et l'inférence en temps réel sans qu'il soit nécessaire d'écrire du code supplémentaire ou de créer des processus manuels pour maintenir la cohérence des caractéristiques. SageMaker Feature Store garde une trace des métadonnées des caractéristiques stockées (par exemple, nom de caractéristique ou numéro de version) afin que vous puissiez interroger les caractéristiques pour les bons attributs, par lots ou en temps réel, en utilisant Amazon Athena, un service de requête interactif. SageMaker Feature Store maintient également les fonctions à jour, car à mesure que de nouvelles données sont générées pendant l'inférence, le référentiel unique est mis à jour afin que les nouvelles fonctions soient toujours disponibles pour les modèles puissent les utiliser pendant l'entraînement et l'inférence.

Présentation et démonstration de SageMaker Feature Store (21:54)

Fonctions principales

Ingérer des données provenant de nombreuses sources

Il existe de nombreuses façons d'ingérer des caractéristiques dans Amazon SageMaker Feature Store. Vous pouvez utiliser des sources de données diffusées en streaming comme Amazon Kinesis Data Firehose. Vous pouvez également créer des caractéristiques dans des outils de préparation de données tels que Amazon SageMaker Data Wrangler, et les stocker directement dans SageMaker Feature Store en quelques clics.

Rechercher et découverte

Amazon SageMaker Feature Store balise et indexe les caractéristiques afin qu'elles soient facilement découvrables via une interface visuelle dans SageMaker Studio. La consultation du catalogue de caractéristiques permet aux équipes de mieux comprendre les caractéristiques et de déterminer si une caractéristique est utile pour un modèle particulier.

Assurer la cohérence des caractéristiques

Amazon SageMaker Feature Store permet de garantir que les modèles effectuent des prédictions précises en mettant à disposition les mêmes caractéristiques pour l'entraînement et pour l'inférence. L'entraînement et l'inférence sont des cas d'utilisation très différents et les exigences de stockage sont différentes pour chacun. SageMaker Feature Store répond à ces deux exigences. Pendant l'entraînement, les modèles utilisent un ensemble complet de données, ce qui prend souvent des heures, alors que l'inférence doit se faire en quelques millisecondes et nécessite généralement un sous-ensemble de données. Par exemple, dans un modèle qui prédit la prochaine meilleure chanson d'une liste de lecture, vous entraînez le modèle sur des milliers de chansons, mais pendant l'inférence, SageMaker Feature Store n'accède qu'aux trois dernières chansons pour prédire la prochaine. SageMaker Feature Store permet aux modèles d'accéder au même ensemble de caractéristiques pour les exécutions d'entraînement (qui sont généralement effectuées hors ligne et par lots) et pour l'inférence en temps réel.

Normalisation des caractéristiques

Il est courant de voir des définitions différentes pour des caractéristiques similaires dans une même entreprise. Par exemple, « température » pourrait être définie en degrés Celsius ou Fahrenheit ou « dates » pourrait être représentée par date-mois-année ou mois-date-année. Amazon SageMaker Feature store élimine la confusion au sein des équipes en stockant les définitions des caractéristiques dans un seul référentiel afin de clarifier la manière dont chaque caractéristique est définie. Le fait d'avoir des caractéristiques clairement définies facilite leur réutilisation pour différentes applications.

Intégrer avec Amazon SageMaker Pipelines

Amazon SageMaker Feature Store s'intègre à Amazon SageMaker Pipelines pour créer, ajouter la fonction recherche et découverte de caractéristiques, et réutiliser les flux de travail automatisés de machine learning. Par conséquent, il est facile d'ajouter la fonction de recherche, de découverte et de réutilisation de caractéristiques à votre flux de travail de ML.

Clients

The Climate Corporation
« Chez Climate, nous croyons qu'il est important de fournir aux agriculteurs du monde entier des informations précises pour qu'ils puissent prendre des décisions fondées sur des données et maximiser leur rendement sur chaque hectare. Pour y parvenir, nous avons investi dans des technologies telles que les outils de machine learning pour créer des modèles utilisant des entités mesurables connues sous le nom de caractéristiques, telles que le rendement du champ d'un agriculteur. Avec Amazon SageMaker Feature Store, nous pouvons accélérer le développement des modèles de ML grâce à un magasin de caractéristiques central permettant d'accéder aux caractéristiques et de les réutiliser facilement par plusieurs équipes. SageMaker Feature Store permet d'accéder facilement aux caractéristiques en temps réel en utilisant le boutique en ligne ou d'exécuter les caractéristiques selon un calendrier en utilisant le magasin hors ligne pour différents cas d'utilisation. Avec le SageMaker Feature Store, nous pouvons développer des modèles de ML plus rapidement. »

Daniel McCaffrey, vice-président, Data and Analytics, Climate

Intuit
« Nous avons choisi de créer la nouvelle plateforme de machine learning d'Intuit sur AWS en 2017, en combinant les puissantes capacités d'Amazon SageMaker pour le développement de modèles, l'entraînement et l'hébergement avec les capacités propres à Intuit en matière d'orchestration et d'ingénierie des caractéristiques. En conséquence, nous avons réduit considérablement le cycle de développement de nos modèles. Ce qui prenait auparavant six mois complets prend maintenant moins d'une semaine, ce qui nous permet d'intégrer les capacités d'IA dans nos produits TurboTax, QuickBooks et Mint à un rythme considérablement accéléré. Nous avons travaillé en étroite collaboration avec AWS avant la sortie d'Amazon SageMaker Feature Store et nous sommes enthousiasmés par la perspective d'un magasin de caractéristiques entièrement géré, de sorte que nous n'ayons plus à gérer de multiples référentiels de caractéristiques à travers notre organisation. Nos scientifiques des données pourront utiliser les caractéristiques existantes à partir d'un magasin central et favoriser à la fois la normalisation et la réutilisation des caractéristiques à travers les équipes et les modèles. »

Mammad Zadeh, vice-président de l'ingénierie d'Intuit, Data Platform

Experian
« Chez Experian, nous pensons qu'il est de notre responsabilité de donner aux consommateurs les moyens de comprendre et d'utiliser le crédit dans leur vie financière et d'aider les prêteurs à gérer le risque de crédit. Alors que nous continuons à mettre en œuvre les bonnes pratiques pour créer nos modèles financiers, nous recherchons des solutions qui accélèrent la production de produits qui tirent parti du machine learning. Amazon SageMaker Feature Store nous offre un moyen sécurisé de stocker et de réutiliser les caractéristiques de nos applications de ML. La capacité à maintenir la cohérence des applications en temps réel et par lots sur plusieurs comptes est une exigence clé pour notre activité. L'utilisation des nouvelles fonctionnalités d'Amazon SageMaker Feature Store nous permet de donner à nos clients les moyens de prendre le contrôle de leur crédit et de réduire les coûts dans la nouvelle économie. »

Geoff Dzhafarov, architecte d'entreprise en chef, Experian Consumer Services

« Chez DeNA, notre mission est de produire un impact et un plaisir en utilisant l'Internet et l'IA/ML. Fournir des services à valeur ajoutée est notre objectif principal et nous voulons nous assurer que nos entreprises et nos services sont prêts à atteindre ce but... Nous aimerions découvrir et réutiliser des caractéristiques dans toute l'organisation et Amazon SageMaker Feature Store nous aide en nous proposant un moyen facile et efficace de réutiliser des caractéristiques pour différentes applications. Amazon SageMaker Feature Store nous aide également à maintenir des définitions de caractéristiques standard et nous aide avec une méthodologie cohérente lorsque nous entraînons des modèles et les déployons en production. Avec ces nouvelles fonctionnalités d'Amazon SageMaker, nous pouvons entraîner et déployer les modèles de ML plus rapidement, ce qui nous permet de continuer à satisfaire nos clients avec les meilleurs services. »

Kenshin Yamada, directeur général / AI System Dept System Unit, DeNA

Care.com
« Une industrie des soins forte où l'offre correspond à la demande est essentielle pour la croissance économique, de la famille individuelle jusqu'au PIB de la nation. Nous sommes enthousiasmés par Amazon SageMaker Feature Store car nous pensons qu'il nous aidera à mieux dimensionner nos équipes de science des données et de développement, en utilisant un ensemble cohérent de données organisées. Avec les nouvelles fonctionnalités annoncées d'Amazon SageMaker, nous pouvons accélérer le développement et le déploiement de nos modèles de ML pour différentes applications, aidant ainsi nos clients à prendre des décisions plus éclairées grâce à des recommandations en temps réel plus rapides. »

Clemens Tummeltshammer, responsable des sciences des données, Care.com

« Avec le ML, 3M améliore les produits essayés et testé, tels que le papier de verre, et encourage l’innovation dans plusieurs autres domaines, tels que celui de la santé. Alors que nous planifions d’instaurer le machine learning dans d’autres secteurs de 3M, nous voyons la quantité de données et de modèles augmenter rapidement, doubler chaque année. Nous avons hâte de découvrir les nouvelles fonctionnalités SageMaker parce que nous savons qu’elles nous aideront à nous mettre à l’échelle. Amazon SageMaker Data Wrangler simplifie la préparation des données destinées aux modèles d’entraînement et Amazon SageMaker Feature Store éliminera le besoin de créer encore et toujours les mêmes fonctionnalités de modèle. Enfin, Amazon SageMaker Pipelines nous aidera à automatiser la préparation de données, la création de modèles et le déploiement des modèles dans un flux de travail complet pour que la commercialisation de nos modèles se fasse plus rapidement. Chez 3M, nos chercheurs attendent avec impatience de pouvoir profiter de la nouvelle rapidité de la science. »

David Frazee, directeur technique chez 3M Corporate Systems Research Lab

Blog AWS Machine Learning

Build accurate ML training datasets using point-in-time queries with Amazon SageMaker Feature Store and Apache Spark

Lire le blog »

Blog AWS Machine Learning

Automate feature engineering pipelines with Amazon SageMaker

Lire le blog »

Blog AWS Machine Learning

Enable feature reuse across accounts and teams using Amazon SageMaker Feature Store

Lire le blog »

Blog AWS Machine Learning

Understanding the key capabilities of Amazon SageMaker Feature Store

Lire le blog »

Blog AWS Machine Learning

Utiliser l'ingestion en continu avec Amazon SageMaker Feature Store pour prendre des décisions soutenues par le ML en temps quasi réel

Lire le blog »

Blog des actualités AWS

Nouveau – Stocker, découvrir et partager les caractéristiques de machine learning avec Amazon SageMaker Feature Store

Lire le blog »

Démarrer avec Amazon SageMaker Feature Store