Mise en route avec Amazon Machine Learning

Créez un compte gratuit

Profitez pendant 12 mois de l'offre gratuite AWS. Vous bénéficierez également du niveau de base d'AWS Support qui inclut un service client disponible 24h/24, 7j/7 et 365 jours par an, l'accès à des forums d'assistance et bien d'autres avantages.

Veuillez noter que Amazon Machine Learning n'est pas disponible actuellement pour le niveau gratuit d'AWS.

Q : Qu'est-ce qu'Amazon Machine Learning ?

Amazon Machine Learning est un service d'apprentissage-machine qui vous permet de créer facilement des applications prédictives, intégrant notamment la détection de fraude, la prévision de la demande et la prévision de clics. Amazon Machine Learning utilise des algorithmes puissants, qui peuvent vous aider à créer des modèles d'apprentissage-machine en trouvant des schémas contenus dans les données existantes, puis en utilisant ces schémas pour établir des prédictions à partir des nouvelles données au fur et à mesure de leur disponibilité. L'AWS Management Console et l'API associée intègrent des outils de visualisation de modèles et de données, ainsi que des assistants pour vous guider tout au long du processus de création de modèles d'apprentissage-machine. Ces outils mesurent la qualité des modèles et paramètrent les prédictions afin qu'elles répondent aux exigences de votre application. Une fois les modèles créés, vous pouvez générer des prédictions pour votre application en utilisant l'API simple d'utilisation, sans avoir à implémenter un code de génération de prédictions personnalisé ou à gérer une infrastructure. Amazon Machine Learning est un outil hautement évolutif, capable de générer des milliards de prédictions et de les délivrer en temps réel et à haut débit. Avec Amazon Machine Learning, il n'y a aucuns frais initiaux et vous payez en fonction de votre utilisation. Vous pouvez donc débuter modestement et dimensionner votre application au fur et à mesure qu'elle évolue.

Q : Que puis-je faire avec Amazon Machine Learning ?

Vous pouvez utiliser Amazon Machine Learning pour créer un large éventail d'applications prédictives. Par exemple, vous pouvez utiliser Amazon Machine Learning pour créer des applications qui signalent les transactions douteuses, détectent les commandes frauduleuses, prévoient la demande, personnalisent du contenu, prévoient l'activité des utilisateurs, filtrent les évaluations, fournissent des données relatives aux réseaux sociaux, analysent du texte libre et recommandent des articles.

Q : Qu'est-ce que l'apprentissage-machine ?

L'apprentissage-machine est une technologie qui vous permet d'utiliser des données d'historique pour prendre des décisions commerciales éclairées. Les algorithmes d'apprentissage-machine découvrent des schémas dans les données et développent à partir de ceux-ci des modèles mathématiques. Vous pouvez ensuite utiliser ces modèles pour établir des prévisions sur les données futures. Par exemple, l'apprentissage-machine peut détecter les transactions frauduleuses en se fondant sur des exemples d'achats passés qui ont réussi ou échoué.

Q : Comment commencer à utiliser Amazon Machine Learning ?

Le meilleur moyen de commencer à utiliser Amazon Machine Learning consiste à suivre le didacticiel proposé dans le manuel Amazon Machine Learning Developer Guide. À partir d'un exemple d'ensemble de données, ce didacticiel vous guide tout au long du processus de création, d'évaluation et d'utilisation d'un modèle d'apprentissage-machine, dans le but de formuler des prédictions. Après avoir suivi ce didacticiel, vous pouvez utiliser Amazon Machine Learning pour créer vos propres modèles d'apprentissage-machine. Pour en savoir plus, consultez le manuel Amazon Machine Learning Developer Guide, ainsi que le document Amazon Machine Learning API Reference.

Q : En quoi consistent les données de formation ?

Les données de formation sont utilisées pour créer des modèles d'apprentissage-machine. Elles contiennent des points de données connus du passé. Vous pouvez utiliser Amazon Machine Learning pour extraire des schémas de ces données, puis les utiliser pour créer des modèles d'apprentissage-machine.

Q : Qu'est-ce que l'attribut cible ?

L'attribut cible désigne un attribut spécial contenu dans les données de formation, qui contient les informations qu'Amazon Machine Learning tente de prévoir. Par exemple, imaginons que vous souhaitez créer un modèle qui prévoit si une transaction sera frauduleuse ou non. Vos données de formation contiennent des métadonnées relatives à une transaction passée, à laquelle est associé l'attribut « 1 » si la banque a refusé la transaction, ou l'attribut « 0 » si elle l'a acceptée. Amazon Machine Learning vous permet de découvrir des schémas qui relient l'attribut cible aux métadonnées de transaction (tous les autres attributs). Vous pouvez utiliser des modèles d'apprentissage-machine créés à partir de ces schémas pour établir une prédiction sans la présence de l'attribut cible. Le présent exemple vous montre comment prévoir si une transaction sera frauduleuse compte tenu de ses métadonnées, avant même de savoir si la banque l'aura refusée ou non.

Q : Quel algorithme Amazon Machine Learning utilise-t-il pour générer des modèles ?

Actuellement, Amazon Machine Learning utilise un algorithme de régression logistique conforme aux normes du secteur pour générer des modèles.

Q : Dans quelles régions le service Amazon Machine Learning est-il disponible ?

Pour obtenir la liste des régions AWS prenant en charge Amazon Machine Learning, veuillez consulter le tableau des régions AWS de toute l'infrastructure mondiale AWS.  Pour en savoir plus, consultez la section relative aux régions et points de terminaison du document AWS General Reference.

Q : Quelle est la disponibilité du service Amazon Machine Learning ?

Amazon Machine Learning est conçu pour offrir une haute disponibilité. Il n'y a ni fenêtres de maintenance ni arrêts programmés. L'API utilisée pour la formation de modèles, l'évaluation et la prédiction par lots fonctionne dans les centres de données fiables et hautement disponibles d'Amazon. En outre, cette API offre une réplication de piles de service configurée dans trois installations au sein de chaque région AWS, afin d'assurer une tolérance aux pannes en cas de panne du serveur ou au niveau de la zone de disponibilité.

Q : Quelles mesures de sécurité sont intégrées au service Amazon Machine Learning ?

Amazon Machine Learning garantit que les modèles d'apprentissage-machine et d'autres artefacts du système sont chiffrés en transit et au repos. Les requêtes sont envoyées à l'API et à la console d'Amazon Machine Learning par le biais d'une connexion sécurisée (SSL). Vous pouvez utiliser AWS Identity and Access Management (AWS IAM) pour contrôler les utilisateurs IAM pouvant accéder à des actions et ressources spécifiques du service Amazon Machine Learning.

Haut de la page >>

Q : Où puis-je stocker mes données ?

Vous pouvez utiliser Amazon Machine Learning pour lire vos données depuis trois banques de données : (a) un ou plusieurs fichiers dans Amazon S3, (b) les résultats d'une requête Amazon Redshift, ou (c) les résultats d'une requête Amazon Relational Database Service (RDS) lorsqu'elle est exécutée à partir d'une base de données fonctionnant avec le moteur MySQL. Les données issues d'autres produits peuvent en général être exportées sous forme de fichiers CSV dans Amazon S3 pour permettre à Amazon Machine Learning d'y accéder. Pour obtenir des instructions détaillées sur la configuration d'autorisations permettant à Amazon Machine Learning d'accéder aux banques de données prises en charge, consultez le manuel Amazon Machine Learning Developer Guide.

Q : Existe-t-il des limites concernant la taille de l'ensemble de données que je peux utiliser pour la formation ?

Amazon Machine Learning peut former des modèles sur des ensembles de données de 100 Go maximum.

Q : Comment puis-je savoir si mes données contiennent des erreurs ?

Vous pouvez utiliser Amazon Machine Learning pour détecter les erreurs de formatage dans vos données. La console du service Amazon Machine Learning vous fournit des informations sur les données, vous permettant ainsi de détecter les erreurs graves contenues dans vos données, comme des champs vides ou qui contiennent des valeurs inattendues. Amazon Machine Learning est capable de former des modèles d'apprentissage-machine et de générer des prédictions précises même en présence de ces deux types d'erreurs en faible quantité. De cette manière, vos requêtes fonctionneront même si certaines de vos données ne sont pas valides ou correctes.

Q : Que dois-je faire si mes données sont incomplètes ou si certaines informations sont manquantes ?

Il convient toujours de vérifier que vos données sont aussi complètes et précises que possible. Les algorithmes d'apprentissage intégrés à Amazon Machine Learning tolèrent la présence d'une faible quantité d'informations manquantes ou incomplètes, sans que cela n'affecte pour autant la qualité du modèle. Toutefois, la qualité du modèle se dégradera au fur et à mesure que le nombre d'erreurs augmente. Amazon Machine Learning cesse de traiter votre demande de formation de modèle si le nombre d'enregistrements dont le traitement échoue est supérieur à 10 000 ou à 10 % du nombre total d'enregistrements contenus dans l'ensemble de données, selon la première éventualité.

Pour corriger des informations incomplètes ou manquantes, vous devez accéder à la source de données principale, puis soit corriger les données contenues dans cette source, soit exclure les observations contenant des informations incomplètes ou manquantes des ensembles de données utilisés pour former des modèles Amazon Machine Learning. Par exemple, si vous constatez que certaines lignes d'une table Amazon Redshift contiennent des valeurs non valides, vous pouvez modifier la requête utilisée afin de sélectionner des données pour Amazon Machine Learning et d'exclure ces lignes.

Q : Comment puis-je savoir si mon modèle fournit des prédictions précises ?

Amazon Machine Learning intègre des fonctionnalités puissantes d'évaluation de modèles. Vous pouvez utiliser Amazon Machine Learning pour calculer une mesure d'évaluation conforme aux normes du secteur pour tous vos modèles et vous permettre de comprendre leur capacité de prédiction. Par ailleurs, vous pouvez utiliser Amazon Machine Learning pour garantir que l'évaluation du modèle est impartiale, en choisissant de masquer une partie des données de formation à des fins d'évaluation. Cette méthode vous permet de vous assurer que ce modèle n'est jamais évalué avec des points de données observés lors de la période de formation. La console du service Amazon Machine Learning met à votre disposition des outils puissants et faciles d'utilisation pour vous permettre de découvrir et de comprendre les résultats des évaluations de modèles.

Q : Comment puis-je ajuster mon modèle s'il ne fournit pas les résultats escomptés ?

Le meilleur moyen d'augmenter la qualité d'un modèle consiste à utiliser davantage de données de meilleure qualité pour le former. Pour améliorer la précision des prédictions fournies par votre modèle, vous pouvez appliquer les solutions suivantes : ajouter un plus grand nombre d'observations, ajouter des types d'informations supplémentaires (fonctionnalités) et transformer vos données pour optimiser le processus d'apprentissage (ingénierie de fonctionnalité). Vous pouvez utiliser Amazon Machine Learning pour créer de nombreux prototypes de modèles, et vous pouvez utiliser les processeurs de données intégrés à ce service pour créer plusieurs types courants d'ingénieries de fonctionnalité, comme la modification d'une ligne dans le langage intégré de la « recette ». En outre, Amazon Machine Learning peut automatiquement créer une recette de transformation de données suggérée à partir de vos données lorsque vous créez un nouvel objet de source de données pointant vers vos données. Cette recette sera automatiquement optimisée en fonction du contenu de vos données.

Amazon Machine Learning met également à votre disposition plusieurs paramètres pour ajuster le processus d'apprentissage : (a) la taille cible du modèle, (b) le nombre de passages à effectuer sur les données, et (c) le type et la quantité de régularisation à appliquer au modèle. Les paramètres par défaut d'Amazon Machine Learning fonctionnent bien avec de nombreuses tâches d'apprentissage-machine, mais ils peuvent être ajustés selon vos besoins grâce à la console ou à l'API du service.

Enfin, il est important de prendre en compte un aspect important de l'ajustement de modèles, à savoir la manière dont les prédictions générées par votre modèle d'apprentissage-machine sont interprétées par votre application, dans le but de les adapter de manière optimale à vos objectifs professionnels. Amazon Machine Learning vous aide à ajuster l'interprétation du score-seuil des modèles de classification binaire, vous permettant ainsi de prendre des décisions éclairées à l'égard des différentes erreurs qu'un modèle formé peut commettre. Par exemple, certaines applications tolèrent très bien les erreurs faussement positives, mais les erreurs faussement négatives ne sont pas du tout bénéfiques à votre activité. La console du service Amazon Machine Learning vous permet à juste titre d'ajuster le score-seuil pour vous adapter à cette exigence. Pour en savoir plus, consultez la section consacrée à l'évaluation des modèles d'apprentissage-machine du manuel Amazon Machine Learning Developer Guide.

Q : Puis-je exporter mes modèles en dehors d'Amazon Machine Learning ?

Non.

Q : Puis-je importer des modèles existants dans Amazon Machine Learning?

Non.

Q : Le service Amazon Machine Learning a-t-il besoin de créer une copie permanente de mes données pour créer des modèles d'apprentissage-machine ?

Non. Amazon Machine Learning a uniquement besoin d'un accès en lecture à vos données pour trouver et extraire les schémas de celles-ci, et pour les stocker dans des modèles d'apprentissage-machine. Les modèles d'apprentissage-machine ne constituent pas des copies de vos données. Lorsque vous accédez à des données stockées dans Amazon Redshift ou Amazon RDS, Amazon Machine Learning exporte les résultats de la requête dans un emplacement S3 de votre choix, puis les lit à partir d'Amazon S3. Vous conserverez l'entière propriété de cette copie temporaire de vos données, et vous pourrez la supprimer au terme de l'opération réalisée par Amazon Machine Learning.

Haut de la page >>

Q : Une fois que mon modèle est prêt, comment puis-je générer des prédictions pour mes applications ?

Vous pouvez utiliser Amazon Machine Learning pour extraire des prédictions de deux manières : en utilisant l'API par lots ou l'API en temps réel. L'API par lots est utilisée pour formuler une requête de prédictions pour un grand nombre d'enregistrements de données d'entrée. Cette API fonctionne hors ligne et fournit toutes les prédictions en une fois. L'API en temps réel est utilisée pour formuler des requêtes de prédictions pour les enregistrements de données d'entrée individuels. Elle renvoie immédiatement les prédictions. L'API en temps réel peut être utilisée à haut débit et générer simultanément plusieurs prédictions en réponse aux requêtes parallèles.

N'importe quel modèle d'apprentissage-machine créé avec Amazon Machine Learning peut être utilisé avec l'API par lots ou l'API en temps réel, c'est à vous de choisir. Ce choix dépend uniquement des exigences de votre application. En général, vous utilisez l'API par lots pour les applications qui fonctionnent grâce à des enregistrements de données de masse, et l'API en temps réel pour les applications interactives Web, mobiles et de bureau.

Q : À quelle vitesse l'API en temps réel d'Amazon Machine Learning génère-t-elle des prédictions ?

La plupart des requêtes de prédictions en temps réel renvoient une réponse dans un délai de 100 ms. Elles sont donc assez rapides pour convenir aux applications interactives Web, mobiles et de bureau. La durée exacte nécessaire à l'API en temps réel pour générer une prédiction varie en fonction de la taille de l'enregistrement des données d'entrée, et de la complexité de la « recette » du traitement des données associée au modèle d'apprentissage-machine qui génère les prédictions.

Q : Combien de requêtes d'API en temps réel concurrentes le service Amazon Machine Learning prend-il en charge ?

Chaque modèle d'apprentissage-machine activé pour les prédictions en temps réel est affecté à une URL de point de terminaison. Par défaut, vous pouvez demander jusqu'à 200 transactions par seconde (TPS) à partir de n'importe quel point de terminaison d'une prédiction en temps réel. Contactez le service clientèle si cette limite n'est pas suffisante pour répondre aux besoins de votre application.

Q : A quelle vitesse le service Amazon Machine Learning peut-il renvoyer des prédictions par lots ?

L'API de prédiction par lots est rapide et efficace. La durée nécessaire pour renvoyer les résultats de prédictions par lots dépend de plusieurs facteurs, notamment (a) la taille des données d'entrée, (b) la complexité de la « recette » du traitement de données associée au modèle d'apprentissage-machine qui génère les prédictions, et (c) le nombre d'autres tâches par lots (traitement de données, formation de modèles, évaluation et autres demandes de traitement par lots) exécutées simultanément sur votre compte. Par défaut, Amazon Machine Learning exécute simultanément jusqu'à cinq tâches par lot. Contactez le service clientèle si cette limite n'est pas suffisante pour répondre aux besoins de votre application.

Q : Comment puis-je contrôler les performances de mes prédictions ?

Il existe deux formes principales de contrôle des performances de vos prédictions : (a) le contrôle du volume du lot et du trafic des prédictions en temps réel, et (b) le contrôle de la qualité des modèles prédictifs.

Vous pouvez contrôler le volume du trafic de vos prédictions en consultant les mesures Amazon CloudWatch qui sont publiées par Amazon Machine Learning dans votre compte CloudWatch. Pour chaque identifiant de modèle d'apprentissage-machine ayant reçu des prédictions en temps réel ou par lots pendant la période de contrôle, Amazon Machine Learning publiera le nombre d'enregistrements de données pour lesquels les prédictions ont été générées avec succès, ainsi que le nombre d'enregistrements d'apprentissage-machine dont l'analyse a échoué et pour lesquels aucune prédiction n'a été générée.

Pour contrôler la qualité de votre modèle d'apprentissage-machine au fil du temps, il est recommandé de sauvegarder un échantillon d'enregistrements de données envoyé par votre application en vue de générer une prédiction, d'obtenir de vraies réponses (également appelées « cibles »), puis d'utiliser Amazon Machine Learning pour créer une évaluation de l'ensemble de données obtenu. Amazon Machine Learning calculera une mesure de qualité de modèle en comparant les cibles avec les prédictions générées. Si vous constatez que la qualité des mesures se dégrade au fil du temps, cela indique probablement que vous devez former un nouveau modèle à l'aide de nouveaux points de données, étant donné que les données utilisées à l'origine pour former un modèle sont obsolètes. Par exemple, si vous utilisez votre modèle d'apprentissage-machine pour détecter des transactions frauduleuses, vous constaterez peut-être que sa qualité se dégrade au fil du temps, en raison de l'émergence de nouvelles méthodes de fraude sur les transactions qui n'étaient pas connues au moment de la formation de votre modèle. Vous pouvez inverser cette tendance en formant un nouveau modèle d'apprentissage-machine, qui contient des exemples des dernières transactions frauduleuses. De cette manière, Amazon Machine Learning sera capable de trouver, entre autres, des modèles qui identifient ces transactions.

Haut de la page >>