Étiquetage de données automatique

Amazon SageMaker Ground Truth fournit l’étiquetage de données automatique à l’aide du machine learning. SageMaker Ground Truth sélectionnera d’abord un échantillon aléatoire de données et l’enverra à des humains pour qu’il soit étiqueté. Les résultats sont ensuite utilisés pour former un modèle d'étiquetage qui tente d'étiqueter automatiquement un nouvel échantillon de données brutes. Les étiquettes sont validées lorsque le modèle peut étiqueter les données avec un score de confiance égal ou supérieur au seuil que vous avez défini. Lorsque le score de confiance tombe en dessous de votre seuil, les données sont envoyées aux étiqueteurs humains. Certaines des données étiquetées par les humains sont utilisées pour générer un nouvel ensemble de données de formation pour le modèle d'étiquetage. Le modèle est automatiquement reformé pour améliorer sa précision. Ce processus se répète avec chaque échantillon de données brutes à étiqueter. Le modèle d'étiquetage devient de plus en plus capable d'étiqueter automatiquement les données brutes à chaque itération, et moins de données sont ainsi acheminées vers les humains. 

Flexibilité dans votre travail avec des professionnels de l'étiquetage

Amazon SageMaker Ground Truth prend en charge plusieurs choix d’étiquetage par des humains directement dans la console SageMaker Ground Truth. Vous pouvez utiliser votre équipe d'étiqueteurs privée pour les tâches d'étiquetage internes, en particulier pour le traitement des données devant rester au sein de votre organisation.

Si vous souhaitez utiliser un grand nombre d'étiqueteurs et que vos données ne contiennent pas d'informations confidentielles ou personnellement identifiables, vous avez accès à un effectif à la demande de plus de 500 000 contractants indépendants dans le monde entier, optimisé par Amazon Mechanical Turk. Mechanical Turk est un marché de production participative qui relie vos tâches d'étiquetage à une main-d'œuvre répartie pouvant effectuer ces tâches de manière virtuelle.

Vous pouvez également faire appel à un fournisseur tiers spécialisé dans l'étiquetage de données. Amazon a sélectionné ces fournisseurs pour qu’ils fournissent des étiquettes de haute qualité et suivent les processus de sécurité. Les services d'étiquetage de ces fournisseurs sont fournis via AWS Marketplace. Tous les détails pertinents sont fournis, y compris les prix et les commentaires des clients, pour vous aider à choisir le meilleur fournisseur pour vos besoins.

Instructions faciles pour l'étiquetage par des humains

Avec Amazon SageMaker Ground Truth, vous fournissez des conseils en matière d’étiquetage aux étiqueteurs humains afin de garantir la cohérence. Ces instructions détaillées sont disponibles pour les étiqueteurs au sein de leur interface d’étiquetage. Les instructions incluent des exemples visuels de bonnes et de mauvaises étiquettes pour aider les étiqueteurs à produire des étiquettes précises de haute qualité. Vous pouvez mettre à jour ces instructions à tout moment, ce qui facilite l'ajout de détails aux tâches pour lesquelles certains étiqueteurs se trompent ou l'ajustement des instructions en fonction de l'évolution de vos besoins. Un exemple d'instruction est présenté ci-dessous. 

SamurAI Instructions for Bounding Box

Utiliser des flux de travail pour simplifier les tâches d'étiquetage

Amazon SageMaker Ground Truth fournit des flux de travail d'étiquetage intégrés qui guident les étiqueteurs humains étape par étape dans l'exécution de tâches et leur fournissent des outils pour les aider à obtenir de bons résultats. Des flux de travail intégrés sont actuellement disponibles pour les travaux d'étiquetage de détection d'objet, de classification d'images, de classification de texte et de segmentation sémantique. 

En plus des flux de travail intégrés, SageMaker Ground Truth vous offre la possibilité de télécharger des flux de travail personnalisés. Un flux de travail personnalisé comprend une interface HTML et un algorithme d'amélioration de la précision, tous deux fournis par vous. L'interface HTML fournit aux étiqueteurs humains toutes les instructions et les outils nécessaires pour effectuer leur tâche d'étiquetage. L'algorithme d'amélioration de la précision est une fonction que vous écrivez pour indiquer à SageMaker Ground Truth comment évaluer la qualité des étiquettes fournies par les humains. L'algorithme est utilisé pour trouver un consensus sur ce qui est considéré « correct » lorsque les mêmes données sont fournies à plusieurs étiqueteurs humains, ainsi que pour identifier et désaccentuer les étiqueteurs qui tendent à fournir des données de mauvaise qualité. Vous téléchargez l'interface HTML et l'algorithme d'amélioration de la précision à l'aide de la console SageMaker Ground Truth. 

Détection d'objets

Vous pouvez utiliser le flux de travail du cadre de délimitation pour identifier et étiqueter des objets dans des images. Un cadre de délimitation est une cadre en deux dimensions dessiné autour d'un ou de plusieurs éléments d'une image. Les modèles de vision par ordinateur formés à partir d'images avec des cadres de délimitation étiquetés apprennent que les pixels dans le cadre correspondent à l'étiquette spécifiée. C'est un moyen très rapide et peu coûteux d'étiqueter des images. Toutefois, comme les cadres contiennent souvent des pixels non liés au sujet de l'étiquette, des données de formation plus volumineuses peuvent être nécessaires avant qu'un modèle n'atteigne une grande précision.

L'image ci-dessous montre l'interface du cadre de délimitation avec un exemple de tâche permettant d'identifier tous les chiens d'une image donnée. L'interface vous permet de spécifier des exemples clairs de bons et de mauvais cadres de délimitation pour vous aider à maintenir une précision élevée. Elle fournit également un lien vers l'ensemble complet d'instructions d'étiquetage et une interface utilisateur claire et simplifiée pour la création de cadres de délimitation. 

Bounding box

Classification d’image

La classification des images implique la catégorisation des images par rapport à un ensemble d'étiquettes prédéfini. La tâche diffère de la détection d'objet car toute l'image est étiquetée plutôt que des éléments individuels dans l'image. La classification des images est utile pour les modèles de détection de scène qui doivent prendre en compte le contexte complet de l'image. Par exemple, dans l'image ci-dessous, les étiqueteurs sont invités à identifier le sport pratiqué dans une image donnée. 

Image classification

Classification de texte

La classification de texte implique la catégorisation de chaînes de texte par rapport à un ensemble d'étiquettes prédéfini. La catégorisation du texte en différentes étiquettes est souvent utilisée pour les modèles de traitement du langage naturel (PNL) qui identifient des éléments tels que les sujets (par exemple, les descriptions de produits, les critiques de films), les entités (par exemple, les noms, les lieux, les dates) et les sentiments. 

Text classification

Segmentation sémantique

Pour un étiquetage avancé des images, vous pouvez utiliser la segmentation sémantique pour identifier les parties exactes d'une image correspondant à ce que votre modèle doit apprendre. La segmentation sémantique nécessite plus de temps et de compétences que les cadres de délimitation. Cependant, elle fournit des données d'apprentissage très nettes en étiquetant uniquement les pixels associés au sujet. Par exemple, la forme irrégulière d'une voiture dans une image peut être capturée précisément avec une segmentation sémantique, alors qu'une boîte englobante inclurait inévitablement des éléments d'arrière-plan non liés à la voiture car la boîte ne peut avoir que quatre côtés droits.

Semantic Segmentation

Intégration transparente dans Amazon SageMaker

Les jeux de données de formation créés avec SageMaker Ground Truth peuvent être facilement importés dans Amazon SageMaker pour être utilisés dans le développement de modèles et la formation. 

Amazon SageMaker facilite la création de modèles d'apprentissage automatique et les prépare pour la formation en vous fournissant tout ce dont vous avez besoin pour étiqueter vos données de formation rapidement et pour sélectionner et optimiser le meilleur algorithme et la meilleure structure pour votre application. Amazon SageMaker inclut des notebooks Jupyter hébergés qui simplifient l'exploration et la visualisation de vos données de formation stockées dans Amazon S3. Vous pouvez vous connecter directement aux données dans S3 ou utiliser AWS Glue pour déplacer les données depuis Amazon RDS, Amazon DynamoDB et Amazon Redshift vers S3 en vue de leur analyse dans votre notebook.

Pour vous aider à sélectionner votre algorithme, Amazon SageMaker inclut les algorithmes de Machine Learning les plus courants qui ont été préinstallés et optimisés pour proposer des performances jusqu'à 10 fois supérieures à celles qu'offre ailleurs l'exécution de ces algorithmes. Amazon SageMaker est également préconfiguré pour exécuter TensorFlow, Apache MXNet, PyTorch et Chainer dans des conteneurs Docker. Vous pouvez également télécharger ces conteneurs open source sur votre environnement local et utiliser le kit SDK Amazon SageMaker Python pour tester vos scripts en mode local avant d'utiliser Amazon SageMaker pour la formation ou l'hébergement de votre modèle en production. Vous avez aussi la possibilité d'utiliser votre framework.

Vous pouvez commencer la formation de votre modèle d'un simple clic dans la console Amazon SageMaker. Amazon SageMaker gère automatiquement l'ensemble de l'infrastructure sous-jacente et peut aisément s'adapter pour former les modèles à l'échelle du pétaoctet. Pour que le processus de formation soit encore plus rapide et plus simple, Amazon SageMaker peut automatiquement régler votre modèle afin d'obtenir la plus grande précision possible.

Une fois votre modèle entraîné et réglé, Amazon SageMaker facilite le déploiement en production afin que vous puissiez commencer à générer des prédictions concernant les données en temps réel ou par lot (ce processus est appelé « inférence »). Amazon SageMaker déploie votre modèle sur un cluster à évolutivité automatique d'instances ML Amazon SageMaker réparties sur plusieurs zones de disponibilité pour offrir de hautes performances et une disponibilité élevée. Amazon SageMaker inclut aussi des fonctionnalités de test A/B intégrées pour vous aider à tester votre modèle et à expérimenter différentes versions afin d'obtenir les meilleurs résultats.

Dans la mesure où Amazon SageMaker s'occupe de la lourde charge de Machine Learning, vous pouvez créer, former et déployer vos modèles de Machine Learning rapidement et facilement.

Product-Page_Standard-Icons_01_Product-Features_SqInk
En savoir plus sur la tarification d’Amazon SageMaker Ground Truth

Démarrage avec Amazon SageMaker Ground Truth sans engagement ou contrat à long-terme. Pour plus de détails, consultez la page de tarification Amazon SageMaker Ground Truth.

Product-Page_Standard-Icons_02_Sign-Up_SqInk
Créer gratuitement un compte

Obtenez un accès instantané à l'offre gratuite d'AWS. 

S'inscrire 
Product-Page_Standard-Icons_03_Start-Building_SqInk
Commencez à créer sur la console

Commencez à créer avec Amazon SageMaker Ground Truth dans AWS Management Console.

Se connecter