Amazon SageMaker Ground Truth Plus
Main-d'œuvre experte
Avec Amazon SageMaker Ground Truth Plus, l'étiquetage est effectué par une main-d'œuvre experte formée aux tâches de machine learning (ML) qui peuvent vous aider à répondre à vos exigences en matière de sécurité, de confidentialité et de conformité de vos données. Par exemple, si vous avez besoin de personnes compétentes en matière d'étiquetage de fichiers audio, vous pouvez spécifier cette exigence dans les directives que vous fournissez à SageMaker Ground Truth Plus, et le service sélectionnera automatiquement les étiqueteurs possédant ces compétences.
Gestion de l'étiquetage des données de bout en bout
Avec Amazon SageMaker Ground Truth Plus, vous pouvez facilement créer des jeux de données d'entraînement de haute qualité sans créer des applications de labellisation ou gérer la main-d'œuvre de labellisation par vous-même. Vous pouvez charger des données avec les exigences d'étiquetage dans Amazon S3. Une fois que vous avez chargé les données, SageMaker Ground Truth Plus se charge de configurer les flux d'étiquetage des données et de les exploiter en votre nom.
Techniques d'étiquetage de ML
Amazon SageMaker Ground Truth Plus utilise les techniques de ML, notamment l'apprentissage actif, le pré-étiquetage et la validation automatique, qui permettent d'améliorer la qualité du jeu de données en sortie et de réduire les coûts d'étiquetage des données. Un flux d'étiquetage à plusieurs étapes inclut les modèles ML pour l'apprentissage actif. Ces modèles permettent à Ground Truth Plus de réduire les coûts en sélectionnant les objets (qui peuvent être une image, un enregistrement audio, une section de texte, etc.) qui doivent être étiquetés, ainsi que de réduire l'effort humain grâce au pré-étiquetage par les modèles ML des données sélectionnées. Ground Truth Plus utilise la validation automatique pour identifier les erreurs potentielles qui sont envoyées pour un cycle supplémentaire de vérification par un humain. Cela améliore significativement la qualité des étiquettes en détectant les erreurs humaines. De plus, Ground Truth Plus utilise également des fonctions d'aide à l'étiquetage telles que « instantanés cubiques 3D automatiques », « prédiction du prochain élément dans l'étiquetage vidéo » et « segmentation automatique », via une interface utilisateur intuitive pour réduire le temps nécessaire aux tâches d'étiquetage des données tout en améliorant aussi la qualité.
Tableaux de bord interactifs
SageMaker Ground Truth Plus fournit des tableaux de bord interactifs et des interfaces utilisateur. Ce processus vous permet donc d'examiner la progression des jeux de données d'entraînement sur plusieurs projets, de suivre les métriques du projet telles que le débit quotidien, d'inspecter les étiquètes pour en vérifier la qualité et de fournir des commentaires sur les données étiquetées.
Amazon SageMaker Ground Truth
Nuages de points 3D | Vidéo | Images | Texte | Flux personnalisés | Main d'œuvre | Génération de données de synthèse
Nuages de points 3D
Les nuages de points 3D sont souvent capturés avec des appareils de détection et le repérage par la lumière (Light Detection and Ranging, LIDAR) afin de générer une présentation 3D d'un espace physique à un moment donné. SageMaker Ground Truth prend en charge des processus d'étiquetage intégrés pour vos données de nuages de points 3D, y compris la détection d'objets, le suivi d'objets et la segmentation sémantique.
Détection d'objets
Avec le flux de détection d'objets, vous pouvez identifier et étiqueter les objets qui vous intéressent au sein d'un nuage de points 3D. Par exemple, dans le cas d'utilisation d'un véhicule autonome, vous pouvez étiqueter avec précision les véhicules, les voies et les piétons.

Suivi d'objets
Avec le système de suivi d'objets, vous pouvez suivre la trajectoire des objets qui vous intéressent. Par exemple, un véhicule autonome doit suivre le mouvement des autres véhicules, des autres voies et des autres piétons. Ground Truth vous permet de suivre la trajectoire de ces objets sur une séquence de données de nuage de points en 3D.

Segmentation sémantique
Avec le système de segmentation sémantique, vous pouvez segmenter les points d'un nuage de points 3D en catégories spécifiées à l'avance. Par exemple, dans le cas des véhicules autonomes, Ground Truth peut catégoriser la présence de rues, de feuillage et de structures.

Vidéo
SageMaker Ground Truth prend en charge les cas d'utilisation fréquents d'étiquetage de données vidéo avec des flux de travail intégrés, dont la détection et le suivi d'objets vidéo et la classification de clips vidéo.
Détection d'objets vidéo
Avec le système de détection d'objets vidéo, vous pouvez identifier des objets qui vous intéressent dans une séquence d'images vidéo. Par exemple, dans le cas du développement d'un système de perception pour véhicule autonome, vous pouvez détecter les autres véhicules dans la scène autour du véhicule concerné.

Suivi d'objets vidéo
Avec le système de suivi d'objets vidéo, vous pouvez suivre des objets qui vous intéressent dans une séquence d'images vidéo. Par exemple, dans le cas d'un match sportif, vous pouvez étiqueter précisément les joueurs pendant toute la durée d'une séquence de jeu.

Classification de clips vidéo
Avec le système de classification de clips vidéo, vous pouvez classer un fichier vidéo dans une catégorie préalablement spécifiée. Par exemple, vous pouvez sélectionner des catégories préalablement spécifiées qui décrivent au mieux la vidéo concernée, comme une rencontre sportive ou des embouteillages à un carrefour.

Images
SageMaker Ground Truth fournit des processus d'étiquetage intégrés pour vos données d'images, y compris la classification d'image, la détection d'objets et la segmentation sémantique.
Classification d'image
La classification d'image est le processus qui permet d'identifier une image en fonction de sa représentation dans le monde réel. Ce processus implique la catégorisation des images par rapport à un ensemble d'étiquettes prédéfini. La classification d'images est utile pour les modèles de détection de scènes qui doivent prendre en compte le contexte complet de l'image. Par exemple, nous pouvons créer un modèle de classification d'images qui permet aux véhicules autonomes de détecter divers objets concrets comme d'autres véhicules, des piétons, les feux tricolores et la signalisation.

Détection d'objets
Vous pouvez utiliser le système de détection d'objets pour identifier et étiqueter les objets qui vous intéressent (par exemple, les véhicules, les piétons, les chiens et les chats) en image. La tâche d'étiquetage implique de tracer un cadre de délimitation, un cadre en deux dimensions (2D) autour des objets qui vous intéressent dans une image. Les modèles de vision par ordinateur entraînés à partir d'images avec des cadres de délimitation étiquetés apprennent que les pixels dans le cadre correspondent à l'objet spécifié.

Segmentation sémantique
Vous pouvez utiliser le système de segmentation sémantique pour identifier les parties exactes d'une image correspondant aux étiquettes que votre modèle doit apprendre. Il fournit des données d'entraînement de haute précision, car chaque pixel est étiqueté. Par exemple, la segmentation sémantique pourra capturer exactement la forme irrégulière d'une voiture dans une image.

Texte
SageMaker Ground Truth fournit des systèmes d'étiquetage intégrés pour vos données textuelles, y compris la classification du texte et la reconnaissance d'entités nommées.
Classification de texte
La classification de texte implique la catégorisation de chaînes de texte par rapport à un ensemble d'étiquettes prédéfini. La catégorisation du texte en différentes étiquettes est souvent utilisée pour les modèles de traitement du langage naturel (PNL) qui identifient des éléments tels que les sujets (par exemple, les descriptions de produits, les critiques de films) ou les sentiments.

Reconnaissance d'entités nommées
Une entité nommée (EN) implique de basculer entre les données textuelles pour repérer des expressions intitulées entités nommées et de catégoriser chacune avec une étiquette comme « personne », « organisation » ou « marque ». Ainsi, dans l'énoncé « Je me suis récemment abonné à Amazon Prime », « Amazon Prime » est l'entité nommée et pourra être catégorisée comme « marque ».

Flux de travail personnalisés
Vous pouvez créer vos propres flux de travail d'étiquetage dans Ground Truth. Un flux de travail personnalisé inclut trois composants : (1) un modèle d'interface utilisateur qui fournit des étiqueteurs humains avec toutes les instructions et les outils nécessaires pour compléter la tâche d'étiquetage, (2) toute logique de pré-processus contenue dans une fonction AWS Lambda et (3) toute logique de post-processus contenue dans une fonction AWS Lambda. Une sélection importante de modèles d'interface utilisateur est disponible. Vous pouvez également charger votre propre modèle Javascript/HTML. La fonction Lambda de pré-processus peut servir à étiqueter les données et ajouter tout contexte supplémentaire pour l'étiqueteur et la fonction Lambda de post-processus peut être utilisée pour insérer un algorithme d'amélioration de la précision. L'algorithme peut évaluer la qualité des annotations effectuées par les humains ou peut trouver un consensus sur ce qui est « correct » lorsque les mêmes données sont fournies à plusieurs étiqueteurs humains. Vous pouvez charger l'ensemble des trois composants à l'aide de la console SageMaker Ground Truth.

Main-d'œuvre
SageMaker Ground Truth vous offre plusieurs choix de mains d'œuvre humaine pour étiqueter vos données : (1) vos propres employés, (2) des fournisseurs de service d'étiquetage des données tiers disponibles via AWS Marketplace et (3) une main-d'œuvre publique participative via Amazon Mechanical Turk.



Génération de données de synthèse


Démarrez avec Amazon SageMaker Data Labeling sans engagement initial ni contrat à long terme.

Commencez à créer avec Amazon SageMaker Data Labeling dans la console de gestion AWS.