Fonctionnalités d'Amazon SageMaker Ground Truth
Utilisez des données générées par l’humain en vue de personnaliser les FM sur des tâches spécifiques ou avec des données de l’entreprise et du secteur.
Réglage fin supervisé
Grâce à l’apprentissage supervisé, les modèles reçoivent des exemples concrets de résultats souhaités. Ces exemples sont appelés données de démonstration et permettent à un modèle d’apprendre à répondre et à réagir aux demandes futures et invisibles des utilisateurs. Avec SageMaker Ground Truth Plus, une équipe AWS d’annotateurs spécialisés peut générer des données de démonstration de haute qualité en fonction de vos instructions spécifiques. Parmi les exemples de données de démonstration, citons les sous-titres sur les images et les vidéos, les résumés de texte, les réponses aux questions, etc. Les données de démonstration peuvent servir à personnaliser un FM existant en fonction de votre cas d’utilisation ou à affiner un modèle que vous créez à partir de zéro.
- Questions et réponses : à l’aide de paires questions-réponses, vous pouvez préparer des jeux de données de démonstration qui entraînent votre grand modèle de langage afin qu’il puisse répondre à des questions.
- Sous-titrage d’image : le sous-titrage d’image vous permet de préparer des jeux de données qui décrivent la scène et les objets d’une image de manière très détaillée afin d’entraîner des modèles de conversion de texte en image afin qu’ils créent des images précises et créatives correspondant à vos intentions. Il peut également être utilisé pour entraîner des modèles de conversion d’image en texte afin de produire une description précise de la scène imagée.
- Sous-titrage vidéo : grâce au sous-titrage vidéo, vous pouvez préparer des jeux de données qui décrivent les actions et la scène d’une vidéo de manière très détaillée afin d’entraîner des modèles de conversion de texte en vidéo. Les données d’entraînement de sous-titrage vidéo de haute qualité permettent de créer des vidéos plus précises et créatives qui correspondent à vos objectifs. Elles peuvent également être utilisées pour entraîner des modèles de conversion vidéo en texte afin de donner une description précise de la vidéo.
Apprentissage par renforcement à partir de rétroaction humaine (RLHF)
Dans le cadre de l’apprentissage par renforcement à partir de rétroaction humaine (RLHF), un annotateur de données peut émettre directement des commentaires et des conseils sur les résultats générés par un modèle en classant ses réponses. Les données, appelées données de comparaison et de classement, sont ensuite utilisées pour entraîner le modèle. Comme exemple de données de comparaison et de classement, citons le classement des réponses textuelles de la meilleure à la pire en fonction de critères tels que la précision, la pertinence ou la clarté. Les données de comparaison et de classement peuvent servir à personnaliser un FM existant en fonction de votre cas d’utilisation ou à affiner un modèle que vous créez à partir de zéro.
Sélection du modèle le mieux adapté à votre cas d’utilisation grâce à une évaluation humaine
Évaluation du modèle
Tirez parti des commentaires humains pour évaluer et comparer les résultats des modèles par rapport à une liste personnalisable de critères auxquels vous accordez le plus d’importance (tels que la précision, la pertinence, la toxicité, le biais, la voix de la marque et le style) et sélectionnez le modèle le mieux adapté à votre cas d’utilisation. AWS vous propose différentes méthodes pour démarrer rapidement l’évaluation du modèle. Vous pouvez faire appel à une équipe gérée par AWS pour évaluer, comparer et sélectionner des modèles par le biais de SageMaker Ground Truth. Vous pouvez désormais également accéder aux fonctionnalités d’évaluation du modèle via SageMaker Studio, SageMaker Jumpstart et Amazon Bedrock, et permettre à vos équipes internes de commencer à évaluer des modèles en quelques clics.
Red Teaming
Essayez délibérément de provoquer des réactions nuisibles à partir d’un modèle et examinez systématiquement ses résultats pour découvrir les vulnérabilités, afin d’améliorer la sécurité, la robustesse et la fiabilité globales.
Création de jeux de données étiquetés de haute qualité pour l’entraînement de modèles
Modèles d’étiquetage prédéfinis
Avec SageMaker Ground Truth, vous pouvez utiliser plus de 30 flux de travail d’étiquetage spécialement conçus pour de multiples cas d’utilisation d’annotations dans des images, des données, des vidéos, du texte et des nuages de points 3D.
- Classification d’images : le flux de travail de classification d’images vous permet de classer les images en fonction d’un ensemble prédéfini d’étiquettes. La classification d’images est utile pour les modèles de détection de scènes qui doivent prendre en compte le contexte complet de l’image. Par exemple, nous pouvons générer un modèle de classification d’images.
- Détection d’objets images : vous pouvez utiliser le flux de travail de détection d’objets pour identifier et étiqueter les objets qui vous intéressent (par exemple, les véhicules, les piétons, les chiens et les chats) en image. La tâche d’étiquetage implique de tracer un cadre de délimitation, un cadre en deux dimensions (2D) autour des objets qui vous intéressent dans une image. Les modèles de vision par ordinateur entraînés à partir d’images avec des cadres de délimitation étiquetés apprennent que les pixels dans le cadre correspondent à l’objet spécifié.
- Segmentation sémantique des images : vous pouvez utiliser le flux de travail de segmentation sémantique pour identifier les parties exactes d’une image correspondant aux étiquettes que votre modèle doit apprendre. Il fournit des données d’entraînement de haute précision, car chaque pixel est étiqueté. Par exemple, la segmentation sémantique pourra capturer exactement la forme irrégulière d’une voiture dans une image.
- Détection d’objets vidéo : le flux de travail de détection d’objets vidéo vous permet d’identifier les objets qui vous intéressent dans une séquence d’images vidéo. Par exemple, dans le cas du développement d’un système de perception pour véhicule autonome, vous pouvez détecter les autres véhicules dans la scène autour du véhicule concerné.
- Suivi d’objets vidéo : avec le flux de travail de suivi d’objets vidéo, vous pouvez suivre des objets qui vous intéressent dans une séquence d’images vidéo. Par exemple, dans le cas d’un match sportif, vous pouvez étiqueter précisément les joueurs pendant toute la durée d’une séquence de jeu.
- Classification de clips vidéo : avec le flux de travail de classification de clips vidéo, vous pouvez classer un fichier vidéo dans une catégorie préalablement spécifiée. Par exemple, vous pouvez sélectionner des catégories préalablement spécifiées qui décrivent au mieux la vidéo concernée, comme une rencontre sportive ou des embouteillages à un carrefour.
- Classification de texte : la classification de texte implique la catégorisation de chaînes de texte par rapport à un ensemble d’étiquettes prédéfini. Elle est souvent utilisée pour les modèles de traitement du langage naturel (PNL) qui identifient des éléments tels que les sujets (par exemple, les descriptions de produits, les critiques de films) ou les sentiments.
- Reconnaissance d’entités nommées : une entité nommée (EN) implique de basculer entre les données textuelles pour repérer des expressions intitulées entités nommées et de catégoriser chacune avec une étiquette comme « personne », « organisation » ou « marque ».
- Détection d’objets de nuage de points 3D : avec le flux de travail de détection d’objets, vous pouvez identifier et étiqueter les objets qui vous intéressent au sein d’un nuage de points 3D. Par exemple, dans le cas d’utilisation d’un véhicule autonome, vous pouvez étiqueter avec précision les véhicules, les voies et les piétons.
- Suivi d’objets de nuage de points 3D : avec le flux de travail de suivi d’objets, vous pouvez suivre la trajectoire des objets qui vous intéressent. Par exemple, un véhicule autonome doit suivre le mouvement des autres véhicules, des autres voies et des autres piétons.
- Segmentation sémantique de nuage de points 3D : avec le flux de travail de segmentation sémantique, vous pouvez segmenter les points d’un nuage de points 3D en catégories spécifiées à l’avance. Par exemple, dans le cas des véhicules autonomes, Ground Truth peut catégoriser la présence de rues, de feuillage et de structures.
Flux de travail personnalisés
SageMaker Ground Truth vous permet de créer vos propres flux de travail d’étiquetage personnalisés. Un flux de travail comprend : (1) un modèle d’interface utilisateur qui fournit aux étiqueteurs humains des instructions et des outils pour réaliser la tâche d’étiquetage. Une sélection importante de modèles d’interface utilisateur est disponible. Vous pouvez également charger votre propre modèle Javascript/HTML. (2) Toute logique de traitement préalable encapsulée dans une fonction AWS Lambda. La fonction Lambda peut servir à étiqueter les données avec tout contexte supplémentaire pour l’étiqueteur, et (3) Toute logique de post-traitement encapsulée dans une fonction AWS Lambda, à utiliser pour ajouter un algorithme d’amélioration de la précision. L’algorithme peut évaluer la qualité des annotations effectuées par les humains ou peut trouver un consensus sur ce qui est « correct » lorsque les mêmes données sont fournies à plusieurs étiqueteurs humains.
Assurance qualité et consensus
SageMaker Ground Truth vous permet de vérifier la qualité des tâches d’annotation en mettant en œuvre des étapes d’assurance qualité telles que la configuration de flux de travail d’approbation, la révision et la modification des annotations, le routage des tâches, l’exploitation de la validation automatique et le suivi des métriques de qualité. Vous pouvez également créer un consensus au sein de votre flux de travail pour convenir du niveau de précision des données en utilisant des algorithmes pour router les révisions de tâches vers plusieurs personnes.
Sélection de l’option de main-d’œuvre qui vous convient
Que vous souhaitiez qu’AWS gère une main-d’œuvre en votre nom ou que vous souhaitiez tirer parti d’une main-d’œuvre interne existante, SageMaker Ground Truth propose des options et de la flexibilité.
Main-d’œuvre gérée par AWS
SageMaker Ground Truth Plus peut recruter et gérer pour vous une main-d’œuvre évolutive et experte du domaine. Par exemple, vous pouvez avoir besoin d’une équipe expérimentée dans l’étiquetage de fichiers audio ou possédant des compétences linguistiques spécifiques. Pour les cas d’utilisation plus avancés, il se peut que vous ayez besoin d’une équipe de travail capable de générer du contenu écrit pour les données de démonstration. AWS peut recruter, engager, entraîner et gérer des équipes de toutes tailles pour des projets de durée variable aux quatre coins du monde. Une main-d’œuvre gérée par AWS peut répondre à vos exigences en matière de sécurité, de confidentialité et de conformité.
Main-d’œuvre privée interne
Si vous disposez déjà d’une équipe interne chargée des opérations de données, elle peut tirer parti des outils et des flux de travail de SageMaker Ground Truth pour annoter les données dans les cas d’utilisation les plus variés. C’est une option si vous préférez l’expertise de votre propre équipe ou si vous avez certaines exigences en matière de confidentialité des données.
Votre fournisseur de prédilection
Vous pouvez sélectionner un fournisseur d’annotations préféré sur AWS Marketplace pour effectuer vos tâches dans SageMaker Ground Truth. Cela permet de réduire le travail manuel lié à la recherche de travailleurs individuels et à la constitution d’une équipe.
Version participative
La production participative (Crowdsourcing) de votre travail d’annotation via Amazon Mechanical Turk peut constituer une approche rentable et évolutive pour les projets à petite et à grande échelle. Vous pouvez accéder à un grand nombre de travailleurs répartis géographiquement, concevoir et itérer rapidement des tâches, mais aussi adapter le flux de travail à vos besoins spécifiques.
Accélération et automatisation des tâches de l’humain dans la boucle, tout en réduisant les coûts
Outils d’assistance intégrés
Utilisez les outils d’assistance intégrés de SageMaker Ground Truth afin de réduire l’effort requis pour appliquer les étiquettes et aider les travailleurs à réaliser efficacement les tâches de l’humain dans la boucle, en économisant du temps et de l’argent.
Tableaux de bord interactifs
SageMaker Ground Truth Plus propose des tableaux de bord interactifs et des interfaces utilisateur. Ce processus vous permet donc d’examiner la progression des jeux de données d’entraînement sur plusieurs projets, de suivre les métriques du projet telles que le débit quotidien, d’inspecter les étiquettes pour en vérifier la qualité et d’adresser des commentaires sur les données étiquetées.