Amazon SageMaker Ground Truth – Funktionen
Von Menschen generierte Daten verwenden, um FMs für bestimmte Aufgaben oder mit Unternehmens- und Branchendaten anzupassen
Überwachte Feinabstimmung
Durch überwachtes Lernen erhalten die Modelle konkrete Beispiele für gewünschte Ergebnisse. Diese Beispiele werden als Demonstrationsdaten bezeichnet und ermöglichen es einem Modell, zu lernen, wie es auf zukünftige, ungesehene Benutzeranfragen reagieren und diese beantworten kann. Mit SageMaker Ground Truth Plus kann ein AWS-Team von erfahrenen Annotatoren auf der Grundlage Ihrer spezifischen Anweisungen neue hochwertige Demonstrationsdaten generieren. Einige Beispiele für Demonstrationsdaten umfassen Bildunterschriften und Videos, Textzusammenfassungen, Antworten auf Fragen und mehr. Demonstrationsdaten können verwendet werden, um entweder ein vorhandenes FM an Ihren Anwendungsfall anzupassen oder um ein Modell, das Sie von Grund auf neu erstellen, zu optimieren.
- Frage und Antwort: Mit Frage-Antwort-Paaren können Sie Demonstrationsdatensätze erstellen, um Ihr großes Sprachmodell (LLM) für die Beantwortung von Fragen zu trainieren.
- Bildunterschriften: Mit Bildunterschriften können Sie Datensätze vorbereiten, die die Szene und die Objekte in einem Bild detailliert beschreiben, um Text-zu-Bild-Modelle so zu trainieren, dass sie genaue und kreative Bilder erstellen, die auf Ihre Absicht abgestimmt sind. Bildunterschriften können auch dazu verwendet werden, Bild-Text-Modelle zu trainieren, damit sie genaue Beschreibungen der Bildszene ausgeben.
- Videountertitelung: Mit Videountertiteln können Sie Datensätze vorbereiten, die Aktionen und die Szene eines Videos detailliert beschreiben, um Text-zu-Video-Modelle zu trainieren. Hochwertige Trainingsdaten mit Videountertiteln führen zu genaueren und kreativeren Videos, die auf Ihre Intention abgestimmt sind. Es kann auch zum Trainieren von Video-zu-Text-Modellen verwendet werden, damit diese eine genaue Beschreibung des Videos liefern.
Reinforcement Learning from Human Feedback (RLHF)
Beim Reinforcement Learning from Human Feedback (RLHF) kann ein Datenannotator direktes Feedback und Hinweise zu den Ergebnissen geben, die ein Modell generiert hat, indem er dessen Antworten bewertet und/oder klassifiziert. Die Daten, die als Vergleichs- und Ranking-Daten bezeichnet werden, werden dann zum Trainieren des Modells verwendet. Ein Beispiel für Vergleichs- und Ranking-Daten beinhaltet die Rangfolge von Textantworten von der besten zur schlechtesten, basierend auf Kriterien wie Genauigkeit, Relevanz oder Klarheit. Vergleichs- und Ranking-Daten können verwendet werden, um entweder ein vorhandenes FM an Ihren Anwendungsfall anzupassen oder um ein Modell, das Sie von Grund auf neu erstellen, zu optimieren.
Wählen Sie durch menschliche Bewertung das Modell aus, das für Ihren Anwendungsfall am besten geeignet ist
Modellbewertung
Nutzen Sie menschliches Feedback, um die Ergebnisse von Modellen zu bewerten und mit einer anpassbaren Liste von Kriterien zu vergleichen, die für Sie am wichtigsten sind (wie Genauigkeit, Relevanz, Toxizität, Voreingenommenheit, Markensprache und Stil) und wählen Sie das Modell aus, das für Ihren Anwendungsfall am besten geeignet ist. AWS bietet Ihnen eine Vielzahl von Möglichkeiten, schnell mit der Modellbewertung zu beginnen. Sie können ein von AWS verwaltetes Team nutzen, um Modelle über SageMaker Ground Truth zu bewerten, zu vergleichen und auszuwählen. Sie können jetzt auch über SageMaker Studio, SageMaker Jumpstart und Amazon Bedrock auf Funktionen zur Modellbewertung zugreifen und Ihren internen Teams die Möglichkeit geben, mit nur wenigen Klicks mit der Bewertung von Modellen zu beginnen.
Red Teaming
Versuchen Sie bewusst, schädliche Reaktionen aus einem Modell hervorzurufen, und überprüfen Sie seine Ergebnisse systematisch, um Schwachstellen zu entdecken und so die allgemeine Sicherheit, Robustheit und Zuverlässigkeit zu verbessern.
Hochwertige beschriftete Datensätze für das Modelltraining erstellen
Vorgefertigte Vorlagen für die Etikettierung
Mit SageMaker Ground Truth können Sie über 30 speziell entwickelte Etikettierungs-Workflows für mehrere Anwendungsfälle mit Annotationen in Bildern, Videos, Text und 3D-Punktwolken verwenden.
- Bildklassifizierung: Mit dem Bildklassifizierungs-Workflow können Sie Bilder anhand eines vordefinierten Satzes von Beschriftungen kategorisieren. Die Bildklassifizierung ist nützlich für Szenenerkennungsmodelle, die den vollständigen Kontext des Bildes berücksichtigen müssen. Zum Beispiel können wir ein Bildklassifizierungsmodell erstellen
- Bildobjekterkennung:Sie können den Objekterkennungs-Workflow verwenden, um Objekte von Interesse (z. B. Fahrzeuge, Fußgänger, Hunde, Katzen) in Bildern zu identifizieren und zu kennzeichnen. Die Labeling-Aufgabe umfasst das Aufziehen eines Begrenzungsrahmens, eines 2-dimensionalen (2D-)Rahmens rund um die Objekte von Interesse innerhalb eines Bildes. Computer-Vision-Modelle, die aus Bildern mit gekennzeichneten Begrenzungsrahmen trainiert wurden, lernen, dass die Pixel innerhalb der Box dem angegebenen Objekt entsprechen.
- Semantische Bildsegmentierung: Sie können den Workflow der semantischen Segmentierung verwenden, um genau jene Teile eines Bildes zu kennzeichnen, die den Kennzeichnungen entsprechen, die Ihr Modell lernen muss. Damit werden Ihnen hochpräzise Training-Daten geboten, weil die individuellen Pixel gekennzeichnet sind. Beispielsweise konnte die ungewöhnliche Form eines Fahrzeugs in einem Bild mit der semantischen Segmentierung genau erfasst werden.
- Objekterkennung für Videos: Mit dem Objekterkennungs-Workflow für Videos können Sie Objekte von Interesse innerhalb einer Sequenz von Videobildern identifizieren. Wenn Sie zum Beispiel ein Wahrnehmungssystem für ein autonomes Fahrzeug entwickeln, können Sie andere Fahrzeuge in der Szene um das Fahrzeug herum erkennen.
- Video-Objektverfolgung: Mit dem Objektverfolgungs-Workflow für Videos können Sie Objekte von Interesse innerhalb einer Sequenz von Videobildern verfolgen. Beispielsweise können Sie in einem Anwendungsfall eines Sportereignisses die Spieler über die gesamte Dauer eines Spiels hinweg genau kennzeichnen.
- Videoclipklassifizierung: Mit dem Workflow zur Klassifizierung von Videoclips können Sie eine Videodatei in eine vordefinierte Kategorie klassifizieren. Sie können vordefinierte Kategorien auswählen, die das Video am besten beschreiben, wie z. B. ein Sportereignis oder Verkehrsstaus an einer belebten Kreuzung.
- Textklassifizierung: Bei der Textklassifizierung werden Textelemente anhand einer vordefinierten Menge von Labels kategorisiert. Es wird häufig für Natural-Language-Processing-Modelle (NLP) verwendet, die Elemente wie Themen (z. B. Produktbeschreibungen, Filmrezensionen) oder Gefühle identifizieren.
- Erkennung benannter Entitäten: Die Erkennung benannter Entitäten (Named Entity Recognition, NER) umfasst das Durchsuchen von Textdaten zur Lokalisierung von Phrasen, die als benannte Entitäten bezeichnet werden sowie die Kategorisierung der jeweiligen Phrasen mit einem Label wie z. B. „Person“, „Unternehmen“ oder „Marke“.
- 3D-Punkt-Cloud-Objekterkennung: Mit dem Objekterkennungs-Workflow können Sie Objekte von Interesse innerhalb einer 3D-Punkt-Cloud identifizieren und kennzeichnen. Beispielsweise können Sie in einem autonomen Fahrzeugsanwendungsfall Fahrzeuge, Fahrbahnen und Fußgänger präzise kennzeichnen.
- 3D-Punkt-Cloud-Objektverfolgung: Mit dem Objektverfolgungs-Workflow können Sie den Kurs von Objekten von Interesse nachverfolgen. Beispielsweise muss ein autonomes Fahrzeug die Bewegung anderer Fahrzeuge, Fahrbahnen und Fußgänger verfolgen.
- Semantische 3D-Punkt-Cloud-Segmentierung: Mit dem Workflow der semantischen Segmentierung können Sie die Punkte einer 3D-Punkt-Cloud in vorab festgelegten Kategorien segmentieren. Beispielsweise kann Ground Truth für autonome Fahrzeuge das Vorhandensein von Straßen, Laub und Strukturen kategorisieren.
Benutzerdefinierte Workflows
Mit SageMaker Ground Truth können Sie Ihre eigenen benutzerdefinierten Beschriftungs-Workflows erstellen. Ein Workflow besteht aus: (1) Einer UI-Vorlage, die menschlichen Beschriftern Anweisungen und Tools zur Durchführung der Beschriftungsaufgabe bietet. Eine große Auswahl von Benutzeroberflächenvorlagen ist verfügbar oder Sie können Ihre eigene Javascript-/HTML-Vorlage hochladen. (2) Einer beliebigen Vorverarbeitungslogik, die in einer AWS-Lambda-Funktion gekapselt ist. Die Lambda-Funktion kann die zu beschriftenden Daten mit jedem zusätzlichen Kontext für den Beschrifter und (3) mit einer beliebigen in einer AWS-Lambda-Funktion gekapselten Nachbearbeitungslogik bereitstellen, um einen Algorithmus zur Verbesserung der Genauigkeit hinzuzufügen. Der Algorithmus kann auf die Qualität der Annotationen zugreifen, die von Menschen gemacht wurden oder kann einen Konsens darüber finden, was „richtig“ ist, wenn dieselben Daten verschiedenen menschlichen Beschriftern bereitgestellt werden.
Qualitätssicherung und Zustimmung
Mit SageMaker Ground Truth können Sie die Qualität von Annotationsaufgaben überprüfen, indem Sie Qualitätssicherungsschritte wie das Einrichten von Genehmigungsworkflows, das Überprüfen und Ändern von Anmerkungen, das Routing von Aufgaben, die Nutzung der Maschinenvalidierung und die Verfolgung von Qualitätsmetriken implementieren. Sie können innerhalb Ihres Workflows auch einen Konsens über den Grad der Datengenauigkeit erzielen, indem Sie Algorithmen verwenden, um Aufgabenüberprüfungen an mehrere Personen weiterzuleiten.
Wählen Sie die Personaloption, die für Sie am besten geeignet ist
Ganz gleich, ob Sie möchten, dass AWS eine Belegschaft in Ihrem Namen verwaltet oder eine bestehende interne Belegschaft nutzt, SageMaker Ground Truth bietet Optionen und Flexibilität.
Von AWS verwaltete Belegschaft
SageMaker Ground Truth Plus kann in Ihrem Namen eine skalierbare Belegschaft mit Fachkenntnissen einstellen und verwalten. Beispielsweise benötigen Sie möglicherweise ein Team, das Erfahrung mit der Beschriftung von Audiodateien hat oder über bestimmte Sprachkenntnisse verfügt. Für fortgeschrittenere Anwendungsfälle benötigen Sie möglicherweise ein Arbeitsteam, das schriftliche Inhalte für Demonstrationsdaten erstellen kann. AWS kann Teams jeder Größe für Projekte unterschiedlicher Dauer auf der ganzen Welt rekrutieren, einstellen, schulen und verwalten. Eine von AWS verwaltete Belegschaft kann Ihre Sicherheits-, Datenschutz- und Compliance-Anforderungen erfüllen.
Interne private Belegschaft
Wenn Sie bereits über ein internes Datenbetriebsteam verfügen, kann dieses die Tools und Workflows von SageMaker Ground Truth nutzen, um Daten für eine Vielzahl von Anwendungsfällen mit Anmerkungen zu versehen. Dies ist eine Option, wenn Sie das Fachwissen Ihres eigenen Teams bevorzugen oder bestimmte Anforderungen an die Vertraulichkeit von Daten haben.
Ihr bevorzugter Anbieter
Sie können im AWS Marketplace einen bevorzugten Anbieter für Anmerkungen auswählen, um Ihre Aufgaben in SageMaker Ground Truth zu erledigen. Dies trägt dazu bei, die manuelle Arbeit bei der Suche nach einzelnen Mitarbeitern und dem Aufbau eines Teams zu reduzieren.
Menschenmenge
Das Crowdsourcing Ihrer Anmerkungen über Amazon Mechanical Turk kann sowohl für kleine als auch für große Projekte ein kostengünstiger und skalierbarer Ansatz sein. Sie können auf eine große Anzahl geografisch unterschiedlicher Mitarbeiter zugreifen, Aufgaben schnell entwerfen und wiederholen und den Arbeitsablauf an Ihre spezifischen Anforderungen anpassen.
Beschleunigen und automatisieren Sie Human-in-the-Loop-Aufgaben und senken Sie gleichzeitig die Kosten
Integrierte Hilfstools
Verwenden Sie die integrierten Hilfstools von SageMaker Ground Truth, um den Aufwand für das Anbringen von Etiketten zu reduzieren und die Mitarbeiter dabei zu unterstützen, Aufgaben effizient zu erledigen, bei denen Menschen in der Schleife arbeiten, was Zeit und Kosten spart.
Interaktive Dashboards
SageMaker Ground Truth Plus bietet interaktive Dashboards und Benutzeroberflächen, damit Sie den Fortschritt von Trainingsdatensätzen über mehrere Projekte hinweg überwachen, Projektmetriken wie den täglichen Durchsatz verfolgen, Beschriftungen auf ihre Qualität hin überprüfen und Feedback zu den beschrifteten Daten geben können.