Automatisches Daten-Labeling

Amazon SageMaker Ground Truth bietet automatisiertes Daten-Labeling mit Hilfe von Machine Learning. Amazon SageMaker Ground Truth wählt zunächst ein zufälliges Datensample aus und sendet dieses zum Labeling an menschliche Mitarbeiter. Anhand der Ergebnisse wird ein Labeling-Modell trainiert, das zum automatischen Labeling eines weiteren Datensamples verwendet wird. Die Labels werden jedoch erst festgeschrieben, wenn das Modell die Daten mit einer Zuverlässigkeit von mindestens einem von Ihnen definierten Grenzwert kennzeichnen kann. Bei Nichterreichen dieses Grenzwerts werden die Daten an menschliche Kennzeichner gesendet. Aus einem Teil der von Menschen gekennzeichneten Daten wird wiederum ein neues Trainings-Dataset für das Labeling-Modell generiert, mit dem das Modell automatisch neu trainiert wird, um seine Genauigkeit zu verbessern. Dieser Prozess wiederholt sich mit jedem neu gekennzeichneten Rohdatensample. Bei jeder Wiederholung lernt das Modell dazu und wird immer präziser im Labeling der Rohdaten, so dass immer weniger Daten an Menschen gesendet werden müssen. 

Flexibilität in der Zusammenarbeit mit professionellen Kennzeichnern

Amazon SageMaker Ground Truth unterstützt direkt in der SageMaker Ground Truth-Konsole mehrere Optionen für die Kennzeichnung durch menschliche Mitarbeiter. Sie können Ihr privates Team von Kennzeichnern für interne Labeling-Aufträge einsetzen, insbesondere für den Umgang mit Daten, die in Ihrem Unternehmen bleiben müssen.

Wenn Sie auf eine große Anzahl von Kennzeichnern hochskalieren möchten und Ihre Daten keine vertraulichen oder persönlich identifizierbaren Informationen enthalten, haben Sie rund um die Uhr Zugriff auf eine On-Demand-Workforce von über 500.000 unabhängigen Auftragnehmern weltweit, die von Amazon Mechanical Turk verwaltet wird. Mechanical Turk ist ein Crowdsourcing-Marktplatz, der Ihre Labeling-Aufträge mit einer verteilten Workforce verbindet, die diese Aufgaben virtuell ausführen kann.

Alternativ können Sie auch einen Drittanbieter einsetzen, der sich auf das Daten-Labeling spezialisiert hat. Diese Anbieter wurden von Amazon daraufhin geprüft, dass sie hochwertige Kennzeichnungen bereitstellen und Sicherheitsprozesse einhalten. Die Labeling-Services dieser Dienstleister werden über AWS Marketplace bereitgestellt. Alle relevanten Details werden Ihnen zur Verfügung gestellt, einschließlich Preisgestaltung und Kundenbewertungen, die Ihnen bei der Auswahl des besten Anbieters für Ihre Anforderungen helfen.

Einfache Anweisungen für die Kennzeichnung durch menschliche Mitarbeiter

Mit Amazon SageMaker Ground Truth bieten Sie eine Kennzeichnungshilfe für menschliche Kennzeichner, die einen hohen Grad an Konsistenz gewährleistet. Diese ausführlichen Anweisungen stehen den Kennzeichnern innerhalb ihrer Labeling-Schnittstelle zur Verfügung. Die Anweisungen enthalten visuelle Beispiele für gute und schlechte Labels, die den Kennzeichnern helfen, hochwertige und korrekte Labels zu produzieren. Sie können diese Anweisungen jederzeit anpassen, was es einfach macht, Aufgaben, bei denen Sie sehen, dass Kennzeichner falsch liegen, detaillierter zu gestalten, oder Anweisungen an sich ändernde Bedürfnisse anzugleichen. Nachfolgend ist eine exemplarische Anweisung dargestellt. 

SamurAI Instructions for Bounding Box

Verwendung von Workflows zur Vereinfachung von Labeling-Aufgaben

Amazon SageMaker Ground Truth bietet integrierte Labeling-Workflows, mit deren Hilfe menschliche Kennzeichner Schritt für Schritt durch Aufgaben geführt werden und die gleichzeitig Werkzeuge bereitstellen, deren Einsatz zu guten Ergebnissen führt. Derzeit stehen integrierte Workflows zur Objekterkennung, Bildklassifizierung, Textklassifizierung und semantischen Segmentierung für Labeling-Aufträge zur Verfügung. 

Zusätzlich zu den integrierten Workflows bietet Ihnen SageMaker Ground Truth die Möglichkeit, eigene Workflows hochzuladen. Ein benutzerdefinierter Workflow besteht aus einer HTML-Schnittstelle und einem Algorithmus zur Verbesserung der Genauigkeit, die beide von Ihnen bereitgestellt werden. Die HTML-Schnittstelle stellt den menschlichen Kennzeichnern alle zur Erledigung der Labeling-Aufgabe erforderlichen Anweisungen und Werkzeuge zur Verfügung. Der Algorithmus zur Verbesserung der Genauigkeit ist eine Funktion, die Sie schreiben, um SageMaker Ground Truth mitzuteilen, wie die Anwendung die Qualität der von Menschen bereitgestellten Labels bewerten soll. Der Algorithmus wird verwendet, um einen Konsens darüber zu finden, was „richtig“ ist, wenn dieselben Daten mehreren menschlichen Kennzeichnern zur Verfügung gestellt werden, sowie solche Kennzeichner zu identifizieren und herauszufiltern, die häufiger Daten von schlechter Qualität bereitstellen. Sie laden sowohl die HTML-Schnittstelle als auch den Algorithmus zur Verbesserung der Genauigkeit über die SageMaker Ground Truth-Konsole hoch. 

Objekterkennung

Mit dem Begrenzungsrahmen-Workflow können Sie Objekte in Bildern identifizieren und kennzeichnen. Ein Begrenzungsrahmen ist ein zweidimensionaler Rahmen, der um ein oder mehrere Elemente eines Bildes gezogen wird. Computer-Vision-Modelle, die aus Bildern mit gekennzeichneten Begrenzungsrahmen trainiert wurden, lernen, dass die Pixel innerhalb der Box dem angegebenen Label entsprechen. Dies ist eine sehr schnelle und kostengünstige Möglichkeit, Bilder zu kennzeichnen. Da die Rahmen jedoch oft Pixel enthalten, die sich nicht auf das Thema des Labels beziehen, kann es größere Mengen an Trainingsdaten erfordern, bevor ein Modell eine hohe Genauigkeit erreicht.

Das folgende Bild zeigt die Schnittstelle des Begrenzungsrahmens mit einer Beispielaufgabe zur Identifizierung aller Hunde in einem bestimmten Bild. Die Schnittstelle ermöglicht es Ihnen, eindeutige Beispiele für gute und schlechte Begrenzungsrahmen anzugeben, um den Grad der Genauigkeit hoch zu halten. Sie bietet auch einen Link zum vollständigen Satz von Labeling-Anweisungen und eine übersichtliche, optimierte Benutzeroberfläche für die Erstellung von Begrenzungsrahmen. 

Bounding box

Bildklassifizierung

Die Bildklassifizierung beinhaltet die Kategorisierung von Bildern anhand einer vordefinierten Menge von Labels. Die Aufgabe unterscheidet sich von der Objekterkennung dadurch, dass das gesamte Bild gekennzeichnet ist und nicht einzelne Elemente innerhalb des Bildes. Die Bildklassifizierung ist nützlich für Szenenerkennungsmodelle, die den vollständigen Kontext des Bildes berücksichtigen müssen. In der folgenden Abbildung werden die Kennzeichner beispielsweise gebeten, die Sportart zu identifizieren, die in einem bestimmten Bild gespielt wird. 

Image classification

Textklassifizierung

Bei der Textklassifizierung werden Textelemente anhand einer vordefinierten Menge von Labels kategorisiert. Die Kategorisierung von Text in verschiedene Labels wird häufig für Natural Language Processing (NLP)-Modelle verwendet, die Elemente wie Themen (z.B. Produktbeschreibungen, Filmrezensionen), Entitäten (z. B. Namen, Orte, Daten) und Gefühle identifizieren. 

Text classification

Semantische Segmentierung

Für das erweiterte Labeling von Bildern können Sie die semantische Segmentierung verwenden, um genau jene Teile eines Bildes zu kennzeichnen, die dem entsprechen, was Ihr Modell lernen muss. Die semantische Segmentierung erfordert mehr Zeit und Können als die Verwendung von Begrenzungsrahmen. Allerdings liefert sie sehr saubere Trainingsdaten, indem sie nur die dem Objekt zugeordneten Pixel kennzeichnet. So könnte beispielsweise die unregelmäßige Form eines Autos in einem Bild genau mit semantischer Segmentierung erfasst werden, während ein Begrenzungsrahmen zwangsläufig Hintergrundelemente beinhaltet, die nichts mit dem Auto zu tun haben, da der Rahmen nur vier gerade Seiten haben kann.

Semantic Segmentation

Nahtlose Integration in Amazon SageMaker

Die Trainings-Datasets, die mit SageMaker Ground Truth erstellt wurden, können einfach in Amazon SageMaker importiert und für Modellentwicklung und -Training verwendet werden. 

Mit Amazon SageMaker ist es ganz einfach, Machine-Learning-Modelle zu erstellen und für das Training vorzubereiten, weil es alles bietet, was Sie benötigen, um Ihre Trainingsdaten zu kennzeichnen und den besten Algorithmus und das beste Framework für Ihre Anwendung auszuwählen und zu optimieren. Amazon SageMaker beinhaltet gehostete Jupyter-Notebooks, mit denen Sie Ihre in Amazon S3 gespeicherten Trainingsdaten einfach sondieren und visualisieren können. Sie können eine direkte Verbindung zu den Daten in S3 einrichten oder mit AWS Glue Daten aus Amazon RDS, Amazon DynamoDB und Amazon Redshift in S3 übertragen, um Sie auf Ihrem Notebook zu analysieren.

Um Ihnen bei der Auswahl Ihres Algorithmus zu helfen, enthält Amazon SageMaker die gebräuchlichsten Algorithmen für das Machine Learning, die vorinstalliert und optimiert wurden, um eine bis zu 10-mal höhere Leistung zu erzielen, als die, die Sie bei der anderweitigen Ausführung dieser Algorithmen vorfinden. Amazon SageMaker ist auch so vorkonfiguriert, dass TensorFlow, Apache MXNet, PyTorch und Chainer in Docker-Containern ausgeführt werden. Sie können diese Open Source-Container auch in Ihrer lokalen Umgebung herunterladen und das Amazon SageMaker Python SDK zum Testen Ihrer Skripte im lokalen Modus verwenden, bevor Sie Amazon SageMaker für das Trainieren oder Hosting Ihres Modells in der Produktion verwenden. Sie haben auch die Möglichkeit, ein eigenes Framework zu verwenden.

Sie können Ihr Modell mit einem einzigen Klick in der Amazon SageMaker-Konsole trainieren. Amazon SageMaker verwaltet die gesamte zugrundeliegende Infrastruktur für Sie und kann ganz einfach skaliert werden, um Modelle in Petabyte-Größe zu trainieren. Um den Trainingsprozess noch schneller und einfacher zu gestalten, kann Amazon SageMaker Ihr Modell automatisch auf die höchstmögliche Genauigkeit abstimmen.

Sobald Ihr Modell trainiert und optimiert ist, können Sie es mithilfe von Amazon SageMaker einfach in der Produktion einsetzen, um Prognosen (sogenannte Inferenzen) für Echtzeit- oder Batch-Daten zu generieren. Amazon SageMaker setzt Ihr Modell auf Clustern aus Amazon SageMaker ML-Instances mit automatischer Skalierung ein, die über mehrere Availability Zones verteilt sind, um sowohl höchste Leistung als auch höchste Verfügbarkeit zu gewährleisten. Amazon SageMaker enthält außerdem integrierte A/B-Testfunktionen, mit denen Sie Ihr Modell testen und mit verschiedenen Versionen experimentieren können, um bestmögliche Ergebnisse zu erzielen.

Amazon SageMaker befreit Sie von der Last, das Machine Learning bereitzustellen, sodass Sie schnell und einfach Machine Learning-Modelle erstellen, trainieren und implementieren können.

Product-Page_Standard-Icons_01_Product-Features_SqInk
Informationen zu den Preisen von Amazon SageMaker Ground Truth

In Amazon SageMaker Ground Truth können Sie ohne Vorauszahlungen oder langfristige Verpflichtungen einsteigen. Weitere Informationen finden Sie auf der Seite mit der Preisübersicht zu Amazon SageMaker Ground Truth.

Product-Page_Standard-Icons_02_Sign-Up_SqInk
Registrieren Sie sich und erhalten Sie ein kostenloses Konto

Sie erhalten sofort Zugriff auf das kostenlose AWS-Kontingent. 

Registrieren 
Product-Page_Standard-Icons_03_Start-Building_SqInk
Beginnen Sie mit der Entwicklung in der Konsole

Beginnen Sie mit der Entwicklung mit Amazon SageMaker Ground Truth in der AWS-Managementkonsole.

Anmeldung