Amazon SageMaker Ground Truth Plus
Allgemeines
F: Was ist Amazon SageMaker Ground Truth Plus?
Amazon SageMaker Ground Truth Plus ermöglicht das einfache Erstellen hochwertiger Trainings-Datensätze, ohne selbst Labeling-Anwendungen entwickeln oder dafür Mitarbeiter beschäftigen zu müssen. Sie geben Daten sowie Labeling-Anforderungen an und SageMaker Ground Truth Plus übernimmt die Einrichtung und Verwaltung der Daten-Labeling-Workflows gemäß Ihren Anforderungen. Die Datenbeschriftung wird dann von Experten durchgeführt, die für eine Vielzahl von ML-Aufgaben (Machine Learning) geschult worden sind. Ground Truth Plus verwendet ML-Techniken, darunter aktives Lernen, Vorbeschriftung und maschinelle Validierung. Dies erhöht die Qualität des Ausgabedatensatzes und senkt die Kosten für die Datenbeschriftung. Ground Truth Plus bietet Transparenz für Ihre Datenbeschriftungsvorgänge und Ihr Qualitätsmanagement. Mit Ground Truth Plus können Sie den Fortschritt von Trainingsdatensätzen über mehrere Projekte hinweg überprüfen, Projektmetriken wie den täglichen Durchsatz verfolgen, Beschriftungen auf ihre Qualität hin überprüfen und Feedback zu den beschrifteten Daten geben. Ground Truth Plus kann für eine Vielzahl von Anwendungsfällen eingesetzt werden, darunter Computer Vision, natürliche Sprachverarbeitung und Spracherkennung.
F: Warum sollte ich Amazon SageMaker Ground Truth Plus verwenden?
Zum Trainieren eines Modells für Machine Learning (ML) benötigen Datenwissenschaftler große, hochwertige, beschriftete Datensätze. Mit der zunehmenden Verbreitung von ML steigt auch der Bedarf an Beschriftungen. Dies zwingt Datenwissenschaftler dazu, wochenlang Workflows für die Datenbeschriftung zu entwickeln und Mitarbeiter für die Datenbeschriftung zu verwalten. Leider verlangsamt dies die Innovation und erhöht die Kosten. Um sicherzustellen, dass Datenwissenschaftler ihre Zeit mit der Entwicklung, dem Training und der Bereitstellung von ML-Modellen verbringen können, beauftragen sie in der Regel andere interne Teams, bestehend aus Data Operations Managern und Programm-Managern, mit der Erstellung hochwertiger Trainingsdatensätze. Diese Teams haben jedoch in der Regel keinen Zugang zu den Fähigkeiten, die für die Bereitstellung hochwertiger Trainingsdatensätze erforderlich sind, was die ML-Ergebnisse beeinträchtigt.
Amazon SageMaker Ground Truth Plus macht es sowohl Datenwissenschaftlern als auch Geschäftsmanagern, wie z. B. Data Operations Managern und Programm-Managern, leicht, qualitativ hochwertige Trainingsdatensätze zu erstellen, indem ihnen die undifferenzierte Schwerarbeit abgenommen wird, die mit der Erstellung von Datenbeschriftungsanwendungen und der Verwaltung der Beschriftungsmitarbeiter verbunden ist. Alles, was Sie tun müssen, ist, die Daten zusammen mit den Beschriftungsanforderungen zu teilen, und Ground Truth Plus richtet Ihren Workflow zur Datenbeschriftung basierend auf diesen Anforderungen ein und verwaltet ihn. Die Datenbeschriftung wird dann von Experten durchgeführt, die in einer Vielzahl von ML-Aufgaben geschult sind. Für die Nutzung von Ground Truth Plus benötigen Sie keine tiefgreifenden ML-Kenntnisse oder Kenntnisse über Workflow-Design und Qualitätsmanagement.
F: Wie beginne ich mit Amazon SageMaker Ground Truth Plus?
Um mit Amazon SageMaker Ground Truth Plus zu beginnen, füllen Sie bitte das requirement form (Anforderungsformular) für das Projekt aus. Unser Team meldet sich dann, um Ihr Daten-Labeling-Projekt mit Ihnen zu besprechen.
F: Wie hilft mir Amazon SageMaker Ground Truth Plus beim Verwalten meiner Trainings-Datensätze?
Amazon SageMaker Ground Truth Plus verschafft Ihnen mehr Transparenz bei Daten-Labeling-Vorgängen und Qualitätsmanagement. Zum Beispiel liefert SageMaker Ground Truth Plus eine Projektansicht, die Sie verwenden können, um den Fortschritt von Trainings-Datensätzen in verschiedenen Projekten zu überwachen. Zudem gibt es ein Dashboard mit Echtzeitmetriken, damit Sie Metriken Ihres Projekts wie den täglichen Durchsatz detailliert nachverfolgen können. SageMaker Ground Truth Plus bietet außerdem eine Benutzeroberfläche, mit der Sie die Qualität der Beschriftungen untersuchen und Feedback in Echtzeit geben können. Schließlich erhalten Sie mit dem Streaming-Modus bei bestimmten Workload-Typen die Beschriftungsergebnisse noch am selben Tag oder in derselben Stunde.
F: Wie hilft Amazon SageMaker Ground Truth Plus bei der Verbesserung der Genauigkeit meiner Trainingsdatensätze?
Ground Truth Plus nutzt verschiedene Techniken, um die Genauigkeit der Trainingsdatensätze zu erhöhen:
- ML-Techniken: Ground Truth Plus verwendet ML-Techniken, darunter aktives Lernen, Vorbeschriftung und maschinelle Validierung, womit die Qualität des Ausgabedatensatzes steigt und die Kosten der Datenbeschriftung sinken. Ein Beschriftungs-Workflow von Ground Truth Plus mit mehreren Schritten beinhaltet ML-Modelle für aktives Lernen, um durch Auswahl der Beschriftungselemente die Kosten zu reduzieren, und ML-Modelle für die Vorbeschriftung von ausgewählten Daten, um den menschlichen Aufwand zu reduzieren. Ground Truth Plus verwendet maschinelle Validierung zur Identifizierung potenzieller Fehler, die dann noch einmal von Mitarbeitern überprüft werden können. Dadurch wird die Beschriftungsqualität deutlich verbessert, da menschliche Fehler abgefangen werden.
- Intuitive Beschriftungsoberfläche: Ground Truth Plus verwendet unterstützende Beschriftungsfunktionen wie (1) Andocken, um bei einem nicht perfekten 3D-Quader anzudocken und das zu umschließende Objekt genau abzudecken. (2) Auto-Segmentierung, um eine Objektmaske mit nur vier Klicks an den äußersten Punkten zu erstellen.
Datenschutz
F: Wie hilft Amazon SageMaker Ground Truth Plus dabei, dass meine Daten geschützt und sicher sind?
Amazon SageMaker Ground Truth Plus verschlüsselt Daten, die in einem Amazon-S3-Bucket gespeichert sind, standardmäßig im Ruhezustand und bei der Übertragung. Zudem wird der Zugriff auf Ihre Daten mit AWS Identity and Access Management (IAM) gesteuert. Ihre Daten werden in einem unabhängigen AWS-Konto gespeichert und ein Amazon-S3-Bucket wird für Ihr Projekt erstellt. Amazon SageMaker Ground Truth Plus speichert oder kopiert Ihre Daten nicht außerhalb der für Sie erstellten AWS-Umgebung. AWS-Protokolle und -Prüfungen greifen auf Ihre Daten mithilfe von Amazon-S3-Zugriffsprotokollierung und AWS CloudTrail zu.
F: Wer hat Zugriff auf meine Inhalte, die von Amazon SageMaker Ground Truth Plus verarbeitet und gespeichert werden?
Autorisierte AWS-Mitarbeiter und die Experten, die Ihre Daten beschriften, haben Zugriff auf Ihre Inhalte, die von Amazon SageMaker Ground Truth Plus verarbeitet werden. Die Experten, die Ihre Daten beschriften, überprüfen und beschriften sie über das sichere Mitarbeiterportal von Amazon SageMaker Ground Truth Plus. Mit dem Zugriff über das Mitarbeiterportal können die Mitarbeiter die Daten nur anzeigen und beschriften, sie aber nicht bearbeiten oder löschen. Vertrauen, Datenschutz und Sicherheit haben für uns die höchste Priorität. Wir implementieren geeignete technische und physische Kontrollen, einschließlich Verschlüsselung für Daten im Ruhezustand und bei der Übertragung, um den unbefugten Zugriff auf Ihre Inhalte oder deren Offenlegung zu verhindern.
F: Werden eingehende Daten (Bilder, Textdateien, Videos usw.) von Amazon SageMaker Ground Truth Plus gespeichert? Und wie werden sie von AWS verwendet?
Amazon SageMaker Ground Truth Plus speichert die rohen und die verarbeiteten Inhalte nur für die Dauer Ihrer Projekte und löscht auf Anfrage die Inhalte in Verbindung mit Ihrem Daten-Labeling-Projekt. Amazon SageMaker Ground Truth Plus verwendet Ihre Inhalte ausschließlich zur Bereitstellung und Verwaltung des Services. Amazon SageMaker Ground Truth Plus verwendet niemals Ihre Inhalte oder trainierten Modelle für diese Inhalte zum Nutzen anderer Kunden.
F: Verlassen von Amazon SageMaker Ground Truth Plus verarbeitete Inhalte die AWS-Region, in der ich Amazon SageMaker Ground Truth Plus verwende?
Alle von Amazon SageMaker Ground Truth Plus verarbeiteten Inhalte werden in der AWS-Region, in der Sie Amazon SageMaker Ground Truth Plus verwenden, im Ruhezustand verschlüsselt und gespeichert. Sofern Sie es nicht anderweitig in beidseitig vereinbarten Anforderungen an die Datenlokalisierung im Rahmen einer Leistungsbeschreibung (Statement of Work) festlegen, kann von außerhalb der AWS-Region, in der Ihre Inhalte gespeichert sind, auf Ihre Inhalte zugegriffen werden, um den Labeling-Service durchzuführen.
F: Kann ich die Löschung von Daten (Bilder, Textdateien, Videos usw.) anfordern, die bei Amazon SageMaker Ground Truth Plus gespeichert sind?
Ja. Sie können die Löschung von eingegangenen rohen und verarbeiteten Daten in Verbindung mit Ihrem Daten-Labeling-Projekt anfordern, indem Sie den AWS Support kontaktieren.
F: Bleibe ich der Eigentümer meiner Inhalte, die von Amazon SageMaker Ground Truth Plus verarbeitet und gespeichert werden?
Ja. Sie behalten immer die Eigentümerschaft an den Inhalten und wir verwenden Ihre Inhalte nur mit Ihrer Zustimmung.
F: Kann ich personenbezogene Gesundheitsdaten (Personal Health Information) über Amazon SageMaker Ground Truth Plus verarbeiten?
Nein. Amazon SageMaker Ground Truth Plus ist derzeit kein HIPAA-konformer Service.
Arbeitskräfte
F: Was sind Experten bei Amazon SageMaker Ground Truth Plus?
Bei Ground Truth Plus wird die Beschriftung von versierten, diversen und flexiblen Experten erledigt, die für Machine-Learning-Aufgaben geschult wurden und vielfältige Anforderungen erfüllen, darunter Datensicherheit, Datenschutz und Compliance. Es gibt zwei Arten von Experten, 1) Amazon-Experten: Das sind Mitarbeiter, die bei Amazon angestellt und zugeteilt werden, wobei Amazon für Ihre SLAs bezüglich Betrieb, Qualität und Durchlaufzeit zuständig ist. 2) Drittanbieter-Experten: Das sind Mitarbeiter, die über eine kuratierte Liste von Drittanbietern eingesetzt werden, die auf die Bereitstellung von Datenbeschriftungsservices spezialisiert sind, wobei Amazon für Ihre SLAs bezüglich Qualität und Durchlaufzeit zuständig ist.
F: Wer entscheidet, welche Art von Experten für mein Projekt bei Amazon SageMaker Ground Truth Plus verwendet wird?
Sie können über die Art von Experten entscheiden, die bei Ihrem Projekt eingesetzt werden. Sofern Sie uns nicht dazu anweisen, bestimmte Experten zu verwenden, können wir Amazon-Experten, Drittanbieter-Experten oder eine Kombination aus beidem einsetzen, um die Anforderungen Ihres Projekts bezüglich Qualität, Durchlaufzeit und Sicherheit zu erfüllen.
F: Welche Änderungen führen Drittanbieter-Experten im Hinblick auf COVID-19 ein, über die ich informiert werden muss?
Angesichts COVID-19 haben einige Serviceprovider ihren Mitarbeitern erlaubt, von zu Hause zu arbeiten, um für ihre Gesundheit und Sicherheit zu sorgen.
F: Welche Sicherheitsstandards müssen Drittanbieter-Experten erfüllen?
Serviceanbieter müssen sich jährlich der SOC 2-Compliance oder ISO 27001-Zertifizierung durch einen unabhängigen Prüfer unterziehen.
Der SOC 2-Bericht ist eine Beschreibung der Kontrollumgebung des Serviceanbieters, die auf den Trust Services-Kriterien des American Institute of Certified Public Accountants (AICPA) basiert – Sicherheit, Verfügbarkeit, Verarbeitungsintegrität, Vertraulichkeit und Datenschutz.
Die Zertifizierung gemäß ISO 27001 stammt von der Internationalen Organisation für Normung (ISO) und der Internationalen Elektrotechnischen Kommission (IEC). Sie legt Anforderungen für die Entwicklung, Implementierung, Verwaltung und kontinuierliche Verbesserung eines Information Security Management System (ISMS) fest.
Zusätzlich zur unabhängigen Prüfung gemäß SOC 2 oder ISO 27001 müssen Serviceprovider weitere Sicherheitskontrollen, die im Folgenden beschrieben sind, zum Schutz Ihrer Daten verwenden.
Technologiekontrollen:
Serviceprovider sind verpflichtet, entsprechende Software einzusetzen, um Versuche zum Herunterladen oder Kopieren von Dateien/Daten aus ihrem System zu blockieren und den unbefugten Zugriff auf ihre Systeme zu verhindern. Serviceprovider sind auch verpflichtet, ihren Mitarbeitern zu untersagen, aufgabenbezogene Daten von Kunden zu speichern oder zu kopieren.
Netzwerksicherheitskontrollen:
Wir verlangen, dass das Netzwerk des Serviceproviders so konzipiert ist, dass ein Fernzugriff auf die aufgabenbezogenen Daten des Kunden nicht möglich ist. Darüber hinaus ist die Software für Peer-to-Peer-Dateisharing im Netzwerk des Anbieters blockiert, und die Firewall muss so konzipiert sein, dass sie eine hohe Verfügbarkeit gewährleistet.
Mitarbeiterkontrollen:
Serviceprovider sind verpflichtet, sicherzustellen, dass sie mit ihren Mitarbeitern Vertraulichkeitsvereinbarungen (Non-Disclosure Agreements, NDAs) vereinbart haben. Serviceprovider sind verpflichtet, strenge Richtlinien zu erlassen, um Datenlecks zu verhindern und Mitarbeiter daran zu hindern, Informationen auf irgendeine Weise weiterzugeben: Papier, USB-Speicher, Mobiltelefone oder andere Medien.
Physische Zugangskontrollen:
Serviceprovider sind zu physischen Zugangskontrollmaßnahmen verpflichtet, um unbefugten Zugang zu ihrem Produktionsstandort zu verhindern. Dazu können Drehkreuze mit biometrischer Authentifizierung, Mitarbeiterausweiserkennung, usw. gehören.
F: Wie trägt AWS dazu bei, dass Drittanbieter-Experten diese Sicherheitsstandards erfüllen?
Serviceanbieter müssen ihre Berichte zur Erfüllung von SOC 2 oder der ISO 27001-Zertifizierung für AWS bereitstellen, bevor sie bei den Drittanbieter-Experten von Amazon SageMaker Ground Truth Plus aufgenommen werden. AWS-SOC-Berichte und -ISO-Zertifizierungen gelten nicht für die Drittanbieter-Experten.
Amazon SageMaker Ground Truth
Allgemeines | Verwendung von Amazon SageMaker Ground Truth | Drittanbieter von Daten-Labeling-Services | Preise und Verfügbarkeit | Erzeugung von synthetischen Daten
Allgemeines
F: Was ist Amazon SageMaker Ground Truth?
Amazon SageMaker Ground Truth vereinfacht das effiziente und präzise Beschriften von Datensätzen für das Training von Machine-Learning-Systemen. SageMaker Ground Truth kann Teile eines Datasatzes automatisch auf Basis der manuell von Menschen vorgenommenen Beschriftungen kennzeichnen. Für das manuelle Labeling haben Sie die Wahl zwischen dem großen Crowdsourcing-Pool der Amazon Mechanical Turk-Workforce mit mehr als 500 000 Kennzeichnern, Ihren eigenen Mitarbeitern oder einem der von Amazon zuvor geprüften externen Labeling-Serviceprovider auf AWS Marketplace. SageMaker Ground Truth verwendet innovative Algorithmen und User Experience (UX) Techniken, um die Genauigkeit der menschlichen Beschriftung zu verbessern. Im Laufe der Zeit wird das Modell immer besser, da es kontinuierlich aus den von Menschen erstellten Beschriftungen lernt, um die automatische Beschriftung zu verbessern.
F: Was ist das automatische Daten-Labeling?
Automatisches Daten-Labeling bezeichnet die Beschriftung von Daten mit Machine-Learning-Techniken. Amazon SageMaker Ground Truth wählt zunächst eine zufällige Datenprobe aus und sendet diese zur Beschriftung an hierfür speziell qualifizierte menschliche Mitarbeiter. Anhand der Ergebnisse wird ein Labeling-Modell trainiert, das zum automatischen Labeling eines weiteren Datensamples verwendet wird. Die Labels werden jedoch erst festgeschrieben, wenn das Modell die Daten mit einer Zuverlässigkeit von mindestens einem sehr hohen Grenzwert kennzeichnen kann. Bei Nichterreichen dieses Grenzwerts werden die Daten an menschliche Kennzeichner gesendet. Aus einem Teil der von Menschen gekennzeichneten Daten wird wiederum ein neues Trainings-Dataset für das Labeling-Modell generiert, mit dem das Modell automatisch neu trainiert wird, um seine Genauigkeit zu verbessern. Dieser Prozess wiederholt sich mit jedem neu gekennzeichneten Rohdatensample. Bei jeder Wiederholung lernt das Modell dazu und wird immer präziser im Labeling der Rohdaten, so dass immer weniger Daten an Menschen gesendet werden müssen.
Verwenden von Amazon SageMaker Ground Truth
F: Warum sollte ich Amazon SageMaker Ground Truth verwenden?
Um Machine-Learning-Modelle zu erstellen, trainieren und bereitzustellen, benötigen Sie Daten. Erfolgreiche Modelle setzen auf qualitativ hochwertigen Trainingsdaten auf, wobei die Erfassung und die Beschriftung der Trainings-Datensätze sehr viel Zeit und Mühe beanspruchen. Für die Erstellung der Trainings-Datasets müssen menschliche Kennzeichner große Mengen an Bildern und anderen Datentypen untersuchen und daraus bestimmte Objekte erkennen und kennzeichnen. Diese Labeling-Aufgaben werden auf mehrere menschliche Mitarbeiter aufgeteilt, was zu einem beträchtlichen Mehraufwand und Kosten führt. Sollten den menschlichen Bearbeitern Fehler unterlaufen, lernt das System auch aus den Fehlinformationen und macht entsprechend ungenaue Aussagen.
Amazon SageMaker Ground Truth löst dieses Problem, indem es ein hoch genaues Daten-Labeling durch in Amazon S3 gespeicherte Daten sowie eine Kombination aus automatisch und von Menschen durchgeführtem Daten-Labeling verwendet.
F: Welches sind die ersten Schritte mit Amazon SageMaker Ground Truth?
Amazon SageMaker Ground Truth bietet einen verwalteten Prozess, mit dem Sie einen vollständigen Daten-Labeling-Auftrag in nur wenigen Schritten einrichten können. Wenn Sie mit Amazon SageMaker Ground Truth arbeiten möchten, melden Sie sich bei der AWS-Managementkonsole an und navigieren zur SageMaker-Konsole. Dort wählen Sie unter "Ground Truth" Labeling-Aufträge aus. Und schon können Sie Ihren Labeling-Auftrag erstellen. Zunächst geben Sie als Teil des Auftragserstellungsworkflows einen Pointer auf den S3-Bucket ein, der das zu kennzeichnende Dataset enthält. Ground Truth bietet Vorlagen für gängige Labeling-Aufgaben, in denen Sie nur wenige Einstellungen vornehmen und kaum Anweisungen zur Durchführung des Daten-Labeling eingeben müssen. Alternativ können Sie auch eigene Vorlagen erstellen. Zuletzt wählen Sie dann eine der drei angebotenen menschlichen Workforce-Optionen aus: (1) eine öffentliche Crowdsource-Workforce, (2) einen kuratierten Pool aus Anbietern von Daten-Labeling-Services oder (3) Ihre eigenen Mitarbeiter. Ebenso können Sie auch das automatische Daten-Labeling aktivieren.
F: Wie werden meine Trainings-Datasets mit Amazon SageMaker Ground Truth verwaltet?
Amazon SageMaker Ground Truth verwaltet Metadaten, zugehörige Beschriftungen sowie eine Taxonomie der Beschriftungen und Datensätze. Zur Abfrage und Verwaltung Ihrer Datensätze und Beschriftungen können Sie problemlos das AWS SDK über ein SageMaker Notebook Ground-Truth-Konsole über die SageMaker-Konsole verwenden. Weitere Informationen zu Amazon SageMaker Ground Truth finden Sie in der Dokumentation.
F: Wie hilft Amazon SageMaker Ground Truth bei der Verbesserung der Genauigkeit meiner Trainings-Datasätze?
Amazon SageMaker Ground Truth bietet Ihnen die folgenden Funktionen zur Verbesserung der Genauigkeit des durch Menschen durchgeführten Daten-Labelings:
(a) Anmerkungskonsolidierung: Dadurch wird Fehlern oder tendenziösen Entscheidungen einzelner Mitarbeiter entgegengewirkt. Jedes Datenobjekt wird mehreren Mitarbeitern zugesendet, und deren Antworten (als „Anmerkungen“ bezeichnet) werden mit einer einzigen Beschriftung zusammengefasst. Danach werden die Anmerkungen mit einem Anmerkungskonsolidierungsalgorithmus verglichen. Dieser Algorithmus erkennt zunächst außergewöhnliche Anmerkungen (Ausreißer), die er ignoriert. Danach führt er eine gewichtete Konsolidierung der Anmerkungen durch, d. h. zuverlässigere Anmerkungen erhalten höhere Gewichtungen. Die letztliche Ausgabe ist ein einziges Label für jedes Objekt.
(b) Best Practices in der Anmerkungsschnittstelle: Mit diesen Funktionen der Anmerkungsschnittstelle führen Mitarbeiter ihre Aufgaben zuverlässiger aus. Menschen unterlaufen Fehler und neigen zu persönlichen Präferenzen, gut entwickelte Schnittstellen verbessern jedoch die Genauigkeit der menschlichen Eingaben. Bewährt hat sich zum Beispiel die Anzeige kurzer Anweisungen mit Beispielen guter und schlechter Kennzeichnungen in einem gesonderten Bereich am Seitenrand. Eine weitere Best Practice ist die Abdunklung des Bereichs außerhalb des Begrenzungsrahmens, wenn Benutzer einen solchen um ein Bild aufziehen.
F: Wie stellt Amazon SageMaker Ground Truth sicher, dass meine Daten geschützt und sicher sind?
Standardmäßig verschlüsselt Amazon SageMaker Ground Truth Daten im Speicher und während der Übertragung. Zudem können Sie den Zugriff auf Ihre Daten mit AWS Identity and Access Management (IAM) steuern. Ground Truth speichert Ihre Daten nicht außerhalb Ihrer AWS-Umgebung und erstellt auch keine Kopien davon. Ihre Daten bleiben immer unter Ihrer Kontrolle. Darüber hinaus unterstützt Ground Truth Compliance-Standards wie die Datenschutz-Grundverordnung (DSGVO) und bietet mit Amazon CloudWatch und Amazon CloudTrail umfassende Protokoll- und Prüffunktionen. Weitere Informationen zu Amazon SageMaker Ground Truth finden Sie in der Dokumentation.
F: Wie greife ich über Amazon SageMaker Ground Truth auf eine menschliche Workforce zu?
Von SageMaker Ground Truth aus können Sie eine der drei Mitarbeiteroptionen wählen: (1) öffentliche Crowdsourcing-Mitarbeiter über Amazon Mechanical Turk; (2) Drittanbieter von Daten-Labeling-Services, die über AWS Marketplace verfügbar sind; und (3) Ihre eigenen Mitarbeiter. Weitere Informationen zu Amazon SageMaker Ground Truth finden Sie in der Dokumentation.
Verwenden von externen Serviceprovidern für das Daten-Labeling
F:Können Anbieter von Amazon-SageMaker-Ground-Truth-Datenbeschriftung vertrauliche Daten verarbeiten?
Ja, Amazon SageMaker Ground Truth kann als Daten-Labeling-Serviceanbieter vertrauliche Daten verarbeiten. Die Standard-Servicevereinbarung zwischen AWS-Kunden und dem Daten-Labeling-Serviceanbieter enthält einige grundlegende Schutzmaßnahmen für Ihre vertraulichen Informationen. Bitte lesen Sie diese Bedingungen, bevor Sie vertrauliche Informationen an den Serviceprovider weitergeben. Die Bedingungen finden Sie auf der Angebotsseite für den Serviceprovider auf dem AWS Marketplace.
F: Ich arbeite über den AWS Marketplace mit einem externen Serviceprovider zusammen. Welche Änderungen führen Serviceprovider im Hinblick auf COVID-19 ein, über die ich informiert werden muss?
Angesichts der sich rasch entwickelnden Auswirkungen von COVID-19 haben einige Serviceanbieter ihren Mitarbeitern vorübergehend erlaubt, von zu Hause zu arbeiten, um ihre Gesundheit und Sicherheit zu verbessern. Während dieser Zeit sind die Sicherheitsstandards, einschließlich der Einhaltung von SOC 2 und zusätzlicher Sicherheitskontrollen, die in den unten stehenden häufig gestellten Fragen beschrieben sind, möglicherweise nicht auf die betroffenen Serviceprovider anwendbar. Betroffene Serviceanbieter haben ihre AWS-Marketplace-Einträge entsprechend aktualisiert und werden Kundendaten aus entfernten Arbeitsumgebungen nicht ohne ausdrückliche Zustimmung der Kunden verarbeiten.
F: Welche Sicherheitsstandards muss Amazon SageMaker Ground Truth als Daten-Labeling-Serviceprovider erfüllen?
Daten-Labeling-Serviceanbieter sind verpflichtet, die Einhaltung von SOC 2 und die Zertifizierung jährlich zu prüfen zu lassen. Der SOC-2-Bericht ist eine Beschreibung der Kontrollumgebung des Serviceanbieters, die auf den Trust Services-Kriterien des American Institute of Certified Public Accountants (AICPA) basiert – Sicherheit, Verfügbarkeit, Verarbeitungsintegrität, Vertraulichkeit und Datenschutz.
Zusätzlich zu SOC 2 sind Serviceprovider zu diesen zusätzlichen Sicherheitskontrollen verpflichtet, um die Sicherheit der Kundendaten zu gewährleisten.
Technologiekontrollen:
Serviceprovider sind verpflichtet, entsprechende Software einzusetzen, um Versuche zum Herunterladen oder Kopieren von Dateien/Daten aus ihrem System zu blockieren und den unbefugten Zugriff auf ihre Systeme zu verhindern. Serviceprovider sind auch verpflichtet, ihren Mitarbeitern zu untersagen, aufgabenbezogene Daten von Kunden zu speichern oder zu kopieren.
Netzwerksicherheitskontrollen:
Wir verlangen, dass das Netzwerk des Serviceproviders so konzipiert ist, dass ein Fernzugriff auf die aufgabenbezogenen Daten des Kunden nicht möglich ist. Darüber hinaus ist die Software für Peer-to-Peer-Dateisharing im Netzwerk des Anbieters blockiert, und die Firewall muss so konzipiert sein, dass sie eine hohe Verfügbarkeit gewährleistet.
Mitarbeiterkontrollen:
Serviceprovider sind verpflichtet sicherzustellen, dass sie mit ihren Mitarbeitern Vertraulichkeitsvereinbarungen (Non-Disclosure Agreements, NDAs) vereinbart haben. Serviceprovider sind verpflichtet, strenge Richtlinien zu erlassen, um Datenlecks zu verhindern und Mitarbeiter daran zu hindern, Informationen auf irgendeine Weise weiterzugeben: Papier, USBs, Mobiltelefone oder andere Medien.
Physische Zugangskontrollen:
Serviceprovider sind zu physischen Zugangskontrollmaßnahmen verpflichtet, um unbefugten Zugang zu ihrem Produktionsstandort zu verhindern. Dazu können Drehkreuze mit biometrischer Authentifizierung, Mitarbeiterausweiserkennung, usw. gehören.
F: Wie trägt AWS dazu bei, dass Serviceprovider diese Sicherheitsstandards erfüllen?
AWS fordert von Serviceanbietern, dass sie ihre SOC-2-Zertifizierungsberichte vor der Aufnahme in den Markt einreichen und bestätigt Folgendes:
Authentizität (ob der Auditor des Serviceanbieters von der AICPA zertifiziert ist);
Berichtszeitraum (Gültigkeitsdatum der SOC 2-Zertifizierung); und
Produktionsstandort (der physische Standort, an dem die Mitarbeiter des Serviceproviders an den Labeling-Aufgaben für Amazon SageMaker Ground Truth arbeiten werden).
F: Wie häufig werden die Sicherheitsstandards von Serviceprovidern überprüft?
Die Sicherheitsstandards der einzelnen Serviceanbieter werden jährlich überprüft, um sicherzustellen, dass sie die verpflichtenden Anforderungen erfüllen.
F: Gibt es Ausnahmen von der AWS-Prüfung?
Nein. Wenn der Serviceanbieter die Sicherheitsstandards nicht erfüllt, wird sein Eintrag aus dem AWS Marketplace entfernt. Das Löschen des Eintrags wird innerhalb von 24 Stunden abgeschlossen, und alle aktiven Kunden werden per E-Mail benachrichtigt.
F: Wenn der Serviceprovider Daten-Labeling-Services über mehrere Produktionsstandorte anbietet, müssen dann alle Standorte den Auditprozess durchlaufen?
Ja, alle Standorte müssen die erforderlichen Sicherheitsstandards erfüllen.
F: Was passiert, wenn es zu einer Datenschutzverletzung am Produktionsstandort des Serviceanbieters kommt?
Der Serviceanbieter informiert AWS und die betroffenen Kunden innerhalb von 24 Stunden nach Feststellung eines tatsächlichen oder vermuteten unbefugten Zugriffs, der Abrufung, des Erwerbs, der Nutzung, der Übertragung, der Offenlegung, der Verfälschung oder des Verlusts von Kundendaten. Der Serviceanbieter wird jeden Sicherheitsvorfall unverzüglich beheben sowie AWS und den betroffenen Kunden schriftliche Details über die interne Untersuchung zur Verfügung stellen.
Preise und Verfügbarkeit
F: Wie viel kostet Amazon SageMaker Ground Truth?
Auf der Preisseite zu SageMaker Ground Truth finden Sie aktuelle Preisinformationen.
F: In welchen AWS-Regionen ist Amazon SageMaker Ground Truth verfügbar?
In der AWS-Regionentabelle finden Sie alle AWS-Regionen, in denen Amazon SageMaker Ground Truth aktuell verfügbar ist.
Erzeugung synthetischer Daten
F: Wie kann ich beschriftete synthetische Daten erzeugen?
Amazon SageMaker Ground Truth kann in Ihrem Auftrag beschriftete synthetische Daten erzeugen. Sie spezifizieren Ihre Anforderungen an synthetische Bilder oder stellen 3D-Komponenten und Ausgangsbilder zur Verfügung, z. B. CAD-Bilder, und Digitalkünstler von AWS erstellen brandneue Bilder oder verwenden vom Kunden bereitgestellte Komponenten. Die erzeugten Bilder imitieren die Pose und Platzierung von Objekten, enthalten Objekt- oder Szenenvariationen und fügen optional Zusätzelemente wie Kratzer, Dellen und andere Veränderungen hinzu. Dadurch entfällt der zeitaufwändige Vorgang der Datenerfassung oder die Notwendigkeit, Teile zu beschädigen, um Bilder zu erfassen. SageMaker Ground Truth kann Hunderttausende von synthetischen Bildern erzeugen, die automatisch mit hoher Genauigkeit beschriftet werden.
F: Warum sollte ich beschriftete synthetische Daten benutzen?
Die Beschaffung von Daten für das Training von Machine Learning (ML)-Modellen ist sehr zeit- und arbeitsaufwändig. Bei einigen Datentypen, z. B. bei seltenen oder stark variierenden Szenarien, kann die Datenerfassung teuer oder sogar unmöglich sein. Die Identifizierung von Mängeln in der Herstellung erfordert beispielsweise eine große Anzahl von Bildern. Darüber hinaus müssen ML-Modelle so trainiert werden, dass sie Szenarien erkennen, die nicht häufig vorkommen, wie z. B. seltene Defekte. Um seltene Defekte zu erkennen, benötigen ML-Modelle Bilder von Defekten. Da diese Ereignisse jedoch nur selten auftreten, werden diese Daten oft manuell erstellt, was oft nur durch die Beschädigung teurer Teile möglich ist. Außerdem müssen die Bilder auch noch manuell beschriftet werden.
Mit SageMaker Ground Truth können Sie synthetische Daten generieren, die automatisch beschriftet werden, wodurch sich der Zeit- und Kostenaufwand für das Sammeln und Beschriften von Trainingsdaten verringert. Sie können dann synthetische Daten verwenden, um ML-Modelle für eine Vielzahl von Anwendungsfällen der Computervision zu trainieren, z. B. für die Erkennung von Objekten, Anomalien und Defekten.
F: Wie erzeugt SageMaker Ground Truth beschriftete synthetische Daten?
Der Vorgang zur Erzeugung beschrifteter synthetischer Daten erfolgt in drei Schritten. Zunächst stellen Sie 3D-Komponenten, Basisbilder und/oder Bildanforderungen zur Verfügung. Anschließend wandeln Digitalkünstler diese Eingaben in 3D-Komponenten um und fügen Zusatzelemente wie Kratzer, Beulen und Texturen hinzu. Drittens erzeugt SageMaker Ground Truth synthetische Bilder und beschriftet sie automatisch.
F: Kann ich SageMaker Ground Truth verwenden, um beschriftete synthetische Daten zu erzeugen, wenn ich keine Bilder oder 3D-Komponenten habe?
Ja, es gibt eine 3D-Komponenten-Bibliothek mit mehr als 1 Million Objekten, die verwendet werden kann, um die Erstellung synthetischer Daten für Sie zu unterstützen. Alternativ können Sie auch einen kleinen Satz vorbeschrifteter Bilder verwenden, um neue synthetische Datensätze zu erstellen. Wenn Sie über Hintergrundbilder oder Beispiele für die benötigten Daten verfügen, kann dies die Erstellung hochgenauer synthetischer Daten beschleunigen.

Sie können mit der Verwendung der Amazon-SageMaker-Datenbeschriftung ohne Vorauszahlungen oder langfristige Verpflichtungen beginnen.

Sie erhalten sofort Zugriff auf das kostenlose AWS-Kontingent.

Beginnen Sie die Entwicklung mit der Amazon-SageMaker-Datenbeschriftung in der AWS-Managementkonsole.