Was sind synthetische Daten?

Synthetische Daten sind nicht von Menschen geschaffene Daten, die reale Daten nachahmen. Sie werden durch Rechenalgorithmen und Simulationen auf der Grundlage von Technologien der generativen künstlichen Intelligenz erstellt. Ein synthetischer Datensatz hat dieselben mathematischen Eigenschaften wie die tatsächlichen Daten, auf denen er basiert, aber er enthält nicht dieselben Informationen. Unternehmen nutzen synthetische Daten für Forschung, Tests, Neuentwicklung und Machine Learning. Jüngste Innovationen in der KI haben die Generierung synthetischer Daten effizient und schnell gemacht, aber auch ihre Bedeutung für die Datenregulierung erhöht.

Was sind die Vorteile synthetischer Daten?

Synthetische Daten bieten Unternehmen mehrere Vorteile. Im Folgenden gehen wir auf einige davon ein.

Unbegrenzte Datengenerierung

Sie können synthetische Daten auf Abruf und in nahezu unbegrenztem Umfang produzieren. Tools zur synthetischen Datengenerierung sind eine kostengünstige Methode, um mehr Daten zu erhalten. Außerdem können sie die von ihnen erzeugten Daten für Machine Learning-Anwendungsfälle vorkennzeichnen (kategorisieren oder markieren). Sie erhalten Zugang zu strukturierten und gekennzeichneten Daten, ohne die Rohdaten von Grund auf umwandeln zu müssen. Sie können auch synthetische Daten zur Gesamtdatenmenge hinzufügen, um mehr Trainingsdaten für die Analyse zu erhalten.

Schutz der Privatsphäre

In Bereichen wie dem Gesundheitswesen, dem Finanzwesen und dem Rechtswesen gelten zahlreiche Datenschutz-, Urheberrechts- und Compliance-Vorschriften zum Schutz sensibler Daten. Sie müssen jedoch Daten für Analysen und Forschungszwecke nutzen - und sind oft gezwungen, Daten an Dritte auszulagern, um sie optimal zu nutzen. Anstelle von personenbezogenen Daten können sie synthetische Daten verwenden, die demselben Zweck dienen wie diese privaten Datensätze. Sie erstellen ähnliche Daten, die dieselben statistisch relevanten Informationen zeigen, ohne private oder sensible Daten preiszugeben. Denken Sie an die medizinische Forschung, die aus einem Live-Datensatz synthetische Daten erstellt - die synthetischen Daten enthalten den gleichen Prozentsatz an biologischen Merkmalen und genetischen Markern wie der Originaldatensatz, aber alle Namen, Adressen und anderen persönlichen Patienteninformationen sind gefälscht.

Reduzierung der Verzerrungen

Sie können synthetische Daten verwenden, um Verzerrungen in KI-Trainingsmodellen zu reduzieren. Da große Modelle in der Regel auf öffentlich verfügbaren Daten basieren, kann es zu Verzerrungen im Text kommen. Forscher können synthetische Daten verwenden, um einen Kontrast zu einer voreingenommenen Sprache oder zu Informationen zu schaffen, die KI-Modelle sammeln. Wenn beispielsweise bestimmte meinungsbasierte Inhalte eine bestimmte Gruppe bevorzugen, können Sie synthetische Daten erstellen, um den gesamten Datensatz auszugleichen.

Welche Arten von synthetischen Daten gibt es?

Es gibt zwei Haupttypen von synthetischen Daten - teilweise und vollständige.

Teilweise synthetische Daten

Teilweise synthetische Daten ersetzen einen kleinen Teil eines echten Datensatzes durch synthetische Informationen. Sie können damit sensible Teile eines Datensatzes schützen. Wenn Sie beispielsweise kundenspezifische Daten analysieren müssen, können Sie Attribute wie Name, Kontaktdaten und andere reale Informationen, die zu einer bestimmten Person zurückverfolgt werden können, zusammenfassen.  

Vollständige synthetische Daten

Bei vollständigen synthetischen Daten generieren Sie vollständig neue Daten. Ein vollständig synthetischer Datensatz enthält keine Daten aus der realen Welt. Es werden jedoch die gleichen Beziehungen, Verteilungen und statistischen Eigenschaften wie bei echten Daten verwendet. Diese Daten stammen zwar nicht von tatsächlich aufgezeichneten Daten, lassen aber dieselben Schlussfolgerungen zu.

Sie können beim Testen von Machine-Learning-Modellen vollständig synthetische Daten verwenden. Dies ist nützlich, wenn Sie neue Modelle testen oder erstellen möchten, aber nicht über genügend reale Trainingsdaten verfügen, um die ML-Genauigkeit zu verbessern.

Wie werden synthetische Daten generiert?

Bei der Erzeugung synthetischer Daten werden Berechnungsmethoden und Simulationen eingesetzt, um Daten zu erstellen. Das Ergebnis ahmt die statistischen Eigenschaften realer Daten nach, enthält jedoch keine tatsächlichen Beobachtungen aus der realen Welt. Diese generierten Daten können verschiedene Formen annehmen, darunter Text, Zahlen, Tabellen oder komplexere Typen wie Bilder und Videos. Es gibt drei Hauptansätze für die Generierung synthetischer Daten, die jeweils unterschiedliche Genauigkeitsgrade und Arten von Daten bieten. 

Statistische Verteilung

Bei diesem Ansatz werden reale Daten zunächst analysiert, um die zugrunde liegenden statistischen Verteilungen wie Normal-, Exponential- oder Chi-Quadrat-Verteilungen zu identifizieren. Datenwissenschaftler generieren dann synthetische Proben aus diesen identifizierten Verteilungen, um einen Datensatz zu erstellen, der statistisch dem Original ähnelt.

Modellbasiert

Bei diesem Ansatz wird ein Machine Learning-Modell trainiert, um die Eigenschaften der realen Daten zu verstehen und zu replizieren. Sobald das Modell trainiert ist, kann es künstliche Daten erzeugen, die der gleichen statistischen Verteilung wie die realen Daten folgen. Dieser Ansatz ist besonders nützlich für die Erstellung hybrider Datensätze, die die statistischen Eigenschaften realer Daten mit zusätzlichen synthetischen Elementen kombinieren.

Deep-Learning-Methoden

Fortgeschrittene Techniken wie Generative gegnerische Netzwerke (GANs), Variationale Autokodierer (VAEs) und andere können eingesetzt werden, um synthetische Daten zu generieren. Diese Methoden werden häufig für komplexere Datentypen wie Bilder oder Zeitreihendaten verwendet und können hochwertige synthetische Datensätze erzeugen.
 

Was sind synthetische Datengenerierungstechnologien?

Im Folgenden werden einige fortgeschrittene Technologien vorgestellt, die Sie für die Generierung synthetischer Daten verwenden können.

Generatives gegnerisches Netzwerk

Generative gegnerische Netzwerk (GAN)-Modelle verwenden zwei neuronale Netzwerke, die zusammenarbeiten, um neue Daten zu generieren und zu klassifizieren. Das eine verwendet Rohdaten, um synthetische Daten zu erzeugen, während das zweite diese Informationen auswertet, charakterisiert und klassifiziert. Beide Netze konkurrieren miteinander, bis das auswertende Netz nicht mehr zwischen den synthetischen Daten und den Originaldaten unterscheiden kann. 

Sie können GAN verwenden, um künstlich generierte Daten zu erstellen, die sehr naturalistisch sind und Variationen von Daten aus der realen Welt, wie z. B. realistisch aussehende Videos und Bilder, genau wiedergeben.

Lesen Sie mehr über generative gegnerische Netzwerke (GAN) »

Variationale Autokodierer

Variationale Autokodierer (VAE) sind Algorithmen, die neue Daten auf der Grundlage von Darstellungen der ursprünglichen Daten erzeugen. Der unbeaufsichtigte Algorithmus lernt die Verteilung der Rohdaten und verwendet dann die Encoder-Decoder-Architektur, um mithilfe einer doppelten Transformation neue Daten zu generieren. Der Encoder komprimiert die Eingabedaten in eine niedriger dimensionale Darstellung, und der Decoder rekonstruiert neue Daten aus dieser latenten Darstellung. Das Modell verwendet probabilistische Berechnungen für glatte Nachbildungen.

VAE ist am nützlichsten, wenn sehr ähnliche synthetische Daten mit Variationen generiert werden. Beispielsweise können Sie VAE verwenden, wenn Sie neue Bilder generieren. 

Transformator-basierte Modelle

Generative vortrainierte Transformatoren oder GPT-basierte Modelle verwenden große Originaldatensätze, um die Struktur und die typische Verteilung von Daten zu verstehen. Sie verwenden sie hauptsächlich bei der Generierung natürlicher Sprachverarbeitung (NLP). Wenn beispielsweise ein auf Transformatoren basierendes Textmodell anhand eines großen Datensatzes englischen Textes trainiert wird, lernt es die Struktur, Grammatik und sogar die Nuancen der Sprache. Bei der Generierung synthetischer Daten beginnt das Modell mit einem Starttext (oder einer Eingabeaufforderung) und prognostiziert das nächste Wort auf der Grundlage der erlernten Wahrscheinlichkeiten, sodass eine vollständige Sequenz generiert wird.

Lesen Sie mehr über GPT »

Was sind die Herausforderungen bei der Generierung synthetischer Daten?

Bei der Erstellung synthetischer Daten gibt es mehrere Herausforderungen. Nachfolgend finden Sie einige allgemeine Einschränkungen und Herausforderungen, die Sie bei synthetischen Daten wahrscheinlich erleben werden.

Qualitätskontrolle

Datenqualität ist in der Statistik und Analytik von entscheidender Bedeutung. Bevor Sie synthetische Daten in Lernmodelle einbeziehen, müssen Sie überprüfen, ob sie genau sind und ein Mindestmaß an Datenqualität aufweisen. Um jedoch sicherzustellen, dass niemand synthetische Datenpunkte zu echten Informationen zurückverfolgen kann, muss möglicherweise die Genauigkeit verringert werden. Ein Kompromiss zwischen Datenschutz und Genauigkeit könnte sich auf die Qualität auswirken.

Sie können synthetische Daten manuell überprüfen, bevor Sie sie verwenden, um dieses Problem zu lösen. Die manuelle Prüfung kann jedoch zeitaufwändig werden, wenn Sie viele synthetische Daten erzeugen müssen.

Technische Herausforderungen

Die Erstellung synthetischer Daten ist schwierig - man muss Techniken, Regeln und aktuelle Methoden verstehen, um ihre Genauigkeit und Nützlichkeit zu gewährleisten. Sie benötigen ein hohes Maß an Fachwissen auf diesem Gebiet, bevor Sie nützliche synthetische Daten erzeugen können.

Unabhängig davon, über wie viel Fachwissen Sie verfügen, ist es eine Herausforderung, synthetische Daten als perfekte Imitation ihres realen Gegenstücks zu erzeugen. Beispielsweise enthalten Daten aus der realen Welt häufig Ausreißer und Anomalien, die synthetische Datengenerierungsalgorithmen selten nachbilden können.

Verwirrung bei den Stakeholdern

Obwohl synthetische Daten ein nützliches zusätzliches Instrument sind, verstehen nicht alle Beteiligten ihre Bedeutung. Da es sich um eine neuere Technologie handelt, akzeptieren einige Geschäftsanwender synthetische Datenanalysen möglicherweise nicht als relevant für die reale Welt. Auf der anderen Seite könnten andere die Ergebnisse aufgrund des kontrollierten Aspekts der Erzeugung überbewerten. Vermitteln Sie den Beteiligten die Grenzen dieser Technologie und ihre Ergebnisse und stellen Sie sicher, dass sie sowohl die Vorteile als auch die Nachteile verstehen.

Wie kann AWS Ihre Bemühungen zur Generierung synthetischer Daten unterstützen?

Amazon SageMaker ist ein vollständig verwalteter Service, mit dem Sie Daten aufbereiten und Machine-Learning(ML)-Modelle erstellen, trainieren und bereitstellen können. Diese Modelle eignen sich für jeden Anwendungsfall und bieten eine vollständig verwaltete Infrastruktur, Tools und Arbeitsabläufe. SageMaker bietet zwei Optionen, mit denen Sie Rohdaten - z. B. Bilder, Textdateien und Videos - beschriften und beschriftete synthetische Daten erzeugen können, um hochwertige Datensätze für das Training von ML-Modellen zu erstellen.

  • Amazon SageMaker Ground Truth ist ein Self-Service-Angebot, das die Kennzeichnung von Daten erleichtert. Sie haben die Möglichkeit, menschliche Kommentatoren über Amazon Mechanical Turk, Drittanbieter oder Ihre eigenen Arbeitskräfte einzusetzen.
  • Amazon SageMaker Ground Truth Plus ist ein vollständig verwalteter Service, mit dem Sie hochwertige Trainingsdatensätze erstellen können. Sie müssen keine eigenen Kennzeichnungsanwendungen entwickeln und keine eigenen Mitarbeiter für die Kennzeichnung einsetzen.

Zunächst spezifizieren Sie Ihre Anforderungen an synthetische Bilder oder stellen 3D-Assets und Basisbilder zur Verfügung, z. B. CAD-Bilder (Computer-Aided Design). Die Digital Artists von AWS erstellen dann Bilder von Grund auf oder verwenden vom Kunden bereitgestellte Assets. Die generierten Bilder imitieren die Pose und Platzierung von Objekten, enthalten Objekt- oder Szenenvariationen und fügen optional bestimmte Einschlüsse wie Kratzer, Beulen und andere Veränderungen hinzu. Dadurch entfällt der zeitaufwändige Prozess der Datenerfassung oder die Notwendigkeit, Teile zu beschädigen, um Bilder zu erhalten. Sie können Hunderttausende von synthetischen Bildern erzeugen, die automatisch mit hoher Genauigkeit gekennzeichnet werden.

Beginnen Sie mit der Generierung synthetischer Daten in AWS, indem Sie noch heute ein kostenloses Konto erstellen.

Nächste Schritte in AWS

Ein kostenloses Konto erstellen

Sie erhalten sofort Zugriff auf das kostenlose Kontingent von AWS.

Registrieren 
Mit der Entwicklung in der Konsole starten

Starten Sie mit der Entwicklung in der AWS-Managementkonsole.

Anmelden