Que sont les données synthétiques ?

Les données synthétiques sont des données non créées par l'homme qui imitent les données du monde réel. Il est créé par des algorithmes de calcul et des simulations basés sur des technologies d'intelligence artificielle générative. Un jeu de données synthétiques possède les mêmes propriétés mathématiques que les données réelles sur lesquelles il est basé, mais il ne contient aucune des mêmes informations. Les organisations utilisent des données synthétiques pour la recherche, les tests, les nouveaux développements et la recherche sur le machine learning. Les récentes innovations en matière d'IA ont rendu la génération de données synthétiques efficace et rapide, mais ont également accru son importance dans les préoccupations réglementaires relatives aux données.

Quels sont les avantages des données synthétiques ?

Les données synthétiques offrent plusieurs avantages aux organisations. Nous en passons en revue certains ci-dessous.

Génération de données illimitée

Vous pouvez produire des données synthétiques à la demande et à une échelle presque illimitée. Les outils de génération de données synthétiques constituent un moyen rentable d'obtenir davantage de données. Ils peuvent également pré-étiqueter (catégoriser ou marquer) les données qu'ils génèrent pour les cas d'utilisation du machine learning. Vous avez accès à des données structurées et étiquetées sans passer par le processus de transformation des données brutes à partir de zéro. Vous pouvez également ajouter des données synthétiques au volume total de données dont vous disposez, afin d'obtenir davantage de données d'apprentissage à analyser.

Protection de la vie privée

Des domaines tels que la santé, la finance et le secteur juridique sont soumis à de nombreuses réglementations en matière de confidentialité, de droits d'auteur et de conformité pour protéger les données sensibles. Cependant, ils doivent utiliser les données à des fins d'analyse et de recherche, et doivent souvent sous-traiter les données à des tiers pour une utilisation maximale. Au lieu de données personnelles, ils peuvent utiliser des données synthétiques aux mêmes fins que ces jeux de données privés. Ces données synthétiques créent des données similaires qui présentent les mêmes informations statistiquement pertinentes sans exposer les données privées ou sensibles. Prenons l'exemple de la recherche médicale qui crée des données synthétiques à partir d'un jeu de données en temps réel : les données synthétiques conservent le même pourcentage de caractéristiques biologiques et de marqueurs génétiques que le jeu de données d'origine, mais tous les noms, adresses et autres informations personnelles des patients sont faux.

Réduction des biais

Vous pouvez utiliser des données synthétiques pour réduire les biais dans les modèles de formation à l'IA. Comme les grands modèles s'entraînent généralement sur la base de données accessibles au public, le texte peut être biaisé. Les chercheurs peuvent utiliser des données synthétiques pour contraster avec tout langage biaisé ou toute information collectée par les modèles d'IA. Par exemple, si certains contenus basés sur des opinions favorisent un groupe en particulier, vous pouvez créer des données synthétiques pour équilibrer le jeu de données global.

Quels sont les types de données synthétiques ?

Les données synthétiques offrent plusieurs avantages aux organisations. Nous en passons en revue certains ci-dessous.

Génération de données illimitée

Vous pouvez produire des données synthétiques à la demande et à une échelle presque illimitée. Les outils de génération de données synthétiques constituent un moyen rentable d'obtenir davantage de données. Ils peuvent également pré-étiqueter (catégoriser ou marquer) les données qu'ils génèrent pour les cas d'utilisation du machine learning. Vous avez accès à des données structurées et étiquetées sans passer par le processus de transformation des données brutes à partir de zéro. Vous pouvez également ajouter des données synthétiques au volume total de données dont vous disposez, afin d'obtenir davantage de données d'apprentissage à analyser.

Protection de la vie privée

Des domaines tels que la santé, la finance et le secteur juridique sont soumis à de nombreuses réglementations en matière de confidentialité, de droits d'auteur et de conformité pour protéger les données sensibles. Cependant, ils doivent utiliser les données à des fins d'analyse et de recherche, et doivent souvent sous-traiter les données à des tiers pour une utilisation maximale. Au lieu de données personnelles, ils peuvent utiliser des données synthétiques aux mêmes fins que ces jeux de données privés. Ces données synthétiques créent des données similaires qui présentent les mêmes informations statistiquement pertinentes sans exposer les données privées ou sensibles. Prenons l'exemple de la recherche médicale qui crée des données synthétiques à partir d'un jeu de données en temps réel : les données synthétiques conservent le même pourcentage de caractéristiques biologiques et de marqueurs génétiques que le jeu de données d'origine, mais tous les noms, adresses et autres informations personnelles des patients sont faux.

Réduction des biais

Vous pouvez utiliser des données synthétiques pour réduire les biais dans les modèles de formation à l'IA. Comme les grands modèles s'entraînent généralement sur la base de données accessibles au public, le texte peut être biaisé. Les chercheurs peuvent utiliser des données synthétiques pour contraster avec tout langage biaisé ou toute information collectée par les modèles d'IA. Par exemple, si certains contenus basés sur des opinions favorisent un groupe en particulier, vous pouvez créer des données synthétiques pour équilibrer le jeu de données global.

Quels sont les types de données synthétiques ?

Il existe deux principaux types de données synthétiques : les données partielles et les données complètes.

Données synthétiques partielles

Les données partiellement synthétiques remplacent une petite partie d'un jeu de données réel par des informations synthétiques. Vous pouvez l'utiliser pour protéger les parties sensibles d'un jeu de données. Par exemple, si vous avez besoin d'analyser des données spécifiques à un client, vous pouvez synthétiser des attributs tels que le nom, les coordonnées et d'autres informations réelles qu'une personne pourrait retracer jusqu'à une personne en particulier.  

Données synthétiques complètes

Les données synthétiques complètes permettent de générer entièrement de nouvelles données. Un jeu de données entièrement synthétique ne contiendra aucune donnée réelle. Toutefois, elle utilisera les mêmes relations, les mêmes distributions graphiques et les mêmes propriétés statistiques que les données réelles. Bien que ces données ne proviennent pas de données réellement enregistrées, elles vous permettent de tirer les mêmes conclusions.

Vous pouvez utiliser des données entièrement synthétiques lorsque vous testez des modèles de machine learning. C'est utile lorsque vous souhaitez tester ou créer de nouveaux modèles mais que vous ne disposez pas de suffisamment de données d'entraînement réelles pour améliorer la précision du ML.

Comment sont générées les données synthétiques ?

La génération de données synthétiques implique l'utilisation de méthodes informatiques et de simulations pour créer des données. Le résultat imite les propriétés statistiques des données réelles, mais ne contient pas d'observations réelles. Ces données générées peuvent prendre différentes formes, notamment du texte, des chiffres, des tableaux ou des types plus complexes tels que des images et des vidéos. Il existe trois approches principales pour générer des données synthétiques, chacune offrant différents niveaux de précision et de types de données. 

Distribution statistique

Dans cette approche, les données réelles sont d'abord analysées pour identifier leurs distributions statistiques sous-jacentes, telles que les distributions normales, exponentielles ou du Khi deux. Les spécialistes de données génèrent ensuite des échantillons synthétiques à partir de ces distributions identifiées pour créer un jeu de données qui ressemble statistiquement à l'original.

axé sur un modèle 

Dans cette approche, un modèle de machine learning est formé pour comprendre et reproduire les caractéristiques des données réelles. Une fois que le modèle a été entraîné, il peut générer des données artificielles qui suivent la même distribution statistique que les données réelles. Cette approche est particulièrement utile pour créer des jeux de données hybrides, qui combinent les propriétés statistiques de données réelles avec des éléments synthétiques supplémentaires.

Méthodes de deep learning

Des techniques avancées telles que les réseaux antagonistes génératifs (GAN), les auto-encodeurs variationnels (VAE) et d'autres peuvent être utilisées pour générer des données synthétiques. Ces méthodes sont souvent utilisées pour des types de données plus complexes, tels que des images ou des données de séries temporelles, et peuvent produire des jeux de données synthétiques de haute qualité.
 

Que sont les technologies de génération de données synthétiques ?

Nous décrivons ci-dessous certaines technologies avancées que vous pouvez utiliser pour la génération de données synthétiques.

Réseau antagoniste génératif

Les modèles de réseaux antagonistes génératifs (GAN) utilisent deux réseaux neuronaux qui fonctionnent ensemble pour générer et classer de nouvelles données. L'un utilise des données brutes pour produire des données synthétiques tandis que le second évalue, caractérise et classe ces informations. Les deux réseaux se font concurrence jusqu'à ce que le réseau d'évaluation ne puisse plus différencier les données synthétiques des données d'origine. 

Vous pouvez utiliser le GAN pour créer des données générées artificiellement qui sont hautement naturalistes et présentent de manière fidèle des variations de données du monde réel, telles que des vidéos et des images réalistes.

En savoir plus sur les réseaux antagonistes génératifs (GAN) »

Auto-codeurs variationnels 

Les auto-encodeurs variationnels (VAE) sont des algorithmes qui génèrent de nouvelles données sur la base de représentations de données d'origine. L'algorithme non supervisé apprend la distribution des données brutes, puis utilise une architecture encodeur-décodeur pour générer de nouvelles données via une double transformation. Le codeur compresse les données d'entrée dans une représentation de dimension inférieure, et le décodeur reconstruit de nouvelles données à partir de cette représentation latente. Le modèle utilise des calculs probabilistes pour des recréations fluides.

La VAE est particulièrement utile pour générer des données synthétiques très similaires avec des variations. Par exemple, vous pouvez utiliser la VAE lors de la génération de nouvelles images. 

Modèles basés sur des transformateurs

Les transformateurs génératifs préentraînés ou les modèles basés sur le GPT utilisent de grands jeux de données originaux pour comprendre la structure et la distribution typique des données. Vous les utilisez principalement dans la génération du traitement du langage naturel (NLP). Par exemple, si un modèle de texte basé sur un transformateur est entraîné sur un grand jeu de données de texte anglais, il apprend la structure, la grammaire et même les nuances de la langue. Lors de la génération de données synthétiques, le modèle commence par un texte initial (ou invite) et prédit le mot suivant en fonction des probabilités qu'il a apprises, générant ainsi une séquence complète.

En savoir plus sur le GPT »

Quels sont les défis liés à la génération de données synthétiques ?

La création de données synthétiques présente plusieurs défis. Vous trouverez ci-dessous quelques limites et défis généraux que vous rencontrerez probablement avec les données synthétiques.

Contrôle qualité

La qualité des données est essentielle pour les statistiques et les analyses. Avant d'intégrer des données synthétiques dans des modèles d'apprentissage, vous devez vérifier leur précision et leur qualité minimale. Cependant, s'assurer que personne ne peut retracer les points de données synthétiques jusqu'à des informations réelles peut nécessiter une réduction de la précision. Un compromis entre confidentialité et précision pourrait avoir un impact sur la qualité.

Vous pouvez effectuer des vérifications manuelles des données synthétiques avant de les utiliser, ce qui peut aider à résoudre ce problème. Cependant, la vérification manuelle peut prendre beaucoup de temps si vous devez générer de nombreuses données synthétiques.

Défis techniques

La création de données synthétiques est difficile : vous devez comprendre les techniques, les règles et les méthodes actuelles pour garantir leur précision et leur utilité. Vous avez besoin d'une expertise approfondie dans ce domaine avant de générer des données synthétiques utiles.

Quelle que soit l'expertise dont vous disposez, il est difficile de générer des données synthétiques imitant parfaitement leurs homologues du monde réel. Par exemple, les données du monde réel contiennent souvent des valeurs aberrantes et des anomalies que les algorithmes de génération de données synthétiques peuvent rarement recréer.

Confusion entre parties prenantes

Bien que les données synthétiques constituent un outil complémentaire utile, il se peut que toutes les parties prenantes n'en comprennent pas l'importance. En tant que technologie plus récente, certains utilisateurs professionnels peuvent ne pas accepter l'analyse de données synthétiques comme étant pertinente dans le monde réel. D'un autre côté, d'autres peuvent trop insister sur les résultats en raison de l'aspect contrôlé de la génération. Communiquez les limites de cette technologie et ses résultats aux parties prenantes, en vous assurant qu'elles comprennent à la fois les avantages et les inconvénients.

Comment AWS peut-il soutenir vos efforts de génération de données synthétiques ?

Amazon SageMaker est un service entièrement géré utilisé pour préparer les données et construire, former et déployer des modèles de machine learning (ML). Ces modèles conviennent à tous les cas d'utilisation, avec une infrastructure, des outils et des flux de travail entièrement gérés. SageMaker propose deux options qui vous permettent d'étiqueter des données brutes - telles que des images, des fichiers texte et des vidéos - et de générer des données synthétiques étiquetées afin de créer des jeux de données de haute qualité pour l'entraînement des modèles ML.

  • Amazon SageMaker Ground Truth est une offre en libre-service qui facilite l'étiquetage des données. Il vous donne la possibilité d'utiliser des annotateurs humains par le biais d'Amazon Mechanical Turk, de fournisseurs tiers ou de votre propre personnel privé.
  • Amazon SageMaker Ground Truth Plus est un service entièrement géré qui vous permet de créer des jeux de données de formation de haute qualité. Vous n'êtes pas obligé de créer des applications d'étiquetage ou de gérer vous-même le personnel d'étiquetage.

Tout d'abord, vous spécifiez vos besoins en matière d'images synthétiques ou vous fournissez des ressources 3D et des images de référence, telles que des images de conception assistée par ordinateur (CAO). Les artistes numériques AWS créent ensuite des images à partir de zéro ou utilisent des ressources fournies par le client. Les images générées imitent la pose et l'emplacement des objets, incluent des variations d'objets ou de scènes, et ajoutent éventuellement des éléments spécifiques, tels que des rayures, des bosses et d'autres altérations. Cela élimine le processus fastidieux de collecte de données ou la nécessité d'endommager des pièces pour acquérir des images. Vous pouvez générer des centaines de milliers d'images synthétiques qui sont automatiquement étiquetées avec une grande précision.

Commencez à générer des données synthétiques sur AWS en créant un compte gratuit dès aujourd'hui.

Prochaines étapes sur AWS

Créer gratuitement un compte

Obtenez un accès instantané à l'offre gratuite AWS.

S'inscrire 
Commencez à créer sur la console

Démarrez la création dans la console de gestion AWS.

Se connecter