¿Qué son los datos sintéticos?
Los datos sintéticos son datos no creados por humanos que imitan datos del mundo real. Se crea mediante algoritmos de computación y simulaciones basadas en tecnologías de inteligencia artificial generativa. Un conjunto de datos sintéticos tiene las mismas propiedades matemáticas que los datos reales en los que se basa, pero no contiene la misma información. Las organizaciones utilizan datos sintéticos para la investigación, las pruebas, los nuevos desarrollos y la investigación sobre machine learning. Las innovaciones recientes en inteligencia artificial han hecho que la generación de datos sintéticos sea eficiente y rápida, pero también han aumentado su importancia en las preocupaciones reguladoras de datos.
¿Cuáles son las ventajas de los datos sintéticos?
Los datos sintéticos ofrecen varios beneficios a las organizaciones. Repasamos algunos de ellos a continuación.
Generación de datos ilimitada
Puede producir datos sintéticos a pedido y a una escala casi ilimitada. Las herramientas de generación de datos sintéticos son una forma rentable de obtener más datos. También pueden etiquetar previamente (categorizar o marcar) los datos que generan para los casos de uso de machine learning. Obtiene acceso a datos estructurados y etiquetados sin tener que pasar por el proceso de transformar los datos sin procesar desde cero. También puede agregar datos sintéticos al volumen total de datos que tiene, lo que permite obtener más datos de entrenamiento para el análisis.
Protección de la privacidad
Campos como la salud, las finanzas y el sector legal tienen muchas regulaciones de privacidad, derechos de autor y cumplimiento para proteger los datos confidenciales. Sin embargo, deben usar los datos para el análisis y la investigación y a menudo tienen que subcontratar los datos a terceros para su máxima utilización. En lugar de datos personales, pueden usar datos sintéticos para cumplir el mismo propósito que estos conjuntos de datos privados. Crean datos similares que muestran la misma información estadísticamente relevante sin exponer datos privados o confidenciales. Piense en la investigación médica que crea datos sintéticos a partir de un conjunto de datos en tiempo real: los datos sintéticos mantienen el mismo porcentaje de características biológicas y marcadores genéticos que el conjunto de datos original, pero todos los nombres, direcciones y demás información personal del paciente son falsos.
Reducción de sesgos
Puede utilizar datos sintéticos para reducir el sesgo en los modelos de entrenamiento de IA. Como los modelos grandes suelen basarse en datos disponibles públicamente, puede haber sesgos en el texto. Los investigadores pueden utilizar datos sintéticos para contrastar con cualquier lenguaje o información sesgada que recopilen los modelos de IA. Por ejemplo, si cierto contenido basado en opiniones favorece a un grupo en particular, puedes crear datos sintéticos para equilibrar el conjunto de datos general.
¿Cuáles son los tipos de datos sintéticos?
Hay dos tipos principales de datos sintéticos: parciales y completos.
Datos sintéticos parciales
Los datos parcialmente sintéticos sustituyen una pequeña parte de un conjunto de datos real por información sintética. Puede usarlo para proteger partes sensibles de un conjunto de datos. Por ejemplo, si necesita analizar datos específicos de los clientes, puede sintetizar atributos como el nombre, los detalles de contacto y otra información del mundo real que alguien pueda rastrear hasta una persona específica.
Datos totalmente sintéticos
Los datos totalmente sintéticos son aquellos en los que se generan datos completamente nuevos. Un conjunto de datos totalmente sintético no contendrá ningún dato del mundo real. Sin embargo, utilizará las mismas relaciones, distribuciones gráficas y propiedades estadísticas que los datos reales. Si bien estos datos no provienen de datos reales registrados, le permiten sacar las mismas conclusiones.
Puede utilizar datos totalmente sintéticos al probar modelos de machine learning. Resulta útil cuando quiere probar o crear nuevos modelos, pero no dispone de suficientes datos de entrenamiento reales para mejorar la precisión del machine learning.
¿Cómo se generan los datos sintéticos?
La generación de datos sintéticos implica el uso de métodos computacionales y simulaciones para crear datos. El resultado imita las propiedades estadísticas de los datos del mundo real, pero no contiene observaciones reales del mundo real. Estos datos generados pueden adoptar diversas formas, como texto, números, tablas o tipos más complejos, como imágenes y videos. Hay tres enfoques principales para generar datos sintéticos, cada uno de los cuales ofrece diferentes niveles de precisión y tipos de datos.
Distribución estadística
En este enfoque, los datos reales se analizan primero para identificar sus distribuciones estadísticas subyacentes, como las distribuciones normales, exponenciales o de chi-cuadrados. Luego, los científicos de datos generan muestras sintéticas a partir de estas distribuciones identificadas para crear un conjunto de datos que se parezca estadísticamente al original.
Basado en modelos
En este enfoque, se entrena un modelo de machine learning para comprender y replicar las características de los datos reales. Una vez que se ha entrenado el modelo, puede generar datos artificiales que siguen la misma distribución estadística que los datos reales. Este enfoque es particularmente útil para crear conjuntos de datos híbridos, que combinan las propiedades estadísticas de los datos reales con elementos sintéticos adicionales.
Métodos de aprendizaje profundo
Se pueden emplear técnicas avanzadas como las redes generativas antagónicas (GAN), los codificadores automáticos variacionales (VAE) y otras para generar datos sintéticos. Estos métodos se utilizan con frecuencia para tipos de datos más complejos, como imágenes o datos de series temporales, y pueden producir conjuntos de datos sintéticos de alta calidad.
¿Qué son las tecnologías de generación de datos sintéticos?
A continuación, describimos algunas tecnologías avanzadas que puede utilizar para la generación de datos sintéticos.
Redes generativas antagónicas
Los modelos de redes generativas antagónicas (GAN) utilizan dos redes neuronales que trabajan juntas para generar y clasificar nuevos datos. Una usa datos sin procesar para producir datos sintéticos, mientras que la segunda evalúa, caracteriza y clasifica esa información. Ambas redes compiten entre sí hasta que la red de evaluación ya no pueda diferenciar entre los datos sintéticos y los datos originales.
Puede usar GAN para crear datos generados artificialmente que sean altamente naturales y que presenten variaciones de datos del mundo real, como videos e imágenes de aspecto realista.
Lea acerca de las redes generativas antagónicas (GAN) »
Codificadores automáticos variacionales
Los codificadores automáticos variacionales (VAE) son algoritmos que generan datos nuevos basados en representaciones de datos originales. El algoritmo no supervisado aprende la distribución de los datos sin procesar y, a continuación, utiliza la arquitectura de codificador-decodificador para generar nuevos datos mediante una doble transformación. El codificador comprime los datos de entrada en una representación de dimensiones inferiores y el decodificador reconstruye nuevos datos a partir de esta representación latente. El modelo utiliza cálculos probabilísticos para recreaciones fluidas.
El VAE es más útil cuando se generan datos sintéticos muy similares con variaciones. Por ejemplo, puede usar VAE al generar imágenes nuevas.
Modelos basados en transformadores
Los transformadores generativos previamente entrenados o los modelos basados en GPT utilizan grandes conjuntos de datos originales para comprender la estructura y la distribución típica de los datos. Los utiliza principalmente en la generación de procesamiento de lenguaje natural (NLP). Por ejemplo, si un modelo de texto basado en transformadores se entrena con un gran conjunto de datos de texto en inglés, aprende la estructura, la gramática e incluso los matices del idioma. Al generar datos sintéticos, el modelo comienza con un texto inicial (o indicador) y predice la siguiente palabra en función de las probabilidades que ha aprendido, lo que genera una secuencia completa.
¿Cuáles son los desafíos de la generación de datos sintéticos?
Existen varios desafíos a la hora de crear datos sintéticos. A continuación se presentan algunas limitaciones y desafíos generales que probablemente experimentará con los datos sintéticos.
Control de calidad
La calidad de los datos es vital en las estadísticas y el análisis. Antes de incorporar datos sintéticos en los modelos de aprendizaje, debe comprobar que sean precisos y que tengan un nivel mínimo de calidad de datos. Sin embargo, garantizar que nadie pueda rastrear los puntos de datos sintéticos hasta la información real puede requerir una reducción de la precisión. Un equilibrio entre privacidad y precisión podría afectar a la calidad.
Puede realizar comprobaciones manuales de los datos sintéticos antes de usarlos, lo que puede ayudar a solucionar este problema. Sin embargo, la comprobación manual puede llevar mucho tiempo si necesita generar muchos datos sintéticos.
Desafíos técnicos
La creación de datos sintéticos es difícil: debe comprender las técnicas, las reglas y los métodos actuales para garantizar su precisión y utilidad. Necesita una gran experiencia en este campo antes de generar datos sintéticos útiles.
No importa la experiencia que tenga de su lado, es difícil generar datos sintéticos como una imitación perfecta de sus homólogos del mundo real. Por ejemplo, los datos del mundo real suelen incluir valores atípicos y anomalías que los algoritmos de generación de datos sintéticos rara vez pueden recrear.
Confusión de las partes interesadas
Si bien los datos sintéticos son una herramienta complementaria útil, es posible que no todas las partes interesadas comprendan su importancia. Como tecnología más reciente, es posible que algunos usuarios empresariales no acepten que el análisis de datos sintéticos tenga relevancia en el mundo real. Por otro lado, otros pueden exagerar los resultados debido al aspecto controlado de la generación. Comunique los límites de esta tecnología y sus resultados a las partes interesadas, asegurándose de que comprendan tanto las ventajas como las deficiencias.
¿Cómo puede AWS respaldar sus esfuerzos de generación de datos sintéticos?
Amazon SageMaker es un servicio totalmente administrado que puede utilizar para preparar datos y crear, entrenar e implementar modelos de machine learning. Estos modelos son adecuados para cualquier caso de uso con infraestructura, herramientas y flujos de trabajo totalmente administrados. SageMaker ofrece dos opciones que le permiten etiquetar datos sin procesar, como imágenes, archivos de texto y videos, y generar datos sintéticos etiquetados para crear conjuntos de datos de alta calidad para entrenar modelos de ML.
- Amazon SageMaker Ground Truth es una oferta de autoservicio que facilita el etiquetado de los datos. Le brinda la opción de utilizar anotadores humanos a través de Amazon Mechanical Turk, de proveedores externos o de su propio personal privado.
- Amazon SageMaker Ground Truth Plus es un servicio totalmente administrado que le permite crear conjuntos de datos de entrenamiento de alta calidad. No tiene que crear aplicaciones de etiquetado ni administrar el personal de etiquetado por su cuenta.
En primer lugar, especifique sus requisitos de imagen sintética o proporcione activos 3D e imágenes de referencia, como imágenes de diseño asistido por computación (CAD). A continuación, los artistas digitales de AWS crean imágenes desde cero o utilizan recursos proporcionados por los clientes. Las imágenes generadas imitan la postura y la ubicación de los objetos, incluyen variaciones de objetos o escenas y, de forma opcional, agregan inclusiones específicas como rayaduras, imperfecciones y otras alteraciones. Esto elimina el lento proceso de recopilación de datos o la necesidad de dañar las piezas para adquirir imágenes. Puede generar cientos de miles de imágenes sintéticas etiquetadas automáticamente con gran precisión.
Cree una cuenta gratuita hoy mismo para comenzar a generar datos sintéticos en AWS.
Pasos siguientes en AWS
Obtenga acceso instantáneo al nivel Gratuito de AWS.
Comience a crear en la consola de administración de AWS.