什么是合成数据?

合成数据是一种模仿真实世界数据的非人工创建的数据。它是由基于生成式人工智能技术的计算算法和模拟创建而成。合成数据集具有与其所基于的实际数据相同的数学特性,但不包含相同信息。组织使用合成数据进行研究、测试、新开发和机器学习研究。人工智能领域的最新创新技术让合成数据的生成变得高效且快速,但也提升了其在数据监管问题中的重要性。

合成数据有哪些优势?

合成数据为组织提供多种优势。我们将在下面介绍其中的一些优势。

无限量生成数据

可以按需生成几乎无限规模的合成数据。合成数据生成工具是获取更多数据的一种经济高效的方式。这些工具还可以预先标注(分类或标记)为机器学习使用案例生成的数据。您无需经历从头开始转换原始数据的过程,即可访问结构化的标注数据。还可以将合成数据添加到拥有的总数据量中,从而生成更多用于分析的训练数据。

隐私保护

医疗保健、金融和法律部门等领域制定了许多保护敏感数据的隐私、版权和合规法规。但是,这些领域必须使用数据进行分析和研究,通常必须将数据外包给第三方以最大限度地利用数据。它们可以使用合成数据代替个人数据来达到与这些私有数据集相同的目的。它们创建类似的数据,在不暴露私有或敏感数据的情况下显示相同的统计相关信息。以医学研究根据实时数据集创建合成数据为例,合成数据保持与原始数据集相同的生物学特征和遗传标记百分比,但所有姓名、地址和其他个人患者信息都是虚假的。

减少偏差

可以使用合成数据来减少人工智能训练模型中的偏差。由于大型模型通常使用公开的数据进行训练,因此文本中可能存在偏差。研究人员可以使用合成数据来对比人工智能模型收集的任何带偏差的语言或信息。例如,如果某些基于观点的内容偏向特定群体,则可以创建合成数据来平衡整个数据集。

合成数据有哪些类型?

合成数据主要有两种类型 — 部分和完整。

部分合成数据

部分合成数据用合成信息取代真实数据集的一小部分。可以使用此类型保护数据集的敏感部分。例如,如果需要分析客户特定的数据,则可以合成诸如姓名、联系方式以及其他可以追溯到特定人员的真实世界信息之类的属性。  

完整合成数据

在完整合成数据中,您完全生成新的数据。完整合成数据集将不包含任何真实世界的数据。但是,它将使用与真实数据相同的关系、绘图分布和统计属性。虽然这些数据不是来自实际记录的数据,但它可以让您得出相同的结论。

在测试机器学习模型时,您就可以使用完整合成数据。如果想要测试或创建新模型,但没有足够的真实训练数据来提高机器学习准确性,完整合成数据就会很有用。

如何生成合成数据?

合成数据的生成涉及使用计算方法和模拟来创建数据。结果模仿现实世界数据的统计特性,但不包含实际的真实观察结果。生成的数据可以采用各种形式,包括文本、数字、表或更复杂的类型,例如图像和视频。生成合成数据主要有三种方法,每种方法都提供不同级别的数据准确性和类型。 

统计分布

在这种方法中,首先分析真实数据以确定其潜在的统计分布,例如正态分布、指数分布或卡方分布。然后,数据科学家从这些已识别的分布中生成合成样本,以创建在统计学上与原始数据集相似的数据集。

基于模型

在这种方法中,训练机器学习模型以理解和复制真实数据的特征。经过训练的模型可以生成与真实数据具有相同统计分布的人工数据。这种方法对于创建混合数据集特别有用,混合数据集将真实数据的统计特性与其他合成元素相结合。

深度学习方法

可以使用生成对抗网络(GAN)、变分自动编码器(VAE)等高级技术来生成合成数据。这些方法通常用于更复杂的数据类型,例如图像或时间序列数据,并且可以生成高质量的合成数据集。
 

什么是合成数据生成技术?

我们在下面概述了一些可用于生成合成数据的高级技术。

生成对抗网络

生成对抗网络(GAN)模型使用两个神经网络协同工作来生成和分类新数据。一个网络使用原始数据生成合成数据,而第二个网络则对该信息进行评估、特征化和分类。这两个网络相互竞争,直到评估网络无法再区分合成数据和原始数据。 

可以使用 GAN 创建人工生成的数据,这些数据高度自然,可以密切呈现现实世界数据的变化,例如逼真的视频和图像。

阅读有关生成对抗网络(GAN)的内容 »

变分自动编码器

变分自动编码器(VAE)是基于原始数据的表示生成新数据的算法。无监督算法学习原始数据的分布,然后使用编码器-解码器架构通过双重变换生成新数据。编码器将输入数据压缩成低维表示形式,解码器根据这种潜在表示形式重建新数据。该模型使用概率计算来实现顺畅的数据重建。

在生成具有变体的非常相似的合成数据时,VAE 最有用。例如,可以在生成新图像时使用 VAE。 

基于转换器的模型

生成式预训练转换器或基于 GPT 的模型使用大型原始数据集来了解数据的结构和典型分布。主要在自然语言处理(NLP)生成中使用这些模型。例如,如果基于转换器的文本模型在大型英语文本数据集上训练,它就会学习该语言的结构、语法甚至细微差别。生成合成数据时,模型从种子文本(或提示)开始,并根据所学的概率预测下一个单词,从而生成完整的序列。

了解 GPT »

合成数据生成面临哪些挑战?

创建合成数据时会面临一些挑战。以下是您在使用合成数据时可能会遇到的一些一般限制和挑战。

质量控制

数据质量在统计和分析中至关重要。在将合成数据纳入学习模型之前,必须检查其准确性以及是否达到最低数据质量水平。但是,确保没有人能够通过合成数据点追溯到真实信息可能需要降低准确性。在隐私和准确性方面进行权衡可能会影响质量。

在使用合成数据之前,您可以对其进行手动检查,这可以帮助解决此问题。但是,如果您需要生成大量合成数据,则手动检查可能会变得很耗时。

技术挑战

创建合成数据很困难 — 必须了解技术、规则和当前方法,以确保其准确性和实用性。在生成任何有用的合成数据之前,您需要在该领域具有很高的专业知识。

无论您掌握多少专业知识,要生成合成数据来完美模仿现实世界中的数据都是一项艰巨的任务。例如,现实世界的数据通常包含离群值和异常值,合成数据生成算法很少能重现这些离群值和异常值。

利益相关者的困惑

尽管合成数据是一种有用的补充工具,但并非所有利益相关者都能理解其重要性。作为一项较新的技术,一些企业用户可能不认为合成数据分析与现实世界息息相关。另一方面,由于生成的受控方面,其他人可能会过分强调结果。向利益相关者传达这项技术的局限性及其结果,确保他们了解优缺点。

AWS 如何支持您的合成数据生成工作?

Amazon SageMaker 是一项完全托管的服务,用于准备数据以及构建、训练和部署机器学习(ML)模型。这些模型适用于任何具有完全托管基础设施、工具和工作流程的使用案例。SageMaker 提供两个选项,可让您标记原始数据,例如图像、文本文件和视频,并生成标注合成数据,以创建用于训练 ML 模型的高质量数据集。

  • Amazon SageMaker Ground Truth 是一款自助服务,可轻松标注数据。借助该服务,您可以选择通过 Amazon Mechanical Turk、第三方供应商或自己的私人员工使用人工标注人员。
  • Amazon SageMaker Ground Truth Plus 是一项完全托管的服务,可让您创建高质量的训练数据集。您不必自己构建标注应用程序或管理标注人员。

首先,您要指定合成图像要求或提供 3D 资产和基准图像,如计算机辅助设计(CAD)图像。然后,AWS 数字艺术家从头开始创建图像或使用客户提供的资产。生成的图像会模仿对象的姿势和位置,包括对象或场景变体,并选择性添加特定的包含内容,例如划痕、凹痕和其他更改。这可避免收集数据的耗时过程,也无需损坏部件以获取图像。可以生成数十万计自动执行高度准确标注的合成图像。

立即创建免费账户,开始在 AWS 上使用合成数据生成。

AWS 上的后续步骤

注册免费账户

立即享受 AWS 免费套餐。

注册 
开始在控制台中构建

在 AWS 管理控制台中开始构建。

登录