亚马逊AWS官方博客

新增 – Amazon SageMaker Ground Truth 现在支持合成数据生成

今天,我很高兴宣布,您现在可以使用 Amazon SageMaker Ground Truth 生成带标签的合成图像数据。

构建机器学习(ML)模型是一个迭代过程,概括来讲,首先是数据收集和准备,然后是模型训练和模型部署。尤其是第一步,为训练模型而收集大规模、多样化且标注准确的数据集,这通常富有挑战且比较耗时。

下面,我们以计算机视觉(CV)应用程序为例,了解机器学习。CV 应用程序已在工业领域发挥关键作用。它们有助于提高制造质量或实现仓库自动化。但是,要收集数据来训练这些 CV 模型,通常需要很长时间,或者可能无法实现。

作为数据科学家,您可能需要花费数月的时间从生产环境中收集成千上万张图像,确保捕获模型将遇到的所有数据变体。在某些情况下,例如,如需获取罕见产品缺陷的图像,甚至可能无法找到所有数据变体,或者如果您必须故意损坏产品才能获得这些图像,则成本十分高昂。

收集所有数据之后,您需要准确标注图像,这本身通常就是一项艰巨的任务。手动标注图像比较慢且容易出现人为错误,并且构建自定义标注工具和设置扩展标注操作可能既耗时又昂贵。要缓解这种数据挑战,一种方法是在组合中添加合成数据。

将真实数据与合成数据整合的优势
将真实数据与合成数据整合,这样有助于创建更完整的训练数据集,用于训练您的机器学习模型。

合成数据本身通过简单规则、统计模型、计算机模拟或其他技术创建。这样可以大批量创建合成数据,并使用高度精确的标签对成千上万张图像进行注释。标签准确度可以达到非常精细的粒度,例如子对象或像素级别以及跨模式。模式包括边界框、多边形、深度和线段。要生成合成数据,还可能只需要一小部分成本,尤其是与依赖卫星、航空或无人机图像收集的遥感影像相比时。

如果将真实数据与合成数据整合,您可以创建更完整、更均衡的数据集,从而增加真实数据可能缺少的数据多样性。借助合成数据,您可以自由创建各种影像环境,包括可能难以在真实数据中查找和复制的边缘案例。您可以使用变体自定义对象和环境,例如,反映不同的光照、颜色、纹理、姿势或背景。换句话说,您可以“订购”确切使用案例并将其用于机器学习训练模型。

现在,我将向您展示如何开始使用 SageMaker Ground Truth 获取带标签的合成图像。

使用 Amazon SageMaker Ground Truth 开始您的合成数据项目
要请求新的合成数据项目,请导航到 Amazon SageMaker Ground Truth 控制台,然后选择 Synthetic data(合成数据)。

Amazon SageMaker Ground Truth 合成数据

然后,选择 Open project portal(打开项目门户)。在项目门户中,您可以请求新项目、监控正在进行的项目,以及在生成的批量图像可供审核后查看这些图像。要启动新项目,请选择 Request project(请求项目)。

Amazon SageMaker Ground Truth 合成数据项目门户

描述您的合成数据需求并提供联系信息。

请求合成数据项目

提交请求表单后,您可以在项目控制面板中查看项目状态。

已创建 Amazon SageMaker Ground Truth 合成数据项目

下一步,AWS 专家将与您联系,更详细地讨论您的项目要求。审核后,团队将共享自定义报价和项目时间表。

如果您想继续,AWS 数字艺术家将首先创建一小批带标签的测试合成图像,作为试点产品供您审核。

他们会收集您的项目输入,例如参考照片以及可用的 2D 和 3D 资产。然后,团队会自定义这些资源,添加指定的内含物(例如划痕、凹痕和纹理),并创建旨在描述所有需要生成的变体的配置。

他们还可以根据您的要求创建和添加新对象,配置场景中对象的分配和位置,以及修改对象大小、形状、颜色和表面纹理。

对象准备好后,系统会使用逼真的物理引擎对其进行渲染,通过虚拟世界中的传感器捕获场景的图像。此外,系统还会自动标记图像。标签包括 2D 边界框、实例分割和轮廓线。

您可以在项目详细信息页面上监控数据生成作业的进度。试点生产测试批次可供审核后,您可以抽查图像并反馈可能需要的所有返工。

可供审核的合成数据批次

选择要审核的批次并查看详细信息
Amazon SageMaker Ground Truth 中的合成数据批次示例

除图像外,您还将收到输出图像标签、元数据(如对象位置)和图像质量指标(作为 Amazon SageMaker 兼容的 JSON 文件)。

合成图像保真度和多样性报告
对于每批可用的图像,您还会收到合成图像保真度和多样性报告。此报告提供了图像和对象级别的统计数据和绘图,有助于您了解生成的合成图像。

统计数据用于描述合成图像的多样性和保真度,并将其与真实图像进行比较。例如,提供的统计数据和绘图包括对象类别的分配、对象大小、图像亮度和图像对比度,以及用于评估合成图像和真实图像之间难以区分性的绘图。

合成图像保真度和多样性报告

您批准试点生产测试批次之后,团队将进入生产阶段,并开始使用所需的标签类型(例如 2D 边界框、实例分割和轮廓线)生成更大批量的带标签合成图像。与测试批次类似,每个生产批次的图像将与图像保真度和多样性报告一起提供,供您抽查、接受或拒绝。

最终生产完成后,您可以从 S3 存储桶下载所有图像和构件。

可用性
Amazon SageMaker Ground Truth 合成数据在美国东部(弗吉尼亚州北部)提供。合成数据按标签定价。您可以填写项目要求表,请求根据您的特定使用案例和要求量身打造的定制报价。

要详细了解 SageMaker Ground Truth 合成数据,请访问我们的 Amazon SageMaker 数据标注页面。

立即通过 Amazon SageMaker Ground Truth 控制台申请合成数据项目吧!

– Antje