합성 데이터란 무엇인가요?

합성 데이터는 실제 데이터를 모방한, 인간이 생성하지 않은 데이터입니다. 생성형 인공 지능 기술을 기반으로 한 컴퓨팅 알고리즘 및 시뮬레이션을 통해 생성됩니다. 합성 데이터 세트는 기반이 되는 실제 데이터와 동일한 수리적 속성을 갖지만 동일한 정보를 포함하지 않습니다. 조직에서는 연구, 테스트, 신규 개발, 기계 학습 연구에 합성 데이터를 사용합니다. 최근 AI의 혁신으로 합성 데이터 생성이 효율적이고 빨라졌지만 데이터 규제 문제에서 합성 데이터의 중요성도 커졌습니다.

합성 데이터의 이점은 무엇인가요?

합성 데이터는 여러 가지 이점을 제공합니다. 다음으로 그러한 이점을 몇 가지 살펴보겠습니다.

무제한 데이터 생성

필요에 따라 거의 무제한으로 합성 데이터를 생성할 수 있습니다. 합성 데이터 생성 도구는 더 많은 데이터를 얻을 수 있는 비용 효율적인 방법입니다. 또한 기계 학습 사용 사례를 위해 생성한 데이터에 사전 레이블링(분류 또는 표시)할 수 있습니다. 원시 데이터를 완전히 새로 변환하는 프로세스를 거치지 않고도 구조화되고 레이블링된 데이터에 액세스할 수 있습니다. 보유한 전체 데이터 볼륨에 합성 데이터를 추가하여 분석을 위한 훈련 데이터를 추가로 생성할 수도 있습니다.

프라이버시 보호

의료, 금융 및 법률 부문과 같은 분야에는 민감한 데이터를 보호하기 위한 프라이버시, 저작권 및 규정 준수 규정이 많이 적용됩니다. 하지만 분석 및 연구에는 데이터를 사용해야 하며, 활용도를 극대화하기 위해 데이터를 서드 파티에 아웃소싱해야 하는 경우가 많습니다. 개인 데이터 대신 합성 데이터를 사용하여 이러한 개인 데이터 세트와 동일한 용도로 사용할 수 있습니다. 합성 데이터는 개인 데이터나 민감한 데이터를 노출하지 않으면서 동일한 통계 관련 정보를 보여주는 유사한 데이터를 생성합니다. 실시간 데이터 세트에서 합성 데이터를 생성하는 의학 연구를 떠올려 보세요. 합성 데이터는 원래 데이터 세트와 동일한 비율의 생물학적 특성 및 유전자 마커를 유지하지만 이름, 주소 및 기타 개인 환자 정보는 모두 가짜입니다.

편향 감소

합성 데이터를 사용하여 AI 훈련 모델의 편향을 줄일 수 있습니다. 대규모 모델은 일반적으로 공개된 데이터를 사용하여 훈련되므로 텍스트에 편향이 있을 수 있습니다. 연구원은 합성 데이터를 사용하여 AI 모델이 수집하는 편향된 언어 또는 정보와 대조되는 결과를 제공할 수 있습니다. 예를 들어 특정 의견을 바탕으로 한 콘텐츠가 특정 그룹에 유리한 경우, 합성 데이터를 생성하여 전체 데이터 세트의 균형을 맞출 수 있습니다.

합성 데이터의 유형은 어떤 것들이 있나요?

합성 데이터에는 두 가지 주요 유형, 즉 부분 합성 데이터와 완전 합성 데이터가 있습니다.

부분 합성 데이터

부분 합성 데이터는 실제 데이터 집합의 일부를 합성 정보로 대체합니다. 이 데이터를 사용하여 데이터 세트의 민감한 부분을 보호할 수 있습니다. 예를 들어 고객별 데이터를 분석해야 하는 경우 이름, 연락처 세부 정보 및 다른 사람이 그 사람을 추적할 수 있는 기타 실제 정보와 같은 속성을 합성할 수 있습니다.  

완전 합성 데이터

완전 합성 데이터는 완전히 새로운 데이터를 생성하는 방식입니다. 완전 합성 데이터 세트에는 실제 데이터가 포함되지 않습니다. 하지만 실제 데이터와 동일한 관계, 도표 분포 및 통계 속성을 사용합니다. 이 데이터는 실제로 기록된 데이터에서 나온 것은 아니지만 동일한 결론을 도출할 수 있도록 합니다.

기계 학습 모델을 테스트할 때 완전 합성 데이터를 사용할 수 있습니다. 새 모델을 테스트하거나 만들고 싶지만 ML 정확도를 높일 만큼 실제 학습 데이터가 충분하지 않은 경우에 유용합니다.

합성 데이터는 어떻게 생성되나요?

합성 데이터 생성에는 계산 방식 및 시뮬레이션을 사용하여 데이터를 생성하는 작업이 포함됩니다. 결과는 실제 데이터의 통계적 속성을 모방하지만 실제 관측치는 포함하지 않습니다. 생성된 데이터는 텍스트, 숫자, 표 또는 이미지 및 비디오와 같은 더 복잡한 유형을 비롯하여 다양한 형식을 취할 수 있습니다. 합성 데이터를 생성하는 세 가지 주요 방식이 있으며, 각각의 방식은 서로 다른 수준의 데이터 정확도와 유형을 제공합니다. 

통계적 분포

이 방식에서는 먼저 실제 데이터를 분석하여 정규 분포, 지수 분포 또는 카이-제곱 분포와 같은 기본 통계 분포를 식별합니다. 그런 다음 데이터 사이언티스트가 식별된 분포에서 합성 샘플을 생성하여 원본과 통계적으로 유사한 데이터 세트를 만듭니다.

모델 기반

이 방식에서는 실제 데이터의 특성을 이해하고 복제하도록 훈련된 기계 학습 모델을 사용합니다. 모델이 훈련되면 실제 데이터와 동일한 통계 분포를 따르는 인공 데이터를 생성할 수 있습니다. 이 방식은 실제 데이터의 통계학적 속성을 추가 합성 요소와 결합하는 하이브리드 데이터 세트를 만드는 데 특히 유용합니다.

딥 러닝 방식

생성형 대립 네트워크(GAN), 변이형 오토인코더(VAE) 등의 고급 기술을 사용하여 합성 데이터를 생성할 수 있습니다. 이 방식은 이미지나 시계열 데이터와 같은 복잡한 데이터 유형에 자주 사용되며 고품질 합성 데이터 세트를 생성할 수 있습니다.
 

합성 데이터 생성 기술이란 무엇인가요?

아래에는 합성 데이터 생성에 사용할 수 있는 몇 가지 고급 기술이 요약되어 있습니다.

생성형 대립 네트워크

생성형 대립 네트워크(GAN) 모델은 함께 작동하는 두 개의 신경망을 사용하여 새 데이터를 생성하고 분류합니다. 신경망 중 하나는 원시 데이터를 사용하여 합성 데이터를 생성하고, 다른 하나는 해당 정보를 평가, 특성화 및 분류합니다. 평가 네트워크가 더 이상 합성 데이터와 원본 데이터를 구분할 수 없을 때까지 두 네트워크는 서로 경쟁합니다. 

GAN을 사용하여 매우 자연스럽고 사실적인 비디오 및 이미지와 같은 실제 데이터에 변형을 매우 자연스럽게 사실적으로 표현하는 데이터를 인위적으로 생성할 수 있습니다.

생성형 대립 네트워크(GAN)에 대해 읽어보기 »

변이형 오토인코더

변이형 오토인코더(VAE)는 원본 데이터의 표현을 기반으로 새 데이터를 생성하는 알고리즘입니다. 비지도 알고리즘은 원시 데이터의 분포를 학습한 다음 인코더-디코더 아키텍처를 사용하여 이중 변환을 통해 새 데이터를 생성합니다. 인코더는 입력 데이터를 저차원 표현으로 압축하고, 디코더는 이 잠재적 표현으로부터 새 데이터를 재구성합니다. 이 모델은 자연스러운 재창조를 위해 확률적 계산을 사용합니다.

VAE는 변형이 적용된 매우 유사한 합성 데이터를 생성할 때 가장 유용합니다. 예를 들어 새 이미지를 생성할 때 VAE를 사용할 수 있습니다. 

트랜스포머 기반 모델

사전 훈련된 생성형 트랜스포머 또는 GPT 기반 모델은 대규모 원본 데이터 세트를 사용하여 데이터의 구조와 일반적인 분포를 파악합니다. 주로 자연어 처리(NLP) 생성에 사용됩니다. 예를 들어 트랜스포머 기반 텍스트 모델을 대규모 영어 텍스트 데이터 세트로 훈련하면, 모델이 언어의 구조, 문법, 심지어 뉘앙스까지 학습하게 됩니다. 합성 데이터를 생성할 때 모델은 시드 텍스트(또는 프롬프트)로 시작하고 학습한 확률을 기반으로 다음 단어를 예측하여 완전한 시퀀스를 생성합니다.

GPT에 대해 읽어보기 »

합성 데이터 생성과 관련한 어려움은 어떤 것이 있나요?

합성 데이터를 생성할 때는 몇 가지 해결해야 할 과제가 있습니다. 다음은 합성 데이터를 사용할 때 발생할 수 있는 몇 가지 일반적인 한계와 과제입니다.

품질 관리

데이터 품질은 통계 및 분석에서 매우 중요합니다. 학습 모델에 합성 데이터를 통합하기 전에 합성 데이터가 정확하고 최소 수준의 데이터 품질을 갖췄는지 확인해야 합니다. 하지만 다른 사람이 합성 데이터 포인트를 추적하여 실제 정보를 알아내지 못하도록 정확도를 낮춰야 할 수도 있습니다. 이 같은 프라이버시와 정확성의 절충은 품질에 영향을 미칠 수 있습니다.

합성 데이터를 사용하기 전에 수동으로 검사하여 이 문제를 해결할 수 있습니다. 하지만 대량의 합성 데이터를 생성해야 하는 경우 수동으로 확인하는 데 시간이 많이 걸릴 수 있습니다.

기술적 당면 과제

합성 데이터를 만들기는 쉽지 않습니다. 정확성과 유용성을 보장하려면 기법, 규칙 및 최신 방법을 알아야 합니다. 유용한 합성 데이터를 생성하려면 먼저 이 분야에 대한 높은 전문성을 갖추어야 합니다.

아무리 많은 전문 지식이 있더라도 실제 데이터를 완벽하게 모방하여 합성 데이터를 생성하기는 어렵습니다. 예를 들어 실제 데이터에는 합성 데이터 생성 알고리즘이 거의 재현할 수 없는 이상치와 변칙이 포함되는 경우가 많습니다.

이해관계자 혼란

합성 데이터가 유용한 보조 도구이긴 하지만 모든 이해관계자가 그 중요성을 이해하는 것은 아닙니다. 최신 기술인 만큼 일부 비즈니스 사용자는 합성 데이터 분석을 실제 세상과는 동떨어진 것으로 생각할 수 있습니다. 반대로, 통제된 생성 방식 때문에 결과에만 지나치게 집착하는 사람도 있습니다. 이해관계자에게 이 기술의 한계와 그 결과를 전달하여 이해관계자가 이점과 단점을 모두 이해하도록 하세요.

AWS는 합성 데이터 생성 작업을 어떻게 지원하나요?

Amazon SageMaker는 데이터를 준비하고 기계 학습(ML) 모델을 구축, 훈련 및 배포하는 데 사용되는 완전관리형 서비스입니다. 이 모델은 완전관리형 인프라, 도구 및 워크플로가 있는 모든 사용 사례에 적합합니다. SageMaker는 이미지, 텍스트 파일 및 비디오와 같은 원시 데이터를 레이블링하고, 레이블링된 가상 데이터를 생성하여 기계 학습 모델을 위한 고품질 데이터 세트를 만들 수 있는 두 가지 옵션을 제공합니다.

  • Amazon SageMaker Ground Truth는 데이터를 손쉽게 레이블링할 수 있는 셀프 서비스 오퍼링입니다. 이 서비스는 Amazon Mechanical Turk, 서드 파티 공급업체 또는 자체 개인 인력을 통해 사람에게 주석 업무를 맡길 수 있는 옵션을 제공합니다.
  • Amazon SageMaker Ground Truth Plus는 양질의 훈련 데이터 세트를 생성할 수 있는 완전관리형 서비스입니다. 직접 레이블링 애플리케이션을 구축하거나 레이블링 인력을 관리할 필요가 없습니다.

먼저, Computer-Aided Design(CAD) 이미지와 같은 3D 자산 및 기준 이미지를 제공하거나 합성 이미지 요구 사항을 지정합니다. 그러면 AWS 디지털 아티스트가 이미지를 처음부터 새로 만들거나 고객이 제공한 자료를 이용합니다. 생성된 이미지는 객체의 포즈 및 배치를 모방하고, 객체 또는 장면의 변형을 포함하고, 필요에 따라 긁힘, 흠집, 그 밖의 변경 같은 특정 포함 사항을 추가합니다. 따라서 시간이 많이 걸리는 데이터 수집 프로세스를 거치지 않아도 되고 이미지를 획득하기 위해 부품을 손상시킬 필요가 없습니다. 높은 정확도로 자동 레이블링되는 수십만 개의 가상 이미지를 생성할 수 있습니다.

지금 무료 계정을 만들어 AWS에서 합성 데이터 생성을 시작하세요.

AWS의 다음 단계

무료 계정에 가입

AWS 프리 티어에 즉시 액세스할 수 있습니다.

가입 
콘솔에서 구축 시작

AWS Management Console에서 구축을 시작하세요.

로그인