Amazon Web Services 한국 블로그
Amazon SageMaker Ground Truth 신규 기능- 합성 데이터 생성 지원
Amazon SageMaker Ground Truth를 사용해 레이블이 지정된 합성 이미지 데이터를 생성할 수 있습니다.
기계 학습(ML) 모델 구축은 높은 수준에서 데이터 수집 및 준비로 시작하여 모델 훈련 및 모델 배포로 이어지는 반복 프로세스입니다. 특히 모델 학습을 위해 크고 다양하며 정확하게 레이블이 지정된 데이터 세트를 수집하는 첫 번째 단계는 종종 까다롭고 시간이 많이 걸립니다.
컴퓨터 비전(CV) 애플리케이션을 예로 들어 보겠습니다. CV 애플리케이션은 산업 환경에서 중요한 역할을 하게 되었습니다. 제조 품질을 개선하거나 창고를 자동화하는 데 도움을 제공하죠. 그러나 이러한 CV 모델을 학습시키기 위해 데이터를 수집하는 일은 시간이 오래 걸리거나 불가능할 수도 있습니다.
데이터 사이언티스트로서 모델이 접하게 될 각종 데이터 변형을 캡처하기 위해 프로덕션 환경에서 수십만 개의 이미지를 수집하느라 몇 달을 소비할 수도 있습니다. 경우에 따라서는 각종 데이터 변형을 찾는 것이 불가능할 수도 있습니다. 예를 들어 희귀 제품 결함의 이미지를 소싱하거나 해당 이미지를 얻기 위해 의도적으로 상품을 손상시켜야 하는 경우 비용이 많이 들 수도 있습니다.
그리고 각종 데이터가 수집되면 이미지에 정확하게 레이블을 지정해야 하는데, 이 작업만 해도 굉장히 까다롭습니다. 이미지를 수동으로 라벨링하는 것은 느린데다 인적 오류에 노출됩니다. 또한 맞춤형 라벨링 도구를 구축하고 확장된 라벨링 작업을 설정하는 과정은 시간과 비용이 많이 들 수 있습니다. 이러한 데이터 문제를 완화하는 한 가지 방법은 합성 데이터를 믹스에 추가하는 것입니다.
실제 데이터와 합성 데이터를 결합할 때의 이점
실제 데이터와 합성 데이터를 결합하면 ML 모델의 학습을 위해 더욱 완전한 학습 데이터 세트를 생성할 수 있습니다.
합성 데이터 자체는 간단한 규칙, 통계 모델, 컴퓨터 시뮬레이션 또는 기타 기술에 의해 생성됩니다. 이를 통해 수천 개의 이미지에 걸쳐 주석에 대한 매우 정확한 레이블을 사용하여 방대한 양의 합성 데이터를 만들 수 있습니다. 레이블 정확도는 하위 개체 또는 픽셀 수준, 그리고 형식 전반에 걸쳐 매우 세밀하게 수행될 수 있습니다. 형식에는 경계 상자, 폴리곤, 깊이 및 세그먼트가 포함됩니다. 합성 데이터는 특히 위성, 항공 또는 드론 이미지 수집에 의존하는 원격 감지 이미지와 비교했을 때 매우 낮은 비용으로도 생성할 수 있습니다.
실제 데이터를 합성 데이터와 결합하면, 실제 데이터에는 부족할 수 있는 다양한 데이터를 추가하여 보다 완전하고 균형 잡힌 데이터 세트를 생성할 수 있습니다. 합성 데이터를 사용하면 실제 데이터에서 찾고 복제하기 어려운 엣지 사례를 포함한 모든 이미지 환경을 자유롭게 만들 수 있습니다. 예를 들어 다양한 조명, 색상, 텍스처, 포즈 또는 배경을 반영하도록 다양한 개체와 환경을 사용자 정의할 수 있습니다. 다시 말해, ML 모델을 학습시키기 위한 정확한 사용 사례를 ‘주문’할 수 있습니다.
이제 SageMaker Ground Truth를 사용하여 레이블이 지정된 합성 이미지를 소싱하는 방법을 보여 드리겠습니다.
Amazon SageMaker Ground Truth로 합성 데이터 프로젝트 시작하기
새로운 합성 데이터 프로젝트를 요청하려면, Amazon SageMaker Ground Truth 콘솔로 이동하여 합성 데이터(Synthetic data)를 선택합니다.
그런 다음, 프로젝트 포털 열기(Open project portal)를 선택합니다. 프로젝트 포털에서는 새 프로젝트를 요청하고, 진행 중인 프로젝트를 모니터링하며, 생성된 이미지 배치를 검토할 수 있습니다. 새 프로젝트를 시작하려면, 프로젝트 요청하기(Request project)를 선택합니다.
합성 데이터 요구 사항을 설명하고 연락처 정보를 제공합니다.
요청 양식을 제출한 후, 프로젝트 대시보드에서 프로젝트 상태를 확인할 수 있습니다.
다음 단계에서는 AWS 전문가가 프로젝트 요구 사항에 대해 더 자세히 논의하기 위해 연락을 드릴 것입니다. 검토 후, 팀은 맞춤형 견적 및 프로젝트 일정을 공유합니다.
계속 진행하면 검토를 위해 AWS 디지털 아티스트가 파일럿 프로덕션으로 레이블이 지정된 합성 이미지의 작은 테스트 배치를 생성합니다.
팀은 참조용 사진 및 사용 가능한 2D 및 3D 자산과 같은 프로젝트 입력 사항들을 수집합니다. 그런 다음 팀은 이러한 자산들을 사용자 정의하고, 스크래치, 찌그러짐 및 텍스처와 같은 지정된 포함 사항들을 추가하고, 생성되는 모든 변형을 설명하는 구성을 만듭니다.
또한 요구 사항에 따라 새 객체를 생성 및 추가하고, 장면에서의 객체 분포와 위치를 구성하고, 객체의 크기, 모양, 색상 및 표면 텍스처를 수정할 수 있습니다.
객체들이 준비되면 가상 세계에 배치된 센서로 장면의 이미지를 캡처하는 사실적 물리 엔진을 사용하여 렌더링됩니다. 이미지도 자동으로 레이블이 지정됩니다. 레이블에는 2D 경계 상자, 인스턴스 분할 및 윤곽선이 포함됩니다.
프로젝트 세부 정보 페이지에서 데이터 생성 작업의 진행 상황을 모니터링할 수 있습니다. 파일럿 생산 테스트 배치를 검토할 수 있게 되면, 이미지를 현장 확인하고 재작업이 필요한 사항들에 대한 피드백을 제공할 수 있습니다.
검토하려는 배치를 선택하고세부 정보 보기(View details)를 선택합니다.
이미지 외에도 출력 이미지 레이블, 개체 위치와 같은 메타데이터 및 이미지 품질 지표를 Amazon SageMaker 호환 JSON 파일로 수신합니다.
합성 이미지 정확도 및 차이점 보고서
사용 가능한 각 이미지 배치와 함께, 합성 이미지 정확도 및 차이점 보고서도 받게 됩니다. 이 보고서는 생성된 합성 이미지를 이해하는 데 도움이 되는 이미지 및 객체 수준의 통계와 플롯을 제공합니다.
해당 통계는 합성 이미지의 차이점과 정확도를 설명하고 실제 이미지와 비교하는데 사용됩니다. 제공되는 통계 및 플롯의 예로는 객체 종류, 객체 크기, 이미지 밝기, 이미지 대비 관련 사항들뿐만 아니라 합성 이미지와 실제 이미지 간의 구분할 수 없음을 평가하는 플롯 등이 있습니다.
파일럿 제작 테스트 배치를 승인하면, 팀은 제작 단계로 이동하여 2D 경계 상자, 인스턴스 분할 및 윤곽선 등의 원하는 레이블 유형으로 레이블이 지정된 합성 이미지의 더 큰 배치를 생성하기 시작합니다. 테스트 배치와 마찬가지로, 이미지의 각 제작 배치는 이미지 정확도 및 차이점 보고서와 함께 현장 검사, 수락, 또는 거부가 가능하도록 만들어집니다.
최종 제작이 완료되면 S3 버킷에서 모든 이미지와 아티팩트를 다운로드할 수 있습니다.
정식 출시
Amazon SageMaker Ground Truth 합성 데이터는 미국 동부(버지니아 북부)에서 사용할 수 있습니다. 합성 데이터는 라벨별로 가격이 책정됩니다. 프로젝트 요구 사항 양식을 작성하여 특정 사용 사례 및 요구 사항에 맞는 맞춤형 견적을 요청할 수 있습니다.
Amazon SageMaker 데이터 레이블링 페이지에서 SageMaker Ground Truth 합성 데이터에 대해 자세히 알아보세요.
오늘 Amazon SageMaker Ground Truth 콘솔을 통해 합성 데이터 프로젝트를 요청하세요!
— Antje