Amazon SageMaker Ground Truth Plus
전문 인력
Amazon SageMaker Ground Truth Plus를 사용하면 기계 학습(ML) 태스크에 대한 훈련을 받은 전문 인력이 레이블을 지정하며, 이를 통해 데이터 보안, 개인 정보 보호 및 규정 준수 요구 사항을 충족할 수 있습니다. 예를 들어, 오디오 파일에 레이블을 지정하는 데 숙련된 인력이 필요하면 SageMaker Ground Truth Plus에 제공하는 가이드라인에 이 요구 사항을 지정할 수 있습니다. 그러면 서비스에서 해당 기술을 갖춘 레이블러를 자동으로 선택합니다.
포괄적인 데이터 레이블 지정 관리
Amazon SageMaker Ground Truth Plus를 사용하면 레이블 지정 애플리케이션을 구축하거나 레이블 지정 인력을 직접 관리할 필요 없이 고품질 훈련 데이터 집합을 쉽게 생성할 수 있습니다. Amazon S3의 레이블 지정 요구 사항에 따라 데이터를 업로드할 수 있습니다. 데이터를 업로드하면 SageMaker Ground Truth Plus에서 사용자를 대신하여 데이터 레이블 지정 워크플로를 설정하고 운영합니다.
기계 학습 레이블 지정 기술
Amazon SageMaker Ground Truth Plus에서는 적극적 학습, 사전 레이블 지정, 기계 검증을 포함한 기계 학습 기술을 사용하며, 이를 통해 출력 데이터 집합의 품질을 높이고 데이터 레이블 지정 비용을 줄입니다. 다단계 레이블 지정 워크플로에는 적극적 학습을 위한 기계 학습 모델이 포함됩니다. Ground Truth Plus는 이 기술을 통해 선택한 데이터에 미리 레이블을 지정할 기계 학습 모델(인적 작업 절감) 및 레이블을 지정해야 하는 객체(이미지, 오디오 녹음, 텍스트 섹션 등)를 선택하여 비용을 절감할 수 있습니다. Ground Truth Plus는 기계 검증을 사용하여 잠재적 오류를 식별합니다. 여기서 식별된 오류는 사람이 추가적으로 검토하도록 전송됩니다. 이를 통해 인적 오류를 포착하여 레이블 품질을 크게 높일 수 있습니다. 또한, Ground Truth Plus는 직관적 사용자 인터페이스를 통한 '자동 3D 입방체 스내핑', '비디오 레이블 지정에서 다음 프레임 예측', '자동 세그먼트'와 같은 보조 레이블 지정 기능을 사용하여 품질을 개선하는 동시에 데이터 레이블 지정 태스크에 필요한 시간을 줄여줍니다.
대화형 대시보드
SageMaker Ground Truth Plus에서는 대화형 대시보드와 사용자 인터페이스를 제공합니다. 이를 통해 여러 프로젝트에서 훈련 데이터 집합의 진행 상황을 검토하고, 일일 처리량과 같은 프로젝트 지표를 추적하며, 레이블의 품질을 검사하고, 레이블이 지정된 데이터에 대한 피드백을 제공할 수 있습니다.
Amazon SageMaker Ground Truth
3D 포인트 클라우드 | 동영상 | 이미지 | 텍스트 | 사용자 지정 워크플로 | 인력 | 가상 데이터 생성
3D 포인트 클라우드
3차원(3D) 포인트 클라우드는 단일 시점의 물리적 공간을 3D로 파악하기 위해 빔 탐지 및 거리 측정(LIDAR) 디바이스를 통해 가장 많이 캡처됩니다. SageMaker Ground Truth는 객체 탐지, 객체 추적, 의미 체계 세분화 같은 3D 포인트 클라우드 데이터에 대한 레이블링 워크플로를 기본적으로 지원합니다.
객체 탐지
객체 탐지 워크플로를 활용하면 3D 포인트 클라우드 내에서 대상 객체의 레이블을 식별할 수 있습니다. 예를 들어 자율 주행 차량 사용 사례에서는 차량, 차선 및 보행자를 정확하게 레이블링할 수 있습니다.

객체 추적
객체 추적 워크플로에서는 대상 객체의 궤적을 추적할 수 있습니다. 예를 들어 자율 주행 차량은 다른 차량, 차선 및 보행자의 움직임을 추적해야 합니다. Ground Truth를 사용하면 일련의 3D 포인트 클라우드 데이터에서 이러한 객체의 궤적을 추적할 수 있습니다.

의미 체계 세분화
의미 체계 세분화 워크플로에서는 3D 포인트 클라우드의 포인트를 미리 지정한 카테고리로 세분화할 수 있습니다. 자율 주행 차량을 예로 들면, Ground Truth는 거리, 나뭇잎, 건물의 존재 여부를 분류할 수 있습니다.

동영상
SageMaker Ground Truth는 비디오 객체 감지, 비디오 객체 추적, 비디오 클립 분류 등의 기본 제공 워크플로를 통해 일반적인 비디오 레이블링을 지원합니다.
비디오 객체 감지
비디오 객체 탐지 워크플로를 활용하면 비디오 프레임의 시퀀스 내에서 원하는 객체를 식별할 수 있습니다. 예를 들어 자율 주행 차량의 인식 시스템을 구축할 때 차량 주위의 현장에서 다른 차량을 감지할 수 있습니다.

비디오 객체 추적
비디오 객체 추적 워크플로를 활용하면 비디오 프레임의 시퀀스에 걸쳐 원하는 객체를 추적할 수 있습니다. 예를 들어 스포츠 경기 사용 사례에서 경기 시간 내내 플레이어를 정확하게 레이블링할 수 있습니다.

비디오 클립 분류
비디오 클립 워크플로를 사용하면 비디오 파일을 미리 지정된 범주로 분류할 수 있습니다. 예를 들어 스포츠 경기 또는 교통량이 많은 교차로의 교통 체증과 같이 비디오를 가장 잘 설명하는 미리 지정된 범주를 선택할 수 있습니다.

이미지
SageMaker Ground Truth는 이미지 분류, 객체 탐지, 의미 체계 세분화 같은 이미지 데이터에 대한 레이블링 워크플로를 기본적으로 제공합니다.
이미지 분류
이미지 분류는 이미지의 실세계 표현을 토대로 이미지를 식별하는 프로세스입니다. 이 프로세스에는 사전 정의된 레이블 세트를 기준으로 이미지를 분류하는 과정이 포함됩니다. 이미지 분류는 이미지의 전체 컨텍스트를 고려해야 하는 장면 탐지 모델에 유용합니다. 예를 들어 자율 주행 차량이 다른 차량, 보행자, 신호등, 표지판 같은 다양한 실제 환경의 객체를 탐지하도록 하기 위한 이미지 분류 모델을 구축할 수 있습니다.

객체 탐지
객체 탐지 워크플로를 활용하면 이미지에서 대상 객체(예: 차량, 보행자, 개, 고양이)를 식별하고 레이블링할 수 있습니다. 레이블링 태스크에는 이미지 내의 대상 객체 주변에 2차원 상자인 경계 상자를 그리는 과정이 포함됩니다. 레이블링된 경계 상자가 있는 이미지를 통해 훈련된 컴퓨터 비전 모델은 상자 내의 픽셀이 지정된 객체에 해당한다는 것을 학습합니다.

의미 체계 세분화
의미 체계 세분화를 사용하면 모델이 학습해야 하는 레이블에 해당하는 정확한 이미지 부분을 레이블링할 수 있습니다. 이렇게 하면 개별 픽셀이 레이블링되기 때문에 고도로 정밀한 훈련 데이터가 생성됩니다. 예를 들어 이미지에 있는 차량의 불규칙한 모양을 의미 체계 세분화를 통해 정확하게 캡처할 수 있습니다.

텍스트
SageMaker Ground Truth는 텍스트 분류, 명명된 엔터티 인식 같은 텍스트 데이터에 대한 레이블링 워크플로를 기본적으로 제공합니다.
텍스트 분류
텍스트 분류에는 사전 정의된 레이블 세트를 기준으로 텍스트 문자열을 분류하는 과정이 포함됩니다. 텍스트를 각기 다른 레이블로 분류하는 작업은 주제(예: 제품 설명, 영화 리뷰), 감정 등을 식별하는 자연어 처리(NLP) 모델에 사용되는 경우가 많습니다.

명명된 엔터티 인식
명명된 엔터티 인식(NER)에는 텍스트 데이터를 조사하여 명명된 엔터티라는 구문을 찾고 이러한 각 구문을 “사람”, “조직” 또는 “브랜드” 같은 레이블로 분류하는 과정이 포함됩니다. 따라서 “최근에 Amazon Prime을 구독했습니다.”라는 진술에서 “Amazon Prime”은 명명된 엔터티에 해당하며 “브랜드”로 분류할 수 있습니다.

사용자 지정 워크플로
Ground Truth에서는 자체 레이블링 워크플로를 생성할 수 있습니다. 사용자 지정 워크플로는 (1) 인간 레이블러에게 레이블링 태스크를 완료하는 데 필요한 모든 지침과 도구를 제공하는 UI 템플릿, (2) AWS Lambda 함수에 캡슐화된 사전 처리 로직, 그리고 (3) AWS Lambda 함수에 캡슐화된 사후 처리 로직의 세 가지 구성 요소로 이루어져 있습니다. 다양한 종류의 UI 템플릿을 사용할 수도 있고, 자체 JavaScript/HTML 템플릿을 업로드할 수도 있습니다. 사전 처리 Lambda 함수는 레이블링할 데이터를 처리하고 레이블러를 위한 별도의 컨텍스트를 추가하며, 사후 처리 Lambda 함수는 정확도 개선 알고리즘을 삽입하는 데 사용할 수 있습니다. 이 알고리즘은 사람이 작성한 주석의 품질을 평가할 수도 있고, 여러 인간 레이블러에게 동일한 데이터가 제공되는 경우 “올바른” 데이터에 대한 공통된 의견을 찾을 수도 있습니다. 이러한 세 구성 요소는 모두 SageMaker Ground Truth 콘솔을 사용하여 업로드할 수 있습니다.

인력
SageMaker Ground Truth에서는 여러 가지 옵션을 통해 인력이 데이터를 레이블링하도록 지원하는데, 이러한 옵션에는 (1) 자체 직원, (2) AWS Marketplace를 통해 제공되는 타사 데이터 레이블링 서비스 공급자, 그리고 (3) Amazon Mechanical Turk를 통한 크라우드 소싱 인력이 있습니다.



가상 데이터 생성
