자동 데이터 라벨링

Amazon SageMaker Ground Truth는 기계 학습을 사용하는 자동 데이터 라벨링을 제공합니다. Amazon SageMaker Ground Truth는 먼저 무작위 샘플 데이터를 선택한 후에 이를 라벨링할 작업자에게 보냅니다. 그런 다음, 이 결과를 사용하여 새로운 원시 데이터 샘플의 라벨링을 자동으로 시도하는 라벨링 모델을 학습시킵니다. 이 모델이 설정한 임계값 이상을 충족하는 신뢰도 점수로 데이터를 라벨링할 수 있을 때 라벨이 커밋됩니다. 신뢰도 점수가 임계값 미만인 경우 데이터는 라벨링 작업자에게 전송됩니다. 작업자가 라벨링한 데이터 일부는 라벨링 모델을 위한 새 학습 데이터 세트 생성에 사용됩니다. 그리고 모델은 정확도를 개선하기 위해 자동으로 재학습을 받습니다. 각각의 원시 데이터 샘플이 라벨링될 때마다 이 프로세스가 반복됩니다. 라벨링 모델은 반복을 통해 자동으로 원시 데이터를 라벨링하는 성능을 개선하며, 작업자에게 라우팅하는 데이터의 수는 줄이게 됩니다. 

라벨링 전문가와의 협업에 유연성 제공

Amazon SageMaker Ground Truth는 SageMaker Ground Truth 콘솔에서 직접 이루어지는 수동 라벨링을 위한 여러 가지 옵션을 제공합니다. 사내 라벨링 작업, 특히 조직 내에 유지해야 할 데이터를 처리하는 작업에 전용 라벨링 작업자 팀을 활용할 수 있습니다.

기밀 또는 개인 식별 정보가 포함되지 않은 데이터와 라벨링 작업자 수를 확장하려는 경우, Amazon Mechanical Turk를 사용하는 전 세계 500,000개 이상의 독립 계약업체가 제공하는 연중무휴 24시간 지원 온디맨드 인력을 이용할 수 있습니다. Mechanical Turk는 라벨링 작업과 이러한 작업을 사실상 수행할 수 있는 분산 인력을 연결하는 클라우드소싱 마켓플레이스입니다.

또는, 데이터 라벨링에 특화된 타사 공급자를 활용할 수 있습니다. 이러한 공급자는 Amazon의 검증을 거쳐 고품질 레이블을 제공하고 보안 프로세스를 따릅니다. 이러한 공급자의 라벨링 서비스는 AWS Marketplace를 통해 제공됩니다. 요금 및 고객 리뷰를 포함한 관련 세부 정보가 모두 제공되므로 필요에 따라 가장 적합한 공급자를 선택할 수 있습니다.

수동 라벨링을 위한 간편한 지침

Amazon SageMaker Ground Truth를 이용하면, 라벨링 작업자가 일관성을 유지할 수 있도록 라벨링 지침을 제공할 수 있습니다. 이러한 세부 지침은 라벨링 작업자가 라벨링 인터페이스 내에서 확인할 수 있습니다. 라벨링 지침에는 좋은 레이블과 나쁜 레이블을 시각적으로 보여주는 예시가 포함되어 있어, 라벨링 작업자는 고품질의 정확한 레이블을 생산할 수 있습니다. 이러한 지침은 언제든지 업데이트할 수 있으므로, 잘못 진행되고 있는 작업에 자세한 지침을 추가하고 진화하는 요구에 맞게 지침을 조정하는 일이 쉬워집니다. 다음은 샘플 지침을 보여줍니다. 

SamurAI Instructions for Bounding Box

워크플로를 사용하여 라벨링 작업 간소화

Amazon SageMaker Ground Truth는 내장 라벨링 워크플로를 제공합니다. 이 워크플로는 라벨링 작업자에게 작업을 단계별로 안내하고 라벨링 작업자가 좋은 결과물을 생산할 수 있도록 지원하는 도구를 제공합니다. 내장 워크플로는 현재 객체 감지, 이미지 분류, 텍스트 분류 및 의미 체계 세분화 라벨링 작업에 사용할 수 있습니다. 

내장 워크플로 외에도, SageMaker Ground Truth는 사용자 지정 워크플로를 업로드하는 옵션을 제공합니다. 사용자 지정 워크플로는 HTML 인터페이스와 정확성 향상 알고리즘으로 구성되어 있으며 모두 제공 가능합니다. HTML 인터페이스는 라벨링 작업자에게 라벨링 작업을 완료하는 데 필요한 모든 지침과 도구를 제공합니다. 정확성 향상 알고리즘은 SageMaker Ground Truth에 작업자가 제공하는 레이블의 품질을 평가하는 방법을 알리기 위해 직접 작성할 수 있는 함수입니다. 이 알고리즘은 같은 데이터를 여러 라벨링 작업자에게 제공할 때 "적합한" 사항이 무엇인지에 대한 합의를 구하고, 품질이 떨어지는 데이터를 제공하는 경향이 있는 라벨링 작업자를 식별하여 중요성을 낮추는 데 사용됩니다. SageMaker Ground Truth 콘솔을 사용하여 HTML 인터페이스와 정확성 향상 알고리즘을 모두 업로드할 수 있습니다. 

객체 감지

경계 상자 워크플로를 사용하여 이미지 내 객체를 식별하고 라벨링할 수 있습니다. 경계 상자는 하나 이상의 이미지 요소 주위에 그려지는 2차원 상자입니다. 라벨링된 경계 상자가 있는 이미지로부터 학습을 받은 컴퓨터 비전 모델은 상자 내의 픽셀이 지정된 레이블에 해당한다는 것을 학습합니다. 이는 이미지를 라벨링하는 매우 빠르고 비용 효율적인 방법입니다. 그러나 상자에 레이블의 주제와 관련이 없는 픽셀이 포함되는 경우가 종종 있으므로, 모델의 정확성을 높이려면 더 많은 양의 학습 데이터가 필요할 수 있습니다.

아래 그림은 제공된 이미지 내에서 모든 개를 식별하는 예시 작업이 포함된 경계 상자 인터페이스를 보여줍니다. 이 인터페이스를 사용하면 좋은/나쁜 경계 상자의 명확한 예를 지정하여 정확성을 높게 유지하게 할 수 있습니다. 또한 전체 라벨링 지침에 대한 링크와 경계 상자 작성을 위한 명확하고 간소화된 UI도 제공합니다. 

Bounding box

이미지 분류

이미지 분류에는 사전 정의된 레이블 세트를 기준으로 이미지를 분류하는 과정이 포함됩니다. 이 작업은 이미지 내의 개별 요소보다 전체 이미지가 라벨링되므로 개체 감지와는 다릅니다. 이미지 분류는 이미지의 전체 컨텍스트를 고려해야 하는 장면 감지 모델에 유용합니다. 예를 들어, 아래 이미지에서 라벨링 작업자는 제공된 이미지에서 어떤 스포츠 경기를 하는지 식별하라는 요청을 받고 있습니다. 

Image classification

텍스트 분류

텍스트 분류에는 사전 정의된 레이블 세트를 기준으로 텍스트 문자열을 분류하는 과정이 포함됩니다. 텍스트를 각기 다른 레이블로 분류하는 작업은 주제(예: 제품 설명, 영화 리뷰), 개체(예: 이름, 장소, 날짜), 감성 등을 식별하는 자연어 처리(NLP) 모델에 사용되는 경우가 많습니다. 

Text classification

의미 체계 세분화

이미지의 고급 라벨링을 위해, 의미 체계 세분화를 사용하여 모델이 학습해야 하는 정보에 해당하는 정확한 이미지 부분을 라벨링할 수 있습니다. 의미 체계 세분화를 위해서는 경계 상자보다 많은 시간과 기술이 필요합니다. 그러나 의미 체계 세분화는 주제와 관련된 픽셀만 라벨링하여 매우 정제된 학습 데이터를 제공합니다. 예를 들어, 이미지 속 불규칙한 모양의 자동차는 의미 체계 세분화로 정확하게 캡처할 수 있지만, 경계 상자는 4개의 직선 면만 포함할 수 있으므로 불가피하게 자동차와 관련이 없는 배경 요소를 포함합니다.

Semantic Segmentation

Amazon SageMaker로 원활한 통합

SageMaker Ground Truth로 생성된 학습 데이터 세트는 모델 개발 및 학습에 사용할 Amazon SageMaker로 쉽게 가져올 수 있습니다. 

Amazon SageMaker는 학습 데이터를 빠르게 라벨링하고 애플리케이션에 가장 좋은 알고리즘과 프레임워크를 선택 및 최적화하는 데 필요한 모든 기능을 제공하므로 손쉽게 기계 학습 모델을 구축하고 학습할 준비를 갖추게 할 수 있습니다. Amazon SageMaker에는 호스팅되는 Jupyter 노트북이 포함되어 있으므로, Amazon S3에 저장된 학습 데이터를 손쉽게 탐색하고 시각화할 수 있습니다. S3에 있는 데이터에 바로 연결하거나 AWS Glue를 사용해 Amazon RDS, Amazon DynamoDB, Amazon Redshift에서 S3로 데이터를 이동하면 노트북에서 분석할 수 있습니다.

알고리즘을 선택할 수 있도록 돕기 위해 Amazon SageMaker에는 가장 일반적으로 사용하는 기계 학습 알고리즘이 사전 설치되어 있으며 다른 어느 곳에서 이러한 알고리즘을 실행하는 것보다 최대 10배의 성능을 제공하도록 최적화되어 있습니다. 또한, Amazon SageMaker는 Docker 컨테이너에서 TensorFlow, Apache MXNet, PyTorch 및 Chainer를 실행할 수 있도록 사전 구성되어 있습니다. Amazon SageMaker를 사용하여 프로덕션 환경에서 모델을 학습시키거나 호스팅하기 전에 로컬 환경에 이러한 오픈 소스 컨테이너를 다운로드하고 Amazon SageMaker Python SDK를 사용하여 로컬 모드로 스크립트를 테스트할 수 있습니다. 그뿐만 아니라 기존 프레임워크를 사용할 수 있는 옵션도 주어집니다.

Amazon SageMaker 콘솔에서 클릭 한 번으로 모델 학습을 시작할 수 있습니다. Amazon SageMaker는 사용자를 위해 기본 인프라를 모두 관리하고 훈련 모델을 페타바이트 규모로 손쉽게 확장할 수 있으며, 학습 프로세스를 더 쉽고 빠르게 진행하기 위해 Amazon SageMaker는 최고의 정확성을 달성하도록 모델을 자동으로 조정할 수 있습니다.

모델 학습과 조정이 끝나면, Amazon SageMaker를 통해 손쉽게 프로덕션에 배포하여 실시간으로 예측을 생성(추론이라는 프로세스)하거나 데이터를 일괄 처리할 수 있습니다. Amazon SageMaker는 여러 가용 영역 전반에 걸쳐 분산된 Amazon SageMaker ML 인스턴스의 Auto Scaling 클러스터에 모델을 배포하여 고성능과 고가용성을 모두 실현합니다. 또한 Amazon SageMaker에는 A/B 테스트 기능이 내장되어 있어 가장 좋은 결과를 내기 위해 모델을 테스트하고 여러 버전을 실험해 볼 수 있습니다.

Amazon SageMaker가 기계 학습의 부담을 덜어주므로 사용자는 기계 학습 모델을 쉽고 빠르게 구축하고, 학습시키고, 배포할 수 있습니다.

Product-Page_Standard-Icons_01_Product-Features_SqInk
Amazon SageMaker Ground Truth 요금에 대해 자세히 알아보기

선결제 약정 또는 장기 계약 없이 Amazon SageMaker Ground Truth를 시작하십시오. 자세한 내용은 Amazon SageMaker Ground Truth 요금 페이지를 참조하십시오.

Product-Page_Standard-Icons_02_Sign-Up_SqInk
무료 계정에 가입

AWS 프리 티어에 즉시 액세스할 수 있습니다. 

가입하기 
Product-Page_Standard-Icons_03_Start-Building_SqInk
AWS 콘솔에서 구축 시작

AWS Management Console에서 Amazon SageMaker Ground Truth 구축을 시작하십시오.

로그인