Amazon Web Services 한국 블로그
Amazon SageMaker Ground Truth Plus 신규 기능 출시 – 데이터 레이블 전문가를 통한 턴키 솔루션
오늘, Amazon SageMaker 제품군의 최신 서비스를 발표하게 되어 기쁩니다. 이를 통해 이전보다 훨씬 쉽게 데이터 집합에 레이블을 지정할 수 있습니다. Ground Truth Plus는 전문 인력을 사용하여 고품질 훈련 데이터 집합을 빠르게 제공하고 비용을 최대 40% 절감하는 턴키 서비스입니다.
기계 학습 모델 생성의 과제
기계 학습(ML) 모델을 구축하고 훈련하는 데 있어 가장 큰 과제 중 하나는 정확한 예측을 할 수 있도록 해당 모델에 공급하고 이러한 모델을 훈련할 수 있는 충분한 고품질의 레이블이 지정된 데이터를 소싱하는 것입니다.
이 경우 데이터에 레이블을 지정하는 것이 매우 간단한 태스크처럼 보일 수 있습니다…
- 1단계: 데이터 가져오기
- 2단계: 레이블 지정
… 하지만 이것은 실제와는 다릅니다.
레이블 지정 작업자가 주석을 달기 전에도 고품질 데이터 집합을 얻으려면 프로젝트에 맞는 사용자 지정의 레이블 지정 워크플로와 사용자 인터페이스가 필요합니다. 이는 강력한 도구와 숙련된 작업자의 조합에 의존하며 큰 노력을 기울일 수 있습니다.
데이터 레이블 지정 워크플로와 사용자 인터페이스가 구축되면 이러한 시스템을 사용할 인력을 구성하고 훈련해야 합니다. 이 모든 작업은 단일 데이터 지점에 레이블을 지정하기 전에 완료됩니다!
마지막으로 레이블 지정 시스템이 구축되고 워크플로가 설계되고 인력이 훈련 및 배포되면 해당 시스템을 통해 데이터를 전달하는 프로세스를 모니터링하고 확인하여 일관된 고품질 출력을 보장해야 합니다. 시스템에 의해 충분한 데이터가 전달되고 레이블이 지정되면 모든 작업을 수행하려는 시점에 도달한 것입니다. 마침내 기계 학습 모델을 훈련할 수 있는 충분한 데이터가 확보되었습니다.
이러한 각 단계는 시간, 비용 및 에너지에 상당한 투자를 나타냅니다. 이러한 리소스를 사용하여 데이터에 레이블을 지정하거나 데이터를 관리하는 대신 기계 학습 모델을 구축할 수 있으며, Ground Truth Plus를 사용하면 이러한 작업을 쉽게 수행할 수 있습니다.
Amazon SageMaker Ground Truth Plus 소개
Amazon SageMaker Ground Truth Plus를 사용하면 레이블 지정 애플리케이션을 구축하고 레이블 지정 인력을 직접 관리할 필요 없이 고품질 훈련 데이터 집합을 쉽게 생성할 수 있습니다. 즉, 깊이 있는 기계 학습 전문 지식이나 워크플로 설계 및 품질 관리에 대한 광범위한 지식이 필요하지 않습니다. 레이블 지정 요구 사항과 함께 데이터를 제공하기만 하면 Ground Truth Plus가 데이터 레이블 지정 워크플로를 설정하고 요구 사항에 따라 사용자를 대신하여 관리합니다.
예를 들어 방사선 영상에 레이블을 지정하기 위해 의료 전문가가 필요한 경우 Ground Truth Plus에 제공하는 지침에서 이를 지정할 수 있습니다. 즉, 이 서비스는 데이터에 레이블을 지정하기 위해 방사선과 훈련을 받은 레이블 지정 작업자를 자동으로 선택하고, 다양한 기계 학습 작업에 대한 훈련을 받은 전문 인력이 데이터 레이블 지정을 시작합니다. Ground Truth Plus는 데이터 레이블링에 기계 학습 기반 자동화를 제공하여 출력 데이터 집합의 품질을 높이고 데이터 레이블 지정 비용을 줄입니다.
Amazon SageMaker Ground Truth Plus는 능동적 학습, 사전 레이블 지정 및 기계 검증을 위한 기계 학습 기술을 포함한 다단계 레이블 지정 워크플로를 사용합니다. 이를 통해 컴퓨터 비전 및 자연어 처리를 포함한 다양한 사용 사례에 대해 데이터 집합에 레이블을 지정하는 데 필요한 시간이 단축됩니다. 마지막으로 Ground Truth Plus는 대화형 대시보드와 사용자 인터페이스를 통해 데이터 레이블 지정 작업 및 품질 관리에 대한 투명성을 제공합니다. 이를 통해 여러 프로젝트에서 훈련 데이터 집합의 진행 상황을 모니터링하고, 일일 처리량과 같은 프로젝트 지표를 추적하고, 품질을 위해 레이블을 검사하고, 레이블이 지정된 데이터에 대한 피드백을 제공할 수 있습니다.
그렇다면 작동 원리는 무엇일까요?
먼저, 새로운 Ground Truth Plus 콘솔로 가서 데이터 레이블 지정 프로젝트의 요구 사항을 설명하는 양식을 작성해 보겠습니다. 그 후 AWS 전문가 팀이 데이터 레이블 지정 프로젝트에 대해 논의하기 위해 전화 일정을 잡을 것입니다.
호출 후 레이블을 지정하기 위해 Amazon Simple Storage Service(Amazon S3) 버킷에 데이터를 업로드하기만 하면 됩니다.
데이터가 업로드되면 당사의 전문가가 요구 사항에 따라 데이터 레이블 지정 워크플로를 설정하고 데이터에 효과적으로 레이블을 지정하는 데 필요한 전문 지식을 갖춘 레이블 지정 작업자 팀을 구성합니다. 이렇게 하면 프로젝트에 대해 가능한 한 최고의 인력을 확보할 수 있습니다.
이러한 전문 레이블 지정 작업자는 이러한 데이터 집합에 빠르고 효과적으로 레이블을 지정하기 위해 구축한 Ground Truth Plus 도구를 사용합니다.
처음에 레이블 지정 작업자는 CBCL StreetScenes 데이터 집합에서 업로드한 다음 예제 이미지와 마찬가지로 업로드한 데이터에 주석을 추가합니다. 그러나 레이블 지정 작업자가 레이블이 지정된 데이터의 예를 제출하기 시작하면 멋진 일이 일어나기 시작합니다. 기계 학습 시스템이 시작되어 전문 인력을 대신하여 이미지에 사전 레이블을 지정하기 시작합니다!
전문 인력이 점점 더 많은 데이터에 레이블을 지정함에 따라 기계 학습 모델은 이러한 이미지에 사전 레이블을 지정하는 데 더 능숙해집니다. 즉, 데이터 집합에서 관심 있는 모든 개체에 대해 개별 레이블을 만드는 데 많은 시간을 할애할 필요가 없습니다. 레이블 지정에 소요되는 시간이 줄어들므로 비용이 절감되며, 품질 저하 없이 모델 훈련에 사용할 수 있는 데이터 집합을 더 빠르게 생성할 수 있습니다.
프로세스가 계속됨에 따라 이러한 기계 학습 모델은 레이블 지정 인력이 누락했거나 기계 검증을 통해 레이블 지정이 잘못 되었을 수 있는 잠재적 관심 영역을 강조 표시하기 시작합니다(아래 보라색 상자로 표시). 관심 영역이 강조 표시되면 레이블 지정 작업자가 모델이 제안한 제안을 보고 확인하거나 삭제할 수 있습니다. 이를 통해 사전 레이블 지정 및 기계 검증 단계가 반복적으로 개선되어 레이블 지정 작업자가 데이터에 수동으로 레이블 지정하는 데 필요한 시간을 더욱 단축하고 프로세스 전반에 걸쳐 고품질 출력을 보장합니다.
이 모든 작업이 진행되는 동안 Ground Truth Plus 프로젝트 포털을 사용하여 프로젝트의 진행 상황과 출력을 모니터링할 수 있습니다. 이 포털에서 매일 레이블이 지정된 데이터의 양을 추적하고 프로젝트가 허용 가능한 속도로 진행되고 있는지 확인할 수 있습니다.
업로드되고 레이블이 지정된 각 이미지 배치에서 이미지를 수락할지 또는 누락된 내용이 있는 경우 다시 레이블을 다시 보낼 것인지 결정할 수 있습니다.
마지막으로 레이블 지정 프로세스가 완료되면 보안 S3 버킷에서 레이블이 지정된 데이터를 검색하여 훈련 모델 비즈니스에 활용할 수 있습니다.
자세히 알아보기
현재 Amazon SageMaker Ground Truth Plus는 버지니아 북부(미국 동부) 리전에서 사용할 수 있습니다.
자세히 알아보기
- Amazon SageMaker Ground Truth Plus 랜딩 페이지 방문
- Amazon SageMaker 콘솔 페이지로 이동하고 Ground Truth -> Ground Truth Plus를 선택하여 Ground Truth Plus에 직접 액세스합니다.
– Sean