Amazon SageMaker Ground Truth Plus

일반

Q: Amazon SageMaker Ground Truth Plus란 무엇입니까?

Amazon SageMaker Ground Truth Plus를 사용하면 레이블 지정 애플리케이션을 구축하거나 레이블 지정 인력을 직접 관리할 필요 없이 고품질 훈련 데이터 세트를 쉽게 생성할 수 있습니다. 레이블 지정 요구 사항과 함께 데이터를 제공하면 요구 사항에 따라 SageMaker Ground Truth Plus에서 사용자를 대신하여 데이터 레이블링 워크플로를 설정하고 관리합니다. 거기에서 다양한 기계 학습(ML) 태스크에서 훈련을 받은 전문 인력이 데이터 레이블을 지정합니다. Ground Truth Plus는 적극적 학습, 사전 레이블 지정 및 기계 검증을 포함한 기계 학습 기술을 사용합니다. 이는 출력 데이터 집합의 품질을 높이고 데이터 레이블 지정 비용은 낮춥니다. Ground Truth Plus는 데이터 레이블 지정 작업 및 품질 관리의 투명성을 제공합니다. 이를 통해 여러 프로젝트에서 교육 데이터 집합의 진행 상황을 검토하고, 일일 처리량과 같은 프로젝트 지표를 추적하고, 레이블의 품질을 검사하고, 레이블이 지정된 데이터에 대한 피드백을 제공할 수 있습니다. Ground Truth Plus는 컴퓨터 비전, 자연어 처리, 음성 인식 등과 같은 다양한 사용 사례에 활용할 수 있습니다.

Q: Amazon SageMaker Ground Truth Plus를 사용해야 하는 이유는 무엇입니까?

데이터 사이언티스트는 기계 학습 모델을 훈련하려면 레이블이 지정된 대용량의 고품질 데이터 세트가 필요합니다. 기계 학습의 채택이 증가하면 레이블 지정의 필요성도 높아집니다. 이로 인해 데이터 사이언티스트는 데이터 레이블 지정 워크플로를 구축하고 데이터 레이블 지정 인력을 관리하는 데 몇 주를 소비해야 합니다. 하지만 그 결과, 혁신 속도는 느려지고 비용은 증가합니다. 데이터 사이언티스트가 기계 학습 모델을 구축, 훈련 및 배포하는 데 시간을 할애할 수 있도록 하려면 그들은 일반적으로 데이터 운영 관리자와 프로그램 관리자로 구성된 다른 사내 팀에 고품질 훈련 데이터 집합 생성 작업을 맡깁니다. 그러나 이러한 팀은 일반적으로 기계 학습 결과에 영향을 미치는 고품질 훈련 데이터 집합을 제공하는 데 필요한 기술에 액세스할 수 없습니다.

Amazon SageMaker Ground Truth Plus를 사용하면 데이터 운영 관리자 및 프로그램 관리자와 같은 비즈니스 관리자는 물론, 데이터 사이언티스트가 데이터 레이블 지정 애플리케이션 구축 및 레이블 지정 인력 관리와 관련된 획일적인 과중한 작업을 제거하여 고품질 훈련 데이터 집합을 쉽게 생성할 수 있습니다. 레이블 지정 요구 사항과 함께 데이터를 공유하기만 하면 Ground Truth Plus가 이러한 요구 사항을 기반으로 데이터 레이블 지정 워크플로를 설정 및 관리합니다. 거기에서 다양한 기계 학습 작업에 대해 교육을 받은 전문 인력이 데이터 레이블 지정 작업을 수행합니다. Ground Truth Plus를 사용하기 위해 깊은 기계 학습 전문 지식이나 워크플로 설계 및 품질 관리 지식이 필요하지 않습니다.

Q: Amazon SageMaker Ground Truth Plus를 시작하려면 어떻게 해야 합니까?

Amazon SageMaker Ground Truth Plus를 시작하려면 프로젝트 요구 사항 양식을 작성하세요. AWS 팀에서 데이터 레이블링 프로젝트를 논의하기 위해 연락을 드릴 것입니다.

Q: Amazon SageMaker Ground Truth Plus는 훈련 데이터 세트를 관리하는 데 어떻게 도움이 됩니까?

Amazon SageMaker Ground Truth Plus는 데이터 레이블링 작업 및 품질 관리의 투명성을 개선합니다. 예를 들어, SageMaker Ground Truth Plus는 프로젝트 보기를 제공하므로, 이를 사용하여 여러 프로젝트에서 훈련 데이터 세트의 진행 상황을 모니터링할 수 있습니다. 또한, 실시간 지표 대시보드를 통해 일일 처리량을 포함하여 자세한 프로젝트 지표를 추적할 수 있습니다. SageMaker Ground Truth Plus는 품질에 대한 레이블을 검사할 수 있는 사용자 인터페이스와 실시간 피드백도 제공합니다. 마지막으로, 스트리밍 모드를 통해 특정 워크로드 유형에 대해 당일 또는 동시간 레이블 소요 시간을 확인할 수 있습니다.

Q: Amazon SageMaker Ground Truth Plus는 훈련 데이터 집합의 정확도를 높이는 데 어떻게 도움이 됩니까?

Ground Truth Plus는 다음과 같은 여러 기술을 사용하여 훈련 데이터 집합의 정확도를 높입니다.

  • 기계 학습 기술: Ground Truth Plus에서는 적극적 학습, 사전 레이블 지정, 기계 검증을 포함한 기계 학습 기술을 사용하며, 이를 통해 출력 데이터 집합의 품질을 높이고 데이터 레이블 지정 비용을 줄입니다. 다단계 레이블 지정 워크플로에는 적극적 학습을 위한 기계 학습 모델이 포함됩니다. Ground Truth Plus는 이 기술을 통해 선택한 데이터에 미리 레이블을 지정할 기계 학습 모델(사람의 노력을 줄여줌) 및 레이블을 지정할 항목을 선택하여 비용을 절감할 수 있습니다. Ground Truth Plus는 기계 검증을 사용하여 잠재적 오류를 식별합니다. 여기서 식별된 오류는 사람이 추가적으로 검토하도록 전송됩니다. 이를 통해 인적 오류를 포착하여 레이블 품질을 크게 높일 수 있습니다.
  • 직관적 레이블 지정 인터페이스: Ground Truth Plus에서는 다음과 같은 보조 레이블 지정 기능을 사용합니다. (1) 폐쇄 객체를 긴밀히 포괄하기 위해 불완전한 3D 입방체를 스냅하는 스내핑 기능. (2) 극단에 있는 4개의 포인트만 클릭해도 객체 마스크를 완성하는 자동 세그먼트 기능.

SageMaker Ground Truth와 SageMaker Ground Truth Plus의 차이점은 무엇인가요?

• SageMaker Ground Truth Plus는 완전관리형 턴키 서비스로, AWS 전문가가 워크플로와 외부 데이터 레이블 지정자 인력을 설정하고 관리합니다. 품질, 레이블 배송 일정 및 맞춤형 가격에 대한 SLA가 보장됩니다. SageMaker Ground Truth는 고객이 자체 워크플로를 설정하거나, 사전 구축된 레이블링 UI 중에서 선택하거나, 직접 개발 후에 자체 내부 인력을 관리할 수 있는 셀프 서비스 옵션입니다. Mechanical Turk 또는 AWS Marketplace의 공급업체로부터 인력을 조달할 수도 있습니다. SageMaker Ground Truth의 요금은 공개 요금 일정에 따릅니다.

데이터 프라이버시

Q: Amazon SageMaker Ground Truth Plus는 데이터의 보호 및 보안을 어떻게 지원합니까?

기본적으로 Amazon SageMaker Ground Truth Plus는 Amazon S3 버킷에 저장된 데이터를 암호화합니다(저장된 데이터 및 전송 중 데이터 암호화). 또한, AWS Identity and Access Management(IAM) 서비스를 사용하여 데이터에 대한 액세스를 제어합니다. 데이터는 독립된 AWS 계정에 저장되며, 프로젝트에 대해 Amazon S3 버킷이 생성됩니다. Amazon SageMaker Ground Truth Plus는 자동으로 생성된 AWS 환경 외부에서 데이터 사본을 생성하거나 저장하지 않습니다. AWS는 Amazon S3 액세스 로깅 및 AWS CloudTrail을 사용하여 데이터에 대한 모든 액세스를 로그하고 감사합니다.

Q: Amazon SageMaker Ground Truth Plus에서 처리하고 저장한 내 콘텐츠에 대한 액세스 권한은 누구에게 있습니까?

권한이 있는 AWS 직원과 데이터에 레이블을 지정하는 전문 인력에게 Amazon SageMaker Ground Truth Plus에서 처리하는 콘텐츠에 대한 액세스 권한이 있습니다. 데이터에 레이블을 지정하는 전문 인력은 보안 SageMaker Ground Truth 작업자 포털을 통해 데이터를 보고 레이블을 지정합니다. 작업자 포털을 통해 액세스하면 작업자가 데이터를 보고 레이블만 지정할 수 있으며, 데이터를 수정하거나 삭제할 수 없습니다. 신뢰, 개인 정보 보호 및 보안은 AWS가 가장 중요하게 여기는 원칙입니다. AWS는 콘텐츠의 공개 및 무단 액세스를 방지하기 위해 설계된 저장된 데이터 및 전송 중 데이터 암호화를 포함하여 적절한 기술 및 물리적 제어를 구현합니다.

Q: Amazon SageMaker Ground Truth Plus는 처리된 데이터(이미지, 텍스트 파일, 비디오 등) 입력을 저장합니까? 그리고 AWS에서 이러한 데이터를 어떻게 사용합니까?

Amazon SageMaker Ground Truth Plus는 프로젝트 기간에만 원시 콘텐츠 및 처리된 콘텐츠를 저장하며, 요청 시 데이터 레이블링 프로젝트와 연결된 콘텐츠를 삭제합니다. Amazon SageMaker Ground Truth Plus는 서비스를 제공하고 유지 관리하려는 목적으로만 콘텐츠를 사용합니다. Amazon SageMaker Ground Truth Plus는 다른 고객의 편의를 위해 사용자의 콘텐츠나 해당 콘텐츠에서 훈련된 모델을 사용하지 않습니다.

Q: Amazon SageMaker Ground Truth Plus에서 처리된 콘텐츠가 Amazon SageMaker Ground Truth Plus를 사용하는 AWS 리전 외부로 이동됩니까?

Amazon SageMaker Ground Truth Plus에서 처리된 모든 콘텐츠는 Amazon SageMaker Ground Truth Plus를 사용하는 AWS 리전에서 저장된 데이터로 암호화 및 저장됩니다. 작업 설명서를 통해 상호 동의한 데이터 현지화 요구 사항에서 별도로 지정하지 않는 한, 레이블 지정 서비스를 수행하기 위해 콘텐츠가 저장된 AWS 리전 외부에서 콘텐츠에 액세스할 수도 있습니다.

Q: Amazon SageMaker Ground Truth Plus에서 저장한 데이터(이미지, 텍스트 파일, 비디오 등)의 삭제를 요청할 수 있습니까?

예. AWS Support에 문의하여 데이터 레이블링 프로젝트와 연관된 원시 데이터 및 처리된 데이터 입력의 삭제를 요청할 수 있습니다.

Q: Amazon SageMaker Ground Truth Plus에서 처리하고 저장한 내 콘텐츠는 여전히 내 소유입니까?

예. 사용자는 언제나 자신의 콘텐츠에 대한 소유권을 유지하며 AWS에서는 사용자의 동의가 있을 때만 이를 사용합니다.

Q: Amazon SageMaker Ground Truth Plus를 통해 개인 건강 정보(PHI) 데이터를 처리할 수 있습니까?

아니요. 현재 Amazon SageMaker Ground Truth Plus는 HIPAA 적격 서비스가 아닙니다.

인력

Q: Amazon SageMaker Ground Truth Plus의 전문 인력이란 무엇입니까?

Ground Truth Plus에서 데이터 보안, 개인 정보 보호 및 규정 준수를 포함하여 다양한 요구 사항을 충족하는 데 도움이 되는, 기계 학습 태스크에 대한 훈련을 받은 뛰어난 기술 역량을 갖춘 다양하면서도 탄력적인 인력이 레이블을 지정합니다. 인력은 2개 티어로 구성됩니다. 1/Amazon 인력: Amazon에서 고용하고 관리하는 인력입니다. 이 경우 Amazon이 사용자를 대신하여 작업, 품질 및 소요 시간 SLA를 소유합니다. 2/공급 업체 인력: 데이터 레이블 지정 서비스를 제공하는 데 특화된 서드 파티 공급 업체의 엄선된 목록에서 제공하는 인력입니다. 이 경우 Amazon이 사용자를 대신하여 품질 및 소요 시간 SLA를 소유합니다.

Q: Amazon SageMaker Ground Truth Plus 프로젝트에 사용할 인력 티어는 누가 결정합니까?

프로젝트에 사용할 인력 유형은 고객이 결정할 수 있습니다. 고객이 사용할 특정 인력을 AWS에 지시하지 않는다면, Amazon 인력, 공급 업체 인력 또는 이 두 인력의 조합을 활용하여 프로젝트의 품질, 소요 시간 및 보안 요구 사항을 충족할 수 있습니다.

Q: COVID-19와 관련하여 공급 업체 인력이 구현하는 변화 중 제가 알고 있어야 하는 사항은 무엇입니까?

COVID-19로 인해 일부 서비스 공급자는 직원의 건강과 안전을 위해 원격 근무 정책을 시행하고 있습니다.

Q: 공급 업체 인력이 충족해야 하는 보안 요구 사항은 무엇입니까?

서비스 제공자는 매년 독립된 서드 파티 감사자가 수행하는 SOC 2 규정 준수 또는 ISO 27001 인증을 통과해야 합니다.

SOC 2 보고서에는 American Institute of Certified Public Accountants(AICPA)의 Trust Services Criteria인 보안, 가용성, 처리 무결성, 기밀성 및 개인 정보 보호를 기준으로 서비스 공급자의 제어 환경이 설명됩니다.

ISO 27001 인증은 International Organization for Standardization(ISO) 및 International Electrotechnical Commission(IEC)에 기반합니다. 여기에서는 정보 보안 관리 시스템(ISMS)을 수립, 구현, 유지 관리 및 지속적으로 개선하기 위한 요구 사항을 자세히 설명합니다.

독립적으로 SOC 2 또는 ISO 27001을 확보하는 것 외에도, 서비스 제공자는 아래에서 설명한 대로, 데이터를 안전하기 유지하는 데 도움이 되는 추가적인 보안 제어를 유지 관리해야 합니다.

기술 제어:
서비스 공급자는 서비스 공급자 시스템의 파일/데이터를 다운로드하거나 복사하려는 모든 시도를 차단하고 시스템에 대한 무단 액세스를 방지하는 소프트웨어를 활용해야 합니다. 또한, 서비스 공급자는 서비스 공급자의 인력이 고객 작업 관련 데이터를 저장하거나 복사하는 것을 금지해야 합니다.

네트워크 보안 제어:
서비스 공급자의 네트워크는 고객의 작업 관련 데이터에 대한 원격 액세스를 차단하도록 설계되어야 합니다. 또한, 서비스 공급자의 네트워크에서는 Peer-to-Peer(P2P) 파일 공유 소프트웨어가 차단되어야 하며 고가용성을 제공하도록 설계된 방화벽이 사용되어야 합니다.

직원 제어:
서비스 공급자는 해당 직원과 기밀 유지 계약(NDA)을 체결해야 합니다. 서비스 공급자는 정보 유출을 차단하고 직원이 어떠한 수단(종이, USB, 휴대폰 또는 다른 모든 미디어)으로도 정보를 전송할 수 없도록 하는 엄격한 정책을 채택해야 합니다.

물리적 액세스 제어:
서비스 공급자는 프로덕션 사이트에 대한 무단 액세스를 차단하는 물리적 액세스 수단을 유지해야 합니다. 여기에는 생체 인증을 사용하는 회전문, 직원 배지 ID 등이 포함될 수 있습니다.

Q: AWS는 공급 업체 인력이 이러한 보안 표준을 충족하도록 어떻게 돕습니까?

AWS는 Amazon SageMaker Ground Truth Plus의 공급 업체 인력이 되기 전에 SOC 2 또는 ISO 27001 인증 보고서를 제공할 것을 요청합니다. AWS SOC 보고서 및 ISO 인증은 공급 업체 인력을 다루지 않습니다.

Amazon SageMaker Ground Truth

일반

Q: Amazon SageMaker Ground Truth란 무엇입니까?

Amazon SageMaker Ground Truth를 사용하면 기계 학습 시스템 훈련에 필요한 데이터 세트를 효율적이고 정확하게 레이블링할 수 있습니다. SageMaker Ground Truth는 레이블링 작업자가 수동으로 완료한 레이블을 기반으로 데이터 세트의 일부분을 자동으로 레이블링할 수 있습니다. 50만 명 이상의 Amazon Mechanical Turk 크라우드 소싱 작업 인력, 자체 직원 또는 Amazon에서 사전 검사를 마쳐 AWS Marketplace에 등록된 타사 데이터 라벨링 서비스 공급자 중 하나를 이용할 수 있습니다. SageMaker Ground Truth는 혁신적인 알고리즘과 사용자 경험(UX) 기법을 활용하여 인력을 활용한 레이블링의 정확도를 개선합니다. 시간이 흐르면 인력을 통해 생성된 레이블로부터의 지속적인 학습을 통해 모델이 더욱 개선되고 자동 레이블링이 증가합니다.

Q: 자동 데이터 레이블링이란 무엇입니까?

자동 데이터 레이블링은 기계 학습을 사용한 데이터의 레이블링입니다. Amazon SageMaker Ground Truth는 먼저 무작위 데이터 샘플을 선택한 다음 레이블링 작업자에게 보냅니다. 이후 결과를 사용하여 라벨링 모델을 교육하고 새로운 원시 데이터 샘플의 라벨링을 자동으로 시도합니다. 모델이 임계값 또는 그 이상의 신뢰도 점수로 데이터를 라벨링할 수 있을 때 라벨이 커밋됩니다. 신뢰도 점수가 해당 임계값보다 낮은 경우 데이터는 라벨링 작업자에게 전송됩니다. 작업자가 라벨링한 데이터 일부는 라벨링 모델을 위해 새 교육 데이터 세트를 생성하는 데 사용되고, 모델은 자동으로 재교육되어 정확도를 개선합니다. 각각의 원시 데이터 샘플이 라벨링될 때마다 이 프로세스가 반복됩니다. 라벨링 모델은 반복을 통해 자동으로 원시 데이터를 라벨링하는 성능이 개선되고, 작업자에게 전달되는 데이터의 수는 감소합니다.

Amazon SageMaker Ground Truth 사용

Q: Amazon SageMaker Ground Truth를 사용해야 하는 이유는 무엇입니까?

기계 학습 모델의 구축, 교육 및 배포 전에 데이터가 필요합니다. 성공적인 모델은 고품질의 교육 데이터를 기반으로 구축되며, 교육 데이터 세트의 수집 및 레이블링에는 많은 시간과 노력이 수반됩니다. 교육 데이터 세트를 빌드하려면 라벨링 작업자가 대량의 이미지 또는 기타 데이터 유형을 평가한 다음 각 데이터 유형에 있는 특정 객체를 식별 및 라벨링해야 합니다. 이러한 라벨링 작업은 여러 명의 라벨링 작업자에게 분산되고, 그에 따라 오버헤드와 비용이 크게 증가합니다. 잘못된 라벨이 존재하는 경우 시스템은 잘못된 정보로부터 학습하여 정확하지 않은 예측을 하게 됩니다.

Amazon SageMaker Ground Truth는 자동 데이터 라벨링과 라벨링 작업자가 수행하는 라벨링의 조합을 사용하여 Amazon S3에 저장된 데이터를 사용한 정확도가 높은 데이터 라벨링을 효율적으로 수행할 수 있도록 하여 이 문제를 해결합니다.

Q: Amazon SageMaker Ground Truth를 시작하려면 어떻게 해야 합니까?

Amazon SageMaker Ground Truth는 몇 단계만 거치면 전체 데이터 레이블링 작업을 설정할 수 있는 관리형 환경을 제공합니다. Amazon SageMaker Ground Truth를 시작하려면 AWS Management Console에 로그인하고 SageMaker 콘솔로 이동합니다. Ground Truth 아래에서 라벨링 작업을 선택합니다. 여기에서 라벨링 작업을 생성할 수 있습니다. 라벨링 작업 생성 흐름의 첫 단계로 라벨링할 데이터 세트가 포함된 S3 버킷에 대한 포인터를 제공합니다. Ground Truth에서는 일반 라벨링 작업에 대한 템플릿을 제공합니다. 따라서 클릭 몇 번으로 데이터 라벨링 방법에 대한 최소한의 지침만 제공하면 됩니다. 또는 자체 사용자 지정 템플릿을 생성할 수 있습니다. 라벨링 작업 생성의 마지막 단계로 세 가지 인력 옵션, 즉 퍼블릭 크라우드 소싱 인력, 큐레이트된 타사 데이터 라벨링 서비스 공급자 또는 자체 작업자 중에서 선택합니다. 또한 자동 데이터 라벨링을 활성화하는 옵션도 있습니다.

Q:  교육 데이터 세트는 Amazon SageMaker Ground Truth를 사용하여 어떻게 관리됩니까?

Amazon SageMaker Ground Truth는 메타데이터, 연결된 레이블, 레이블과 데이터 세트의 분류 체계를 관리합니다. SageMaker 노트북 또는 SageMaker 콘솔 내에 있는 Ground Truth 콘솔을 통해 AWS SDK를 손쉽게 사용하여 데이터 세트 및 레이블링을 쿼리하고 관리할 수 있습니다. 자세한 내용은 Amazon SageMaker Ground Truth 설명서를 참조하세요.

Q: Amazon SageMaker Ground Truth는 훈련 데이터 세트의 정확도 증가에 어떻게 도움이 됩니까?

Amazon SageMaker Ground Truth는 작업자가 수행하는 데이터 레이블링의 정확도를 높이는 데 도움이 되도록 다음 기능을 제공합니다.

(a) 주석 통합: 각 데이터 객체를 여러 작업자에게 전송한 후, 작업자의 응답("주석"이라 함)을 하나의 레이블에 통합함으로써 개별 작업자의 오류/편향에 대응합니다. 그런 다음 주석을 가져오고 주석 통합 알고리즘을 사용하여 이를 비교합니다. 이 알고리즘은 우선 무시된 이상 주석을 탐지합니다. 그리고 주석의 가중치 통합을 수행하여 더욱 신뢰할 수 있는 주석에 더 높은 가중치를 할당합니다. 출력은 각 객체에 대한 하나의 라벨입니다.

(b) 주석 인터페이스 모범 사례: 작업자가 작업을 더욱 정확하게 수행할 수 있도록 하는 주석 인터페이스의 기능입니다. 인간 작업자는 오류 및 편향에 취약하므로 잘 설계된 인터페이스는 작업자 정확도를 높입니다. 한 가지 모범 사례는 고정된 측면 패널에 라벨의 좋은 예 및 나쁜 예와 함께 간략한 지침을 표시하는 것입니다. 또 다른 모범 사례는 작업자가 이미지에 경계 상자를 그릴 때 경계 상자 외부 영역을 어둡게 하는 것입니다.

Q:  Amazon SageMaker Ground Truth는 데이터의 보호 및 보안을 어떻게 보장합니까?

기본적으로 Amazon SageMaker Ground Truth는 저장 데이터 및 전송 데이터를 암호화합니다. 추가로 AWS Identity and Access Management(IAM) 서비스를 사용하여 데이터에 대한 액세스를 제어할 수 있습니다. Ground Truth는 AWS 환경 외부에 데이터를 저장 또는 복사하지 않으므로 데이터에 대한 제어가 유지됩니다. 또한 Ground Truth는 GDPR(일반 데이터 보호 규정)과 같은 규정 표준을 지원하고, Amazon CloudWatch 및 Amazon CloudTrail을 사용한 포괄적 로깅 및 감사 기능을 제공합니다. 자세한 내용은 Amazon SageMaker Ground Truth 설명서를 참조하세요.

Q:   Amazon SageMaker Ground Truth를 사용하여 인력에 액세스하려면 어떻게 해야 합니까?

SageMaker Ground Truth에서는 세 가지 인력 옵션 중 하나를 선택할 수 있으며, 이러한 옵션은 (1) Amazon Mechanical Turk를 통한 퍼블릭 크라우드 소싱 인력, (2) AWS Marketplace를 통해 제공되는 서드 파티 데이터 레이블링 서비스 공급자, (3) 자체 직원입니다. 자세한 내용은 Amazon SageMaker Ground Truth 설명서를 참조하세요.  

서드 파티 데이터 레이블링 서비스 공급자 사용

Q:   Amazon SageMaker Ground Truth 데이터 레이블링 서비스 공급자는 기밀 데이터를 처리할 수 있습니까?

예. Amazon SageMaker Ground Truth 데이터 레이블링 서비스 공급자는 기밀 데이터를 처리할 수 있습니다. AWS 고객과 외부 데이터 레이블링 서비스 공급자 간의 표준 서비스 계약에는 고객의 기밀 정보에 대한 몇 가지 기본적인 보호가 포함됩니다. 기밀 정보를 서비스 공급자와 공유하기 전에 이러한 약관을 검토하시기 바랍니다. 약관은 AWS Marketplace의 서비스 공급자 목록 페이지에 나와 있습니다.

Q:   AWS Marketplace를 통해 타사 서비스 공급자와 함께 일하고 있습니다. COVID-19와 관련하여 서비스 공급자가 시행 중인 변화 중 제가 알고 있어야 하는 것은 무엇입니까?

COVID-19의 급속한 확산으로 인해, 일부 서비스 공급자는 직원의 건강과 안전을 위해 임시로 원격 근무 정책을 시행하고 있습니다. 이 기간에 아래 FAQ에 간략하게 나와 있는 SOC 2 규정 준수 및 추가 보안 제어를 포함한 보안 표준이 해당 서비스 공급자에게 적용되지 않을 수 있습니다. 해당 서비스 공급자는 이를 반영하기 위해 AWS Marketplace 목록을 업데이트했으며, 명시적인 고객 동의 없이 원격 작업 환경에서 고객 데이터를 처리하지 않습니다.

Q:   Amazon SageMaker Ground Truth 데이터 레이블 지정 서비스 공급자가 충족해야 하는 보안 표준은 무엇입니까?

데이터 레이블링 서비스 공급자는 매년 SOC 2 규정 준수 및 인증을 통과해야 합니다. SOC 2 보고서에는 American Institute of Certified Public Accountants(AICPA)의 Trust Services Criteria인 보안, 가용성, 처리 무결성, 기밀성 및 개인 정보 보호를 기준으로 서비스 공급자의 제어 환경이 설명됩니다.

SOC 2에 더해 서비스 공급자는 다음과 같은 추가 보안 제어를 유지하여 고객의 데이터를 안전하게 보관해야 합니다.

기술 제어:
서비스 공급자는 서비스 공급자 시스템의 파일/데이터를 다운로드하거나 복사하려는 모든 시도를 차단하고 시스템에 대한 무단 액세스를 방지하는 소프트웨어를 활용해야 합니다. 또한 서비스 공급자는 서비스 공급자의 인력이 고객 작업 관련 데이터를 저장하거나 복사하는 것을 금지해야 합니다.

네트워크 보안 제어:
서비스 공급자의 네트워크는 고객의 작업 관련 데이터에 대한 원격 액세스를 차단하도록 설계되어야 합니다. 또한 서비스 공급자의 네트워크에서는 P2P(peer-to-peer) 파일 공유 소프트웨어가 차단되어야 하며 고가용성을 제공하도록 설계된 방화벽이 사용되어야 합니다.

직원 제어:
서비스 공급자는 해당 직원과 NDA(기밀 유지 계약)를 체결해야 합니다. 서비스 공급자는 정보 유출을 차단하고 직원이 어떠한 수단(종이, USB, 휴대폰 또는 다른 모든 미디어)으로도 정보를 전송할 수 없도록 하는 엄격한 정책을 채택해야 합니다.

물리적 액세스 제어:
서비스 공급자는 프로덕션 사이트에 대한 무단 액세스를 차단하는 물리적 액세스 수단을 유지해야 합니다. 여기에는 생체 인증을 사용하는 회전문, 직원 배지 ID 등이 포함될 수 있습니다.

Q:   AWS는 서비스 공급자가 이러한 보안 표준을 충족하는지 확인하기 위해 어떤 지원을 제공합니까?

AWS는 Marketplace 등재 전에 서비스 공급자에게 SOC 2 인증 보고서를 갖출 것을 요구하며 다음을 확인합니다.

신뢰성(서비스 공급자의 감사자가 AICPA의 인증을 받았는지 확인),

보고서 기간(SOC 2 인증서 유효 날짜) 및

프로덕션 사이트(서비스 공급자 인력이 Amazon SageMaker Ground Truth 레이블 지정 작업을 수행하는 물리적 사이트).

Q:   서비스 공급자 보안 표준의 검토 빈도는 얼마입니까?

매년 모든 서비스 공급자의 보안 표준을 검토하여 필수 요구 사항을 충족하는지 확인합니다.

Q: AWS 검토에 예외가 있습니까?

아니요. 보안 표준을 충족하지 못하는 서비스 공급자의 경우 AWS Marketplace 등재가 취소됩니다. 등재 취소는 24시간 이내에 완료되며 모든 활성 고객에게 이메일 알림이 전송됩니다.

Q:   서비스 공급자가 여러 프로덕션 사이트를 통해 데이터 라벨링 서비스를 제공하는 경우 모든 사이트가 검토 프로세스를 통과해야 합니까?

예. 모든 사이트가 보안 표준을 충족해야 합니다.

Q: 서비스 공급자의 프로덕션 사이트에서 데이터 침해가 발생하면 어떻게 됩니까?

서비스 공급자는 고객 정보에 대한 실제 또는 의심되는 무단 액세스, 수집, 취득, 사용, 전송, 공개, 손상 또는 손실이 탐지되고 24시간 안에 AWS와 영향을 받는 고객에게 해당 내용을 알립니다. 서비스 공급자는 각 보안 사고를 즉시 해결하고 AWS와 영향을 받는 고객에게 내부 조사에 대한 세부 정보를 서면으로 제공합니다.

요금 및 가용성

Q: Amazon SageMaker Ground Truth의 비용은 어떻게 됩니까?

최신 요금 정보는 SageMaker Ground Truth 요금 페이지를 참조하세요.

Q: Amazon SageMaker Ground Truth는 어느 AWS 리전에서 사용할 수 있습니까?

AWS 리전 표에는 Amazon SageMaker Ground Truth가 현재 제공되는 모든 AWS 리전이 나와 있습니다.

가상 데이터 생성

Q: 레이블링된 가상 데이터를 생성하려면 어떻게 해야 합니까?

Amazon SageMaker Ground Truth는 사용자를 대신하여 레이블링된 가상 데이터를 생성할 수 있습니다. 가상 이미지 요구 사항을 지정하거나 Computer-Aided Design(CAD) 이미지와 같은 3D 자산 및 기준 이미지를 제공하고 AWS 디지털 아티스트가 처음부터 새로 이미지를 생성하거나 고객이 제공한 자산을 사용합니다. 생성된 이미지는 객체의 포즈 및 배치를 모방하고, 객체 또는 장면의 변형을 포함하며, 필요에 따라 긁힘, 찌그러짐, 기타 변형과 같은 구체적인 특징을 추가하여 이미지를 획득하기 위해 부품을 파손해야 하는 요구 사항이나 데이터를 수집하는 시간 소모적인 프로세스를 없애줍니다. SageMaker Ground Truth는 높은 정확도로 자동 레이블링되는 수십만 개의 가상 이미지를 생성할 수 있습니다.

Q: 레이블링된 가상 데이터를 사용해야 하는 이유는 무엇입니까?

기계 학습(ML) 모델 훈련을 위해 데이터를 소싱하는 작업은 시간과 노력이 많이 듭니다. 드물거나 매우 가변적인 시나리오와 같은 일부 유형의 데이터에서는 데이터 수집이 고가이거나 불가능할 수도 있습니다. 예를 들어, 제조 결함을 식별하려면 많은 이미지가 필요합니다. 또한, 자주 발생하지 않는 드문 결함과 같은 시나리오를 인식하려면 ML 모델을 훈련해야 합니다. 드문 결함을 식별하기 위해 ML 모델에는 결함 이미지가 필요합니다. 그러나 이러한 이벤트는 잘 발생하지 않으므로 이러한 데이터는 종종 수동으로 만들어야 하며, 이때 고가의 부품을 파손해야 할 수도 있습니다. 마지막으로 이미지를 수동으로 레이블링해야 합니다.

SageMaker Ground Truth를 사용하면 자동 레이블링되는 가상 데이터를 생성할 수 있으므로, 훈련 데이터 수집 및 레이블링에 드는 시간과 비용을 줄일 수 있습니다. 그런 다음, 가상 데이터를 사용하여 객체, 이상 및 결함 탐지와 같은 다양한 컴퓨터 비전 사용 사례에서 ML 모델을 훈련할 수 있습니다.

Q: SageMaker Ground Truth는 레이블링된 가상 데이터를 어떻게 생성합니까?

3단계 프로세스로 레이블링된 가상 데이터를 생성합니다. 1단계로, 3D 자산, 기준 이미지 및/또는 이미지 요구 사항을 제공합니다. 2단계로, 디지털 아티스트가 이러한 입력을 3D 자산으로 변환하여 흠집, 찌그러짐, 텍스처와 같은 특징을 추가합니다. 3단계로, SageMaker Ground Truth는 가상 이미지를 생성하고 자동 레이블링합니다.

Q: SageMaker Ground Truth를 사용하여 이미지 또는 3D 자산이 없는 경우 레이블링된 가상 데이터를 생성할 수 있습니까?

예. 사용자를 대신하여, 가상 데이터 생성을 지원하는 데 사용할 수 있는 1백만 개가 넘는 객체를 포함하는 3D 자산 라이브러리가 있습니다. 또는 새 가상 데이터 세트를 생성하기 위해 작은 규모의 사전 레이블링된 이미지 세트를 사용할 수 있습니다. 필요한 데이터 예제나 배경 이미지가 없는 경우 매우 정확한 가상 데이터를 빠르게 생성할 수 있습니다.

생성형 AI

Q: Amazon SageMaker Ground Truth Plus를 사용하여 생성형 AI 애플리케이션을 구축하려면 어떻게 해야 하나요?

SageMaker Ground Truth Plus는 고품질 데이터 세트를 생성하여 인간의 선호도에 맞게 기초 모델을 사용자 지정하고 정렬하는 데 도움이 됩니다. Amazon SageMaker Ground Truth는 데모 데이터와 선호도 데이터라는 2가지 유형의 레이블이 지정된 데이터 세트를 생성합니다.

데모 데이터에서는 데이터 주석가가 모델과 인간의 상호 작용 방식을 시뮬레이션하고 보여주는 태스크(예: 질문 및 답변 작성 또는 텍스트 요약)를 완료합니다. 레이블이 지정된 이 데이터 세트는 지도식 미세 조정(SFT)이라는 프로세스에서 모델을 미세하게 조정하는 데 사용됩니다.

선호도 데이터에서는 인간 주석가가 모델이 생성한 콘텐츠 또는 시뮬레이션된 모델 데이터에 대한 직접적인 피드백과 지침을 제공합니다. 예를 들어 정확성, 관련성 또는 쓰기 명확성과 같은 특정 차원에 따라 대규모 언어 모델의 텍스트 응답에 순위를 지정합니다. 선호도 데이터를 사용하는 미세 조정 방법 중 하나를 인간 피드백을 통한 강화 학습(RLHF)이라고 합니다.

Q: Amazon SageMaker Ground Truth Plus로 지원할 수 있는 생성형 AI 사용 사례로는 무엇이 있나요?

Amazon SageMaker Ground Truth Plus를 사용하면 대규모 언어 모델(LLM), 텍스트-이미지 변환 모델 및 텍스트-비디오 변환 모델에 대한 데이터 세트를 생성할 수 있습니다. 대규모 언어 모델의 경우 데이터 주석가는 질문 및 답변 쌍, 텍스트 요약, 레드 팀 구성을 위한 텍스트 재작업 또는 스타일 및 음성 변경을 포함하여 지도식 미세 조정을 위한 데모 데이터 세트를 만들 수 있습니다. 또한 주석가는 LLM 응답의 순위를 매기는 방법으로 RLHF에 대한 선호도 데이터 세트를 생성하여 챗봇을 사람의 선호도에 맞게 조정할 수 있습니다. 텍스트-이미지 변환 및 텍스트-비디오 변환 모델의 경우 데이터 주석가는 다양한 캡션 데이터 세트를 만들 수 있습니다. 그런 다음 이러한 데이터 세트를 사용하여 사용자의 원본 텍스트 입력과 더 밀접하게 일치하는 이미지 및 비디오를 생성하는 방법에 대해 모델을 훈련합니다. 또한 데이터 주석가는 특정 미적 속성과 같이 고객이 지정한 차원에 따라 순위가 매겨진 이미지 및 비디오가 포함된 선호도 데이터 세트를 생성할 수 있습니다. 아직 다루지 않은 새 태스크 유형을 요청할 수도 있습니다. 그러면 AWS 팀이 고객과 협력하여 요구 사항에 맞는 워크플로를 만들어 드립니다.

Q: 기초 모델에서 인간의 피드백이 중요한 이유는 무엇인가요?

일반적으로 인간은 생성형 AI 애플리케이션의 콘텐츠 요청자이자 소비자입니다. 따라서 사용자의 프롬프트에 따라 올바르게 반응하는 방법을 기초 모델에 가르치는 것이 중요합니다. 레이블이 지정된 데이터로 모델을 미세 조정하고 사용자 지정함으로써 데이터 주석가는 모델과 사용자의 상호 작용 방식 스타일, 길이 및 정확도를 시뮬레이션할 수 있습니다. 예를 들어 챗봇을 만들 때 데이터 주석가는 모델에 질문에 응답하는 방법을 가르치고 인간이 작성한 질문과 답변을 훈련시켜 답을 제공합니다. 또한 데이터 주석가는 인간의 선호도에 따라 다양한 챗봇 응답의 순위를 매겨 모델에 인간의 의도와 가치에 따라 응답을 작성하는 방법을 가르칩니다. 이는 인간 피드백을 통한 강화 학습(RLHF)을 통해 이루어집니다.
 

Amazon SageMaker Ground Truth 요금
Amazon SageMaker 데이터 레이블 지정 요금에 대해 자세히 알아보기

선불 약정 또는 장기 계약 없이 Amazon SageMaker 데이터 레이블 지정을 시작해보세요.

자세히 알아보기 
AWS 계정에 가입
무료 계정에 가입

AWS 프리 티어에 즉시 액세스할 수 있습니다. 

가입 
콘솔에서 구축 시작
콘솔에서 구축 시작

AWS 관리 콘솔에서 Amazon SageMaker 데이터 레이블 지정을 사용하여 구축을 시작해보세요.

로그인