SageMaker Ground Truth 레이블링 오류 문제를 해결하려면 어떻게 해야 합니까?

최종 업데이트 날짜: 2022년 10월 24일

SageMaker Ground Truth 레이블링 오류 문제를 해결하고 싶습니다.

-또는-

제 SageMaker 작업자는 유휴 상태입니다.

-또는-

SageMaker 작업자에게 작업이 표시되는 데 시간이 오래 걸립니다.

해결 방법

SageMaker Ground Truth는 먼저 SageMaker 작업자에게 10개의 작업을 일괄 전송하여 주석을 달 수 있습니다. 이 배치는 레이블링 작업이 올바르게 구성되었는지 확인하는 데 사용됩니다. 그런 다음 Ground Truth는 maxConcurrentTaskCount 값을 기반으로 작업자에게 더 많은 작업 배치를 전송하여 주석을 추가합니다.

MaxConcurrentTaskCount는 인간 작업자가 동시에 레이블을 지정할 수 있는 데이터 객체의 최대 수를 정의합니다. 콘솔을 사용하는 경우 이 파라미터는 1,000으로 설정됩니다. CreateLabelingJob을 사용하는 경우 이 파라미터를 1에서 1,000 사이의 정수를 포괄적으로 설정할 수 있습니다.

Ground Truth는 레이블을 수신한 후 통합 AWS Lambda 함수로 레이블을 처리합니다. 이 함수를 사용하면 최종 주석이 매니페스트 파일 또는 Amazon Simple Notification Service(SNS) 출력에 기록됩니다. 그런 다음 Ground Truth는 루프백하여 입력 매니페스트 파일 또는 Amazon SNS 주제의 maxConcurrentTaskCount 값을 기반으로 한 다른 작업 배치를 읽습니다.

작업 지연 및 유휴 작업자 문제 해결

  • MaxConcurrentTaskCount 값이 작업자가 지정된 TaskAvailabilityLifetimeInSeconds 내에 전체 배치를 완료할 수 있는 크기로 설정되었는지 확인하세요. 이 파라미터의 최대값은 1,000입니다.
  • NumberOfHumanWorkersPerDataObject가 사용 사례에 맞는 값으로 설정되었는지 확인하세요. 예를 들어, 레이블을 지정할 객체당 작업자 수가 3으로 설정된 경우 작업자 세 명이 각 객체에 레이블을 지정해야 합니다. 작업자 중 두 명이 현재 배치를 완료한 경우 세 번째 작업자가 배치를 완료할 때까지 다음 배치가 할당되지 않습니다. 개인 작업자가 포털에서 작업이 사라지는 것을 발견할 경우 해당 작업자는 배치 하나를 완료한 후 새 배치를 사용할 수 있을 때까지 기다리는 동안 유휴 상태일 수 있습니다.
  • TaskAvailabilityLifetimeInSeconds가 사용 사례에 맞는 값으로 설정되어 있는지 확인하세요. 이 값은 작업자가 작업을 사용할 수 있는 총 시간을 나타냅니다. 이 파라미터에 설정할 수 있는 최대값은 864,000초(10일)입니다. 다음 조건에서는 입력 데이터 세트를 여러 작업으로 분할하여 동일한 작업 팀에게 할당하는 것이 가장 좋습니다.
    • 레이블링 작업의 객체 수가 많습니다.
    • 대기 시간이 TaskAvailabilityLifetimeInSeconds 값을 초과하여 작업이 실패했습니다.
  • TaskTimeLimitInSeconds가 사용 사례에 맞는 값으로 설정되어 있는지 확인하세요. 작업자가 작업을 완료하는 데 걸리는 시간을 제어하여 작업에 주석을 달고 다음 배치가 할당되도록 해야 하는 경우 이 시간 제한에 적절한 값을 설정하는 것이 좋습니다.

레이블링 오류 문제 해결

권한 확인

레이블링 작업 생성, 입력 데이터 액세스 및 출력 데이터를 위한 Amazon Simple Storage Service (Amazon S3) 버킷 액세스 등을 대한 적절한 권한이 있는지 확인하세요. 자세한 내용은 1단계: 시작하기 전에를 참조하세요.

다음을 확인하세요.

  • Amazon S3 버킷은 Ground Truth 레이블링 작업과 동일한 리전에 있습니다.
  • 버킷에는 CORS 정책이 연결되어 있습니다. 자세한 내용은 CORS 권한 요구 사항을 참조하세요.

출력 매니페스트 파일 확인

출력 파일을 저장하기 위해 S3 버킷에 지정한 출력 매니페스트 파일을 확인합니다. 이 출력 데이터 세트에서는 레이블링 작업 실패를 야기할 수도 있었던 실패한 주석에 대한 메타데이터를 볼 수 있습니다.

예:

{"source-ref":"s3://sagemaker-output-labeling-bucket-example/example.jpeg","example-metadata":{"retry-count":1,"failure-reason":"ClientError: Annotation tasks expired.  Probable Reasons are 1) TaskAvailabilityLifetimeInSeconds parameter is too small.  2) Reward is too low for workers to work on the task.  3) If you use a custom html template, your template may be broken.  4) Data (image/video/text) sent for annotation is broken or too big, preventing completion.  5) All workers declined the tasks.","human-annotated":"true"}}

작업자는 명확하지 않은 지침, 손상된 입력 데이터(올바르게 표시되지 않음) 또는 기타 작업 관련 문제로 인해 작업을 거부할 수 있습니다. 모든 작업자가 거부하면 객체가 만료된 것으로 표시되고 다른 작업자에게 전송되지 않습니다.

Amazon CloudWatch Events를 사용하여 작업자의 작업 거부, 제출 또는 반환 여부를 모니터링할 수 있습니다. 자세한 내용은 레이블링 작업 상태 모니터링을 참조하세요.

입력 매니페스트 파일 확인

입력 매니페스트 파일이 나열된 모든 JSON 객체 요구 사항을 충족하는지 확인하세요. 자세한 내용은 입력 매니페스트 파일 사용을 참조하세요.