게시된 날짜: Aug 20, 2021

AWS에서는 수신되는 요청을 대기열에 배치하고 비동기식으로 처리하는 새로운 Amazon SageMaker 추론 옵션인 Amazon SageMaker 비동기 추론을 소개합니다. 이 옵션은 페이로드가 대형(최대 1GB)이거나 프로세싱 시간(최대 15분)이 긴 워크로드를 요청이 수신되는 대로 프로세싱해야 하는 추론에 이상적입니다. 비동기 추론을 사용하면 처리할 요청이 없을 때 인스턴스 수를 0으로까지 자동 축소하여 엔드포인트가 요청을 처리할 때만 비용을 지불하므로 비용이 절감됩니다.

비동기 추론의 도입을 통해, Amazon SageMaker는 새로운 데이터에 대한 추론 생성을 위해 훈련된 기계 학습 모형을 배포하는 방식에 대해 총 세 가지 옵션을 제공하게 되었습니다. 실시간 추론은 페이로드 크기가 최대 6MB이고 밀리초 또는 초 단위의 짧은 지연 시간 요구 사항으로 처리되어야 하는 워크로드에 적합합니다. 배치 변환은 사전에 제공되는 대규모 데이터 배치에 대한 오프라인 예측에 이상적입니다. 새로운 비동기 추론 옵션은 요청 크기가 대형(최대 1GB)이고 수 분 단위의 추론 프로세싱 시간(최대 15분)이 요구되는 워크로드에 이상적입니다. 비동기 추론을 위한 워크로드의 예로는 하루 중 서로 다른 간격으로 모바일 기기에서 생성된 고해상도 이미지에 대한 예측을 실행하고 요청 수신 후 몇 분 내에 응답을 제공하는 워크로드가 있습니다. 콜드 스타트에 따르는 수 분의 시간 손실을 감수할 수 있는 사용 사례의 경우, 선택적으로 미처리 요청이 없을 때 엔드포인트 인스턴스 수를 0으로까지 축소했다가 새 요청이 수신되면 다시 인스턴스를 확장하여 엔드포인트가 실제로 요청을 처리하는 기간에 대해서만 비용을 지불할 수 있습니다.

비동기 추론 엔드포인트의 생성은 실시간 엔드포인트의 생성과 유사합니다. 기존의 Amazon SageMaker 모형을 사용할 수 있으며 엔드포인트 구성을 생성할 때 추가적으로 비동기 추론에 대한 구성 파라미터만 지정하면 됩니다. 엔드포인트를 호출하려면 Amazon S3에 요청 페이로드를 배치하고 호출 요청의 일부로 페이로드에 대한 포인터를 제공해야 합니다. 호출을 제출하면 Amazon SageMaker에서는 프로세싱 대기열에 요청을 추가하고 출력 위치를 응답으로 반환합니다. 프로세싱이 완료되면 Amazon SageMaker는 앞서 반환된 Amazon S3 위치에 추론 응답을 배치합니다. 선택적으로 Simple Notification Service(SNS)를 통해 성공 또는 오류 알림을 수신하도록 설정할 수 있습니다.

비동기 추론 엔드포인트의 생성, 호출 및 모니터링에 대한 자세한 설명은 설명서를 참조하세요. 이 설명서에는 시작에 도움이 되는 샘플 노트북도 포함되어 있습니다. 요금 정보는 Amazon SageMaker 요금 페이지를 참조하세요. Amazon SageMaker 비동기 추론은 Amazon SageMaker가 제공되는 리전 중 아시아 태평양(오사카), 유럽(밀란) 및 아프리카(케이프타운)를 제외한 모든 상용 AWS 리전에서 사용할 수 있습니다.