Amazon Rekognition Video 출시 – 딥 러닝 기반 동영상 장면 인식 기능

작년 이맘때 쯤 re:Invent 2016에서 Amazon Rekognition 서비스를 발표했습니다. 당시 공개된 Amazon Rekognition Image는 딥 러닝을 사용하여 확장 가능한 이미지 인식 및 분석을 제공하는 클라우드 서비스입니다. Amazon Rekognition Image를 통해 객체 및 장면 감지, 실시간 얼굴 인식, 유명 인사 인식, 이미지 조정은 물론 텍스트 인식을 구축하고 애플리케이션과 시스템에 통합할 수 있습니다.

Amazon Rekognition 이미지 서비스는 딥 러닝 신경망 모델을 사용하여 만들어졌고, Prime Photos에서 매일 수십억 개의 이미지를 분석할 수 있도록 하는 것과 동일한 기술을 기반으로 합니다. Rekognition을 공개할 당시 일차적으로 역점을 둔 것은 이미지에 대한 확장 가능한 자동화된 분석, 검색 및 분류를 제공하는 것이었습니다. 그러한 기본 기능을 바탕으로 추가적인 기능을 발표합니다.

Amazon Rekognition Video 공개

Amazon Rekognition Video는 확장 가능한 컴퓨터 비전 분석을 S3에 저장된 비디오는 물론 라이브 비디오 스트림에 도입하는 새로운 비디오 분석 서비스 기능입니다.

Rekognition video를 통해 비디오에서 수천 개의 객체, 얼굴 및 콘텐츠를 정확하게 감지, 추적, 인식, 추출 및 조정할 수 있습니다. 이 새로운 기능은 비디오 내의 객체에 대한 정확한 정보를 제공할 뿐만 아니라, 비디오의 시각적 개체, 시간 및 모션 등의 맥락을 사용하여 활동 감지와 인물 추적을 수행하는 최초의 비디오 분석 서비스를 구현한다는 점에서 더욱 돋보입니다.

이러한 딥 러닝 기반 기능을 사용하여 비디오에서 수행되는 활동에 대한 더 완벽한 통찰을 이끌어낼 수 있습니다. 예를 들어 이 서비스 기능은 비디오에 사람, 차, 나무가 있음을 식별할 수 있을 뿐만 아니라, 비디오에서 사람이 차 쪽으로 달리고 있음을 추론할 수 있습니다. 이 기능을 통해 사용자에게 제공할 수 있는 다양한 서비스 시나리오를 상상해 볼 수 있습니다.

비동기식 Amazon Rekognition Video API를 사용하여 비디오 분석을 수행하는 프로세스는 다음과 같습니다.

Rekognition Video Start 작업 API는 .mp4 또는 .mov 비디오에서 호출됩니다. 비디오는 H.264 코덱으로 인코딩해야 합니다. Start 작업 API는 다음과 같습니다.
- StartPersonTracking
- StartFaceDetection
- StartLabelDetection
- StartCelebrityRecognition
- StartContentModeration
Amazon Rekognition Video는 비디오를 처리하고, Amazon SNS 주제에 start 작업 API 요청의 완료 상태를 게시합니다.
Amazon SQS 대기열 또는 AWS Lambda 함수에서 지정한 SNS 주제를 구독하여 API 완료 결과에 대한 알림을 검색합니다.
SNS 알림에 제공된 JobID를 사용하여 비디오를 처리한 Start 작업 API와 연결된 Get 작업 API를 호출합니다. 이 JobID는 Start API 응답의 일부로도 제공됩니다. Get 작업 API는 다음과 같습니다.
- GetPersonTracking
- GetFaceDetection
- GetLabelDetection
- GetCelebrityRecognition
- GetContentModeration
Get 작업 API에서 반환된 JSON을 통해 비디오 분석 결과와 해당되는 경우 다음 번 결과 모음에 대한 페이지 매김 토큰을 검색합니다.

AWS CLI, AWS SDK 및/또는 REST API를 사용하여 Amazon Rekognition Video의 비디오 분석 기능을 활용할 수 있습니다. 새로운 서비스에 대해 배우려면 직접 뛰어들어 해보는 것보다 더 좋은 방법은 없습니다. 그런 의미에서 직접 해보겠습니다.

우선, Run by Foo Fighters와 Wild Thoughts by DJ Khaled라는 .mp4 파일 형식의 뮤직 비디오 두 개를 제 S3 노래 버킷에 업로드하여 시작하겠습니다. 이 노래들은 재생 목록에서 돌아가면서 재생됩니다. 제 음악적 취향은 폭넓고 다양합니다.

Rekognition Video의 알림에 대한 SNS 주제와 SNS 주제에서 알림을 받을 SQS 대기열을 만들겠습니다.

이제 내 SQS 대기열 RekognitionVideoQueue에서 내 SNS 주제 SNS-RekogntionVideo-Topic을 구독할 수 있습니다.

이제 AWS CLI를 사용하여 내 비디오 DJ_Khaled-Wild_Thoughts.mp4에 대해 start-face-detection API 작업을 호출하고, 이 API 응답에서 내 JobId를 가져오겠습니다.

SNS 주제에서 내 RekognitionVideoQueue SQS 대기열로 메시지가 수신되었다는 알림을 받고 해당 메시지의 Status가 SUCCEEDED이면, get-face-detection API 작업을 호출하여 JobId로 비디오 분석 결과를 가져올 수 있습니다.

또한 start-label-detection 및 get-label-detection API 작업을 호출하고 내 다른 비디오인 Foo_Fighters-Run.mp4에 대한 비디오 분석을 수행하여 해당 비디오의 프레임에서 감지된 객체에 대한 정보를 가져올 수 있습니다.

요약

이제 Rekognition Video를 통해 휴대폰, 카메라, IoT 비디오 센서 및 실시간 라이브 스트림 비디오 처리로 캡처된 비디오를 사용하여 확장 가능하고 정확도가 높은 비디오 분석 솔루션을 만들 수 있습니다. 이 새로운 딥 러닝 비디오 기능은 비디오에서 객체, 얼굴 및 활동을 감지하는 데 필요한 모든 작업을 자동화하며, 다른 AWS 서비스 통합을 통해 다양한 워크로드에 적합한 강력한 미디어 애플리케이션을 구축할 수 있습니다.

Amazon Rekognition 및 새로운 Rekognition Video 기능에 대해 자세히 알아보려면 해당 제품 페이지의 시작하기 단원 또는 AWS 설명서의 Rekognition 개발자 안내서를 확인하십시오.

– Tara;

이 글은 AWS re:Invent 2017 신규 서비스 소식으로 Welcoming Amazon Rekognition Video: Deep-Learning Based Video Recognition 의 한국어 번역입니다.

Amazon Web Services 한국 블로그

Amazon Rekognition Video 출시 – 딥 러닝 기반 동영상 장면 인식 기능

Amazon Rekognition Video 공개

주요 링크 모음

팔로우하기