Amazon Robotics, Amazon SageMaker를 사용하여 대규모 기계 학습 추론 지원


Amazon SageMaker는 추론에 사용하는 호스트만 관리하지 않습니다. 워크로드를 지원하기 위해 필요에 따라 호스트를 자동으로 추가하거나 제거하기도 합니다."
Eli Gallaudet
Amazon Robotics의 선임 소프트웨어 관리자
수동 스캔을 대체할 기계 학습 모델 구축
Amazon Robotics는 소프트웨어와 기계를 사용하여 Amazon 주문 처리 센터의 인벤토리 흐름을 자동화합니다. 회사 시스템에는 이동식 선반, 로봇, 직원 워크스테이션의 세 가지 주요 물리적 구성 요소가 있습니다. 로봇은 이동식 선반 유닛을 스테이션에 전달하고 직원은 인벤토리를 넣거나(수납) 꺼냅니다(꺼내기). Amazon Robotics의 선임 소프트웨어 관리자인 Eli Gallaudet은 "기존의 수납 및 꺼내기 워크플로는 다운스트림 처리에 병목 현상을 일으키기도 합니다."라고 말합니다. "2017년에 저희는 이러한 워크플로 중 일부를 더 간단하게 만드는 방법을 알아내기 위한 이니셔티브를 시작했습니다."
시간이 많이 걸리는 보관함 스캔을 줄이기 위해 Amazon Robotics는 수백만 개의 수납 작업 동영상 예에 대한 훈련을 받은 딥 러닝 기반 컴퓨터 비전 시스템인 의도 감지 시스템을 구축했습니다. Amazon Robotics는 직원이 인벤토리 항목을 배치하는 위치를 자동으로 식별하도록 시스템을 훈련하고자 했습니다. 딥 러닝 모델을 Amazon 주문 처리 센터에 배포하려면 클라우드 컴퓨팅이 필요하다는 사실을 깨닫고 Amazon Robotics는 AWS로 눈을 돌렸습니다. 팀에서는 모델을 Docker 컨테이너에 배포하고 완전관리형 컨테이너 오케스트레이션 서비스인 Amazon Elastic Container Service(Amazon ECS)를 사용하여 모델을 호스팅했습니다.
팀이 수납 작업의 동영상 예를 충분히 수집한 후에는 주석이 달린 대규모 동영상 데이터 집합에 모델 아키텍처를 적용하는 실험을 했습니다. 여러 번 반복 후 팀은 배포된 모델이 프로세스를 자동화하도록 할 수 있었습니다.
Amazon SageMaker로 호스팅 및 관리 전환
처음에 Amazon Robotics 팀은 Amazon SageMaker를 사용하여 모델을 호스팅했습니다. Amazon Robotics는 처음에는 하이브리드 아키텍처를 사용하고 일부 알고리즘을 온프레미스에서 실행하고 일부는 클라우드에서 실행하여 필요에 따라 서비스 사용을 조정했습니다. Amazon Robotics의 선임 소프트웨어 관리자인 Tim Stallman은 "저희는 의도 감지 시스템을 제공할 수 있는 핵심 기능 집합을 구축했습니다."라고 말합니다. "그런 다음 Amazon SageMaker 기능이 온라인으로 제공되면서 천천히 이들을 채택하기 시작했습니다." 예를 들어 팀은 기계 학습 실험 및 모델 버전을 구성, 추적, 비교 및 평가할 수 있는 기능인 Amazon SageMaker Experiments를 채택했습니다.
Amazon Robotics는 Amazon SageMaker 자동 크기 조정도 사용했습니다. Gallaudet은 "Amazon SageMaker는 추론에 사용하는 호스트만 관리하는 것이 아닙니다."라고 말합니다. "워크로드를 지원하기 위해 필요에 따라 호스트를 자동으로 추가하거나 제거하기도 합니다." 500개가 넘는 GPU를 자체적으로 조달하거나 관리할 필요가 없기 때문에 추론 비용을 50% 가까이 절감했습니다.
관리형 솔루션의 이점 활용
Amazon Robotics는 상당한 성공을 거두었습니다. Amazon SageMaker를 사용하여 관리에 소요되는 시간을 줄이고 사이언티스트와 소프트웨어 개발 엔지니어 비율의 균형을 맞췄습니다. 또한 Amazon SageMaker 덕분에 Amazon 주문 처리 네트워크 전체에 롤아웃하는 동안 시스템을 수평으로 확장할 수 있었습니다. 팀은 Amazon SageMaker가 최대 추론 수요를 처리할 수 있다고 확신합니다.
클라우드에서 안전하고 크기 조정 가능한 컴퓨팅 용량을 제공하고 사용자가 새로운 호스트 유형을 사용할 수 있게 되면 호스트 유형을 신속하게 마이그레이션할 수 있도록 하는 Amazon Elastic Compute Cloud(Amazon EC2)가 이 솔루션을 지원합니다. Amazon Robotics 팀은 이를 활용하여 처음에는 Amazon EC2 P2 인스턴스를 선택한 다음 NVIDIA T4 Tensor Core GPU 기반 Amazon EC2 G4 인스턴스로 마이그레이션했습니다. Gallaudet은 "올바른 튜닝 파라미터를 파악한 후 성능이 약 40% 향상되었습니다."라고 말합니다. 팀은 또한 마이그레이션으로 인해 비용이 20% 감소했다고 보고했습니다.
Amazon SageMaker 기반 솔루션은 초기 배포 후 빠르게 성장했습니다. Amazon Robotics 팀은 위스콘신의 주문 처리 센터에서 소규모로 솔루션을 구현하기 시작했고 이후 수십 개로 빠르게 확장했습니다. 솔루션 성장에 따라 Amazon SageMaker도 함께 빠르고 원활하게 확장되었습니다. Gallaudet은 "2021년에는 생산량이 거의 두 배로 증가할 것으로 예상합니다."라고 말합니다.
지속적인 혁신 이어가기
Amazon Robotics는 최첨단 기술을 실험함으로써 주문 처리 센터의 효율성을 지속적으로 높이고 Amazon 고객 경험을 개선하고 있습니다. Stallman은 "의도 감지 시스템에서 저희가 배운 많은 기술과 경험을 통해 이러한 프로젝트를 신속하게 진행할 수 있었습니다."라고 말합니다.
Amazon Robotics 소개
AWS의 이점
- 추론 비용 50% 가까이 절감
- 컴퓨팅 성능 40% 향상
- Amazon EC2 인스턴스 크기 조정을 통해 컴퓨팅 비용 20% 절감
사용된 AWS 서비스
Amazon EC2
Amazon EC2는 클라우드에서 안전하고 크기 조정이 가능한 컴퓨팅 파워를 제공하는 웹 서비스입니다. 개발자가 더 쉽게 웹 규모의 클라우드 컴퓨팅 작업을 할 수 있도록 설계되었습니다.
Amazon EC2 G4 인스턴스
이미지 분류, 객체 탐지 및 음성 인식과 같은 기계 학습 모델의 배포와 원격 그래픽 워크스테이션, 게임 스트리밍 및 그래픽 렌더링과 같은 그래픽 집약적 애플리케이션에 사용되는 Amazon EC2 G4 인스턴스는 업계에서 가장 비용 효율적이고 용도가 많은 GPU 인스턴스입니다.
Amazon ECS
Amazon ECS는 완전관리형 컨테이너 오케스트레이션 서비스입니다. Duolingo, 삼성, GE, Cookpad 등의 여러 고객이 보안, 안정성 및 확장성을 이유로 ECS를 사용하여 가장 민감한 미션 크리티컬 애플리케이션을 실행합니다.
Amazon SageMaker
Amazon SageMaker를 통해 데이터 사이언티스트와 개발자는 기계 학습을 위해 특별히 구축된 다양한 기능 세트를 함께 활용하여 고품질 기계 학습 모형을 빠르게 준비, 구축, 훈련 및 배포할 수 있습니다.
더 많은 Amazon 사례
시작하기
자세히 알아보려면 aws.amazon.com/sagemaker를 방문하세요.