게시된 날짜: Dec 12, 2019
단일 Amazon EC2 인스턴스에 여러 Amazon Elastic Inference 액셀러레이터를 연결할 수 있습니다. 이 기능을 사용하면 여러 모델의 추론을 실행할 때 Auto Scaling 그룹에서 단일 EC2 인스턴스를 사용할 수 있습니다. 단일 인스턴스에 여러 액셀러레이터를 연결하면 추론을 위해 여러 CPU 또는 GPU 인스턴스의 Auto Scaling 그룹을 배포하지 않아도 되기 때문에 운영 비용이 절감됩니다.
Amazon Elastic Inference를 이용하면 Amazon EC2 인스턴스에 낮은 비용의 GPU 지원 가속의 적절한 용량을 연결해 딥 러닝 추론 비용을 최대 75% 절감할 수 있습니다. 모델은 다른 GPU 메모리 용량과 컴퓨팅 용량을 필요할 수 있기 때문에 다른 Elastic Inference 액셀러레이터 크기를 선택하여 CPU 인스턴스에 연결할 수 있습니다. 더 빠른 응답 시간을 위해 모델을 액셀러레이터에 로드하면 모델을 언로드하지 않고 추론 호출을 계속 생성할 수 있습니다.
Amazon Elastic Inference가 제공되는 모든 리전에서 EC2 인스턴스에 여러 액셀러레이터를 추가할 수 있습니다. 단일 인스턴스에 여러 액셀러레이터를 추가하는 방법에 대한 자세한 내용은 Elastic Inference로 TensorFlow 모델 사용 및 Elastic Inference로 MXNet 모델 사용을 참조하십시오.