Amazon Elastic Inference

기계 학습 추론 비용 최대 75% 절감

 중요 업데이트

Amazon Elastic Inference에 관심을 가져주셔서 감사합니다. Amazon Elastic Inference는 더 이상 신규 고객에게 제공되지 않습니다. AWS Inferentia와 같은 다른 하드웨어 가속화 옵션을 사용하여 더 낮은 비용으로 기계 학습 추론 워크로드의 성능을 개선할 수 있습니다. 현재 Amazon Elastic Inference를 사용하고 있다면 워크로드를 이러한 대안으로 마이그레이션하는 것을 고려해 보시기 바랍니다. 자세히 알아보려면 AWS 기계 학습 인프라 페이지를 방문하세요.

Amazon Elastic Inference를 이용하면 Amazon EC2 및 SageMaker 인스턴스 또는 Amazon ECS 작업에 낮은 비용의 GPU 지원 가속을 연결해 딥 러닝 추론 비용을 최대 75% 절감할 수 있습니다. Amazon Elastic Inference는 TensorFlow, Apache MXNet, PyTorch 및 ONNX 모형을 지원합니다.

추론은 훈련된 모델을 사용하여 예측하는 프로세스입니다. 딥 러닝 애플리케이션에서 추론은 두 가지 이유로 인해 총 운영 비용에서 최대 90%를 차지합니다. 첫째, 독립형 GPU 인스턴스는 일반적으로 추론이 아닌 모델 훈련을 위해 설계되었습니다. 훈련 작업은 수백 개의 데이터 샘플을 병렬로 배치 처리하지만, 일반적으로 추론 작업은 소량의 GPU 컴퓨팅을 사용하는 단일 입력을 실시간으로 처리합니다. 이로 인해 독립형 GPU 추론 비용의 효율성이 저하됩니다. 반면 독립형 CPU 인스턴스는 매트릭스 작업에 특화되지 않아 종종 딥 러닝 추론에 사용하기에는 실행 속도가 너무 느려집니다. 둘째, 다른 모델에는 다른 CPU, GPU 및 메모리가 필요합니다. 한 리소스를 최적화하면 다른 리소스의 활용이 미흡해지고 비용이 상승할 수 있습니다.

Amazon Elastic Inference는 코드 변경 없이 매우 적절한 양의 GPU 지원 추론 가속을 EC2 또는 SageMaker 인스턴스 유형 또는 ECS 작업에 연결하여 이러한 문제를 해결합니다. Amazon Elastic Inference를 사용하면 애플리케이션의 전체 컴퓨팅 및 메모리 요구 사항에 가장 적합한 AWS의 모든 CPU 인스턴스를 선택한 후 리소스를 효율적으로 사용하고 비용을 절감하는 데 도움이 되는 양의 GPU 기반 추론 가속을 별도로 구성할 수 있습니다.

이점

추론 비용을 최대 75% 절감

Amazon Elastic Inference를 이용하면 애플리케이션의 전체 컴퓨팅 및 메모리 요구 사항에 가장 적합한 인스턴스 유형을 선택할 수 있습니다. 그러면 필요한 양의 추론 가속을 별도로 지정할 수 있습니다. 더 이상 추론을 위해 GPU 컴퓨팅을 초과 프로비저닝할 필요가 없기 때문에 추론 비용을 최대 75% 절감하게 됩니다.

정확히 필요한 기능 이용

Amazon Elastic Inference는 작게는 1TFLOPS(초당 1조의 부동 소수점 연산)의 단정밀도, 크게는 32TFLOPS의 혼합 정밀도의 추론 가속을 제공할 수 있습니다. 이는 표준 Amazon EC2 P3 인스턴스가 제공하는 최대 1,000TFLOPS 범위보다 더 적절한 추론 컴퓨팅 수준입니다. 예를 들어, 단순 언어 처리 모델에는 효율적인 추론 실행을 위해 1TFLOPS가 필요하다면 복잡한 컴퓨터 비전 모델에는 최대 32TFLOPS가 필요할 수 있습니다.

수요 변화에 대응

Amazon EC2 Auto Scaling 그룹을 사용하여 추론 가속 양을 쉽게 확장하거나 축소할 수 있으므로 초과 프로비저닝 없이 애플리케이션의 요구 사항을 충족시킬 수 있습니다. EC2 Auto Scaling이 증가하는 수요를 맞추기 위해 EC2 인스턴스를 늘리는 경우, 각 인스턴스에 연결된 액셀러레이터가 자동으로 확장됩니다. 이와 유사하게 수요가 감소하여 EC2 인스턴스를 줄이는 경우, 각 인스턴스에 연결된 액셀러레이터가 자동으로 축소됩니다. 이를 통해 필요할 때 필요한 만큼만 비용을 지불할 수 있습니다.

널리 사용되는 프레임워크 지원

Amazon Elastic Inference는 TensorFlow 및 Apache MXNet 모델을 지원하며 더 많은 프레임워크가 곧 추가될 예정입니다.

블로그: Amazon Elastic Inference – GPU 지원 추론 가속
2018년 11월 28일