게시된 날짜: Nov 28, 2018
AWS Inferentia는 매우 저렴한 비용으로 높은 처리량과 짧은 지연 시간의 추론 성능을 제공하기 위해 AWS에서 개발한 기계 학습 추론 칩입니다. AWS Inferentia는 TensorFlow, Apache MXNet 및 PyTorch 딥 러닝 프레임워크뿐만 아니라 ONNX 형식을 사용하는 모델을 지원합니다.
AWS Inferentia는 복잡한 모델이 추론을 빠르게 수행할 수 있도록 수백 TOPS(초당 테라 연산)의 추론 처리량을 제공합니다. 성능을 더 높이기 위해 AWS Inferentia 칩을 여러 개 함께 사용하여 수천 TOPS의 처리량을 제공할 수도 있습니다.
AWS Inferentia는 Amazon SageMaker, Amazon EC2 및 Amazon Elastic Inference와 함께 사용할 수 있습니다. AWS Inferentia에 대한 자세한 내용은 웹 페이지를 참조하십시오.