AWS의 비전은 딥 러닝을 상용화하고 저렴한 종량 요금제 사용 모델로 최첨단 인프라를 사용할 수 있게 하는 것입니다. AWS Inferentia는 딥 러닝 워크로드를 가속화하도록 설계된 Amazon 최초의 맞춤형 칩으로, 이 비전을 실현하기 위한 장기적인 전략의 일환으로 개발되었습니다. AWS Inferentia는 클라우드에서 뛰어난 추론 성능을 제공하며, 개발자가 총 추론 비용을 줄이면서 비즈니스 애플리케이션에 기계 학습을 쉽게 통합할 수 있게 설계되었습니다. AWS Inferentia의 워크로드 성능을 최적화하는 컴파일러, 런타임 및 프로파일링 도구로 구성된 AWS Neuron 소프트웨어 개발 키트(SDK)는 Tensorflow, PyTorch, MXNet 등의 유명 프레임워크에서 생성 및 훈련되고 AWS Inferentia 기반 Amazon EC2 Inf1을 사용하여 실행되는 복잡한 신경망 모델을 지원합니다.
이점
고성능
각 AWS Inferentia 칩은 EC2 Inf1 인스턴스당 최대 16개의 Inferentia 칩을 사용하여 절전 상태에서 최대 128TOPS(초당 수조 개의 작업)의 성능을 지원할 수 있습니다. Inferentia는 작은 배치 크기로 처리량을 극대화하도록 최적화되어 있습니다. 이는 특히 음성 생성 및 검색과 같은 엄격한 지연 시간 요구 사항이 적용되는 애플리케이션에 유용합니다.
짧은 지연 시간
AWS Inferentia는 칩 외부에 모델을 저장하지 않고 대용량 모델을 캐싱하는 데 사용할 수 있는 대용량 온칩 메모리를 제공합니다. 이는 Inferentia의 처리 코어인 Neuron Cores는 온칩 메모리에 저장된 모델에 고속으로 액세스할 수 있고 칩의 오프칩 메모리 대역폭에 의해 제한되지 않아 추론 지연 시간을 줄이는 데 큰 영향을 끼칩니다.
유연성
개발자는 TensorFlow, PyTorch, MXNet 등의 유명 프레임워크를 사용하여 모델을 훈련하고 AWS Neuron SDK를 사용하여 AWS Inferentia 기반 Inf1 인스턴스에 손쉽게 배포할 수 있습니다. AWS Inferentia는 FP16, BF16 및 INT8 데이터 유형을 지원합니다. 또한 Inferentia는 32비트의 훈련된 모델을 가져와서 BFloat16을 사용하는 16비트의 모델 속도로 자동 실행할 수 있습니다.
AWS Inferentia로 지원되는 Amazon EC2 Inf1 인스턴스
Amazon EC2 Inf1 인스턴스는 AWS Inferentia 칩을 기반으로 Amazon EC2 G4 인스턴스보다 최대 30% 더 높은 처리 성능과 최대 45% 낮은 비용으로 추론 기능을 제공할 수 있습니다. Amazon EC2 G4 인스턴스는 기존에 클라우드에서 사용할 수 있는 최저 비용의 기계 학습 추론용 인스턴스였습니다. Inf1 인스턴스는 최대 16개의 AWS 추론 칩, 최신 맞춤형 2세대 인텔® 제온® 스케일러블 프로세서 및 최대 100Gbps의 네트워킹을 사용하여 뛰어난 추론 처리 성능을 제공합니다. Inf1 인스턴스를 시작하는 가장 쉽고 빠른 방법은 개발자가 신속하게 기계 학습 모델을 구축, 훈련 및 배포할 수 있게 해 주는 완전관리형 서비스인 Amazon SageMaker를 사용하는 것입니다. 컨테이너화된 애플리케이션을 사용하는 개발자는 Amazon Elastic Kubernetes Service(EKS)를 사용하여 Inf1 인스턴스를 배포할 수도 있습니다.
AWS Neuron SDK
AWS Neuron은 AWS Inferentia 칩을 사용하여 기계 학습 추론을 실행하기 위한 소프트웨어 개발 키트(SDK)입니다. 이 SDK는 개발자가 AWS Inferentia 기반 Inf1 인스턴스를 사용하여 지연 시간이 짧은 고성능 추론을 실행할 수 있도록 지원하는 컴파일러, 런타임 및 프로파일링 도구로 구성됩니다. AWS Neuron은 개발자가 TensorFlow, PyTorch, MXNet 등 인기 있는 프레임워크에서 기계 학습 모델을 훈련하고 Amazon EC2 Inf1 인스턴스에서 최적화된 상태로 실행하도록 지원합니다. AWS Neuron SDK는 AWS Deep Learning AMI에 사전 설치되며, 곧 AWS Deep Learning Containers에도 사전 설치될 예정입니다.
자세히 알아보기 » 또는 시작하기 »
블로그 및 기사
Patrick Moorhead, 2020년 5월 13일
James Hamilton, 2018년 11월 28일