AWS의 비전은 딥 러닝을 상용화하고 저렴한 종량 요금제 사용 모델로 최첨단 인프라를 사용할 수 있게 하는 것입니다. AWS Inferentia는 딥 러닝 워크로드를 가속화하도록 설계된 Amazon 최초의 맞춤형 칩으로, 이 비전을 실현하기 위한 장기적인 전략의 일환으로 개발되었습니다. AWS Inferentia는 클라우드에서 뛰어난 추론 성능을 제공하며, 개발자가 총 추론 비용을 줄이면서 비즈니스 애플리케이션에 기계 학습을 쉽게 통합할 수 있게 설계되었습니다.
AWS Neuron 소프트웨어 개발 키트(SDK)는 AWS Inferentia에 대한 워크로드 성능을 최적화하는 컴파일러, 런타임 및 프로파일링 도구로 구성됩니다. 개발자는 Tensorflow, PyTorch, MXNet 등 인기 있는 프레임워크에서 구축 및 훈련된 복잡한 신경망 모델을 배포하고 AWS Inferentia 기반 Amazon EC2 Inf1 인스턴스에 배포할 수 있습니다. 지금 사용하는 동일한 기계 학습 프레임워크를 계속 사용할 수 있으며, 최소의 코드 변경과 공급업체별 솔루션에 구속되지 않고도 Inf1에 모델을 마이그레이션할 수 있습니다.
이점
고성능
각 AWS Inferentia 칩은 EC2 Inf1 인스턴스당 최대 16개의 Inferentia 칩을 사용하여 절전 상태에서 최대 128TOPS(초당 수조 개의 작업)의 성능을 지원할 수 있습니다. Inferentia는 작은 배치 크기로 처리량을 극대화하도록 최적화되어 있습니다. 이는 특히 음성 생성 및 검색과 같은 엄격한 지연 시간 요구 사항이 적용되는 애플리케이션에 유용합니다.
짧은 지연 시간
AWS Inferentia는 칩 외부에 모델을 저장하지 않고 대용량 모델을 캐싱하는 데 사용할 수 있는 대용량 온칩 메모리를 제공합니다. 이는 Inferentia의 처리 코어인 Neuron Cores는 온칩 메모리에 저장된 모델에 고속으로 액세스할 수 있고 칩의 오프칩 메모리 대역폭에 의해 제한되지 않아 추론 지연 시간을 줄이는 데 큰 영향을 끼칩니다.
사용 편의성
개발자는 TensorFlow, PyTorch, MXNet 등 인기 있는 프레임워크를 사용하여 모델을 훈련하고 AWS Neuron SDK를 사용하여 AWS Inferentia 기반 Inf1 인스턴스에 손쉽게 배포할 수 있습니다. AWS Inferentia는 FP16, BF16 및 INT8 데이터 유형을 지원합니다. 또한 Inferentia는 32비트의 훈련된 모델을 가져와서 BFloat16을 사용하는 16비트의 모델 속도로 자동 실행할 수 있습니다.
AWS Inferentia로 지원되는 Amazon EC2 Inf1 인스턴스
AWS Inferentia 칩에 기반한 AWS EC2 Inf1 인스턴스는 비교 가능한 최신 세대의 GPU 기반 Amazon EC2 인스턴스에 비해 추론당 최대 70% 저렴한 비용으로 최대 2.3배 더 많은 처리량을 제공합니다. Inf1 인스턴스는 최대 16개의 AWS Inferentia 칩, 최신 맞춤형 2세대 인텔® 제온® 확장형 프로세서 및 최대 100Gbps의 네트워킹을 사용하여 뛰어난 추론 처리 성능을 제공합니다. Inf1 인스턴스를 시작하는 가장 쉽고 빠른 방법은 개발자가 신속하게 기계 학습 모델을 구축, 훈련 및 배포할 수 있게 해 주는 완전관리형 서비스인 Amazon SageMaker를 사용하는 것입니다. 컨테이너화된 애플리케이션을 사용하는 개발자는 Amazon Elastic Kubernetes Service(EKS)를 사용하여 Inf1 인스턴스를 배포할 수도 있습니다.
AWS Neuron SDK
AWS Neuron은 AWS Inferentia 칩을 사용하여 기계 학습 추론을 실행하기 위한 소프트웨어 개발 키트(SDK)입니다. 이 SDK는 개발자가 AWS Inferentia 기반 Amazon EC2 Inf1 인스턴스를 사용하여 지연 시간이 짧은 고성능 추론을 실행할 수 있도록 지원하는 컴파일러, 런타임 및 프로파일링 도구로 구성됩니다. 개발자는 Neuron을 통해 TensorFlow, PyTorch, MXNet 등 인기 있는 프레임워크에서 기계 학습 모델을 손쉽게 훈련하고 EC2 Inf1 인스턴스에서 최적화된 상태로 실행할 수 있습니다. 지금 사용하는 동일한 기계 학습 프레임워크를 계속 사용할 수 있으며, 최소의 코드 변경과 공급업체별 솔루션에 구속되지 않고도 Inf1 인스턴스에 소프트웨어를 마이그레이션할 수 있습니다. AWS Neuron SDK는 AWS Deep Learning AMI 및 AWS Deep Learning Containers에 사전 설치되어 제공되므로, Inf1 인스턴스에서 쉽게 시작할 수 있습니다.
자세히 알아보기 » 또는 시작하기 »
블로그 및 기사
Patrick Moorhead, 2020년 5월 13일
James Hamilton, 2018년 11월 28일