AWS Inferentia

AWS가 사용자 맞춤 설계한, 고성능 기계 학습 추론 칩

AWS의 비전은 딥 러닝을 상용화하고 저렴한 종량 요금제 사용 모델로 최첨단 인프라를 사용할 수 있게 하는 것입니다. AWS Inferentia는 딥 러닝 워크로드를 가속화하도록 설계된 Amazon 최초의 맞춤형 칩으로, 이 비전을 실현하기 위한 장기적인 전략의 일환으로 개발되었습니다. AWS Inferentia는 클라우드에서 뛰어난 추론 성능을 제공하며, 개발자가 총 추론 비용을 줄이면서 비즈니스 애플리케이션에 기계 학습을 쉽게 통합할 수 있게 설계되었습니다.

AWS Neuron 소프트웨어 개발 키트(SDK)는 AWS Inferentia에 대한 워크로드 성능을 최적화하는 컴파일러, 런타임 및 프로파일링 도구로 구성됩니다. 개발자는 Tensorflow, PyTorch, MXNet 등 인기 있는 프레임워크에서 구축 및 훈련된 복잡한 신경망 모델을 배포하고 AWS Inferentia 기반 Amazon EC2 Inf1 인스턴스에 배포할 수 있습니다. 지금 사용하는 동일한 기계 학습 프레임워크를 계속 사용할 수 있으며, 최소의 코드 변경과 공급업체별 솔루션에 구속되지 않고도 Inf1에 모델을 마이그레이션할 수 있습니다.

Amazon Alexa는 기계 학습 추론 비용을 절감하기 위해 AWS Inferentia를 채택함

이점

고성능

각 AWS Inferentia 칩은 EC2 Inf1 인스턴스당 최대 16개의 Inferentia 칩을 사용하여 절전 상태에서 최대 128TOPS(초당 수조 개의 작업)의 성능을 지원할 수 있습니다. Inferentia는 작은 배치 크기로 처리량을 극대화하도록 최적화되어 있습니다. 이는 특히 음성 생성 및 검색과 같은 엄격한 지연 시간 요구 사항이 적용되는 애플리케이션에 유용합니다.

짧은 지연 시간

AWS Inferentia는 칩 외부에 모델을 저장하지 않고 대용량 모델을 캐싱하는 데 사용할 수 있는 대용량 온칩 메모리를 제공합니다. 이는 Inferentia의 처리 코어인 Neuron Cores는 온칩 메모리에 저장된 모델에 고속으로 액세스할 수 있고 칩의 오프칩 메모리 대역폭에 의해 제한되지 않아 추론 지연 시간을 줄이는 데 큰 영향을 끼칩니다.

사용 편의성

개발자는 TensorFlow, PyTorch, MXNet 등 인기 있는 프레임워크를 사용하여 모델을 훈련하고 AWS Neuron SDK를 사용하여 AWS Inferentia 기반 Inf1 인스턴스에 손쉽게 배포할 수 있습니다. AWS Inferentia는 FP16, BF16 및 INT8 데이터 유형을 지원합니다. 또한 Inferentia는 32비트의 훈련된 모델을 가져와서 BFloat16을 사용하는 16비트의 모델 속도로 자동 실행할 수 있습니다.

AWS Inferentia로 지원되는 Amazon EC2 Inf1 인스턴스

AWS Inferentia 칩에 기반한 AWS EC2 Inf1 인스턴스는 비교 가능한 최신 세대의 GPU 기반 Amazon EC2 인스턴스에 비해 추론당 최대 70% 저렴한 비용으로 최대 2.3배 더 많은 처리량을 제공합니다. Inf1 인스턴스는 최대 16개의 AWS Inferentia 칩, 최신 맞춤형 2세대 인텔® 제온® 확장형 프로세서 및 최대 100Gbps의 네트워킹을 사용하여 뛰어난 추론 처리 성능을 제공합니다. Inf1 인스턴스를 시작하는 가장 쉽고 빠른 방법은 개발자가 신속하게 기계 학습 모델을 구축, 훈련 및 배포할 수 있게 해 주는 완전관리형 서비스인 Amazon SageMaker를 사용하는 것입니다. 컨테이너화된 애플리케이션을 사용하는 개발자는 Amazon Elastic Kubernetes Service(EKS)를 사용하여 Inf1 인스턴스를 배포할 수도 있습니다.

자세히 알아보기 »

AWS Neuron SDK

AWS Neuron은 AWS Inferentia 칩을 사용하여 기계 학습 추론을 실행하기 위한 소프트웨어 개발 키트(SDK)입니다. 이 SDK는 개발자가 AWS Inferentia 기반 Amazon EC2 Inf1 인스턴스를 사용하여 지연 시간이 짧은 고성능 추론을 실행할 수 있도록 지원하는 컴파일러, 런타임 및 프로파일링 도구로 구성됩니다. 개발자는 Neuron을 통해 TensorFlow, PyTorch, MXNet 등 인기 있는 프레임워크에서 기계 학습 모델을 손쉽게 훈련하고 EC2 Inf1 인스턴스에서 최적화된 상태로 실행할 수 있습니다. 지금 사용하는 동일한 기계 학습 프레임워크를 계속 사용할 수 있으며, 최소의 코드 변경과 공급업체별 솔루션에 구속되지 않고도 Inf1 인스턴스에 소프트웨어를 마이그레이션할 수 있습니다. AWS Neuron SDK는 AWS Deep Learning AMI 및 AWS Deep Learning Containers에 사전 설치되어 제공되므로, Inf1 인스턴스에서 쉽게 시작할 수 있습니다.

자세히 알아보기 » 또는 시작하기 »

동영상

AWS re:Invent 2019: Andy Jassy가 이야기하는 칩 투자와 Inf1
AWS re:Invent 2019: Amazon Alexa를 제공하는 새로운 Amazon EC2 Inf1 인스턴스를 사용한 기계 학습 추론
Lower the Cost of Running ML Applications with New Amazon EC2 Inf1 Instances - AWS 온라인 테크 톡
Sign up for a free account
무료 계정에 가입

AWS 프리 티어에 즉시 액세스할 수 있습니다. 

가입하기 
Standard Product Icons (Start Building) Squid Ink
콘솔에서 구축 시작

AWS 콘솔에서 machine learning을 시작

로그인