AWS Inferentia 액셀러레이터는 딥 러닝(DL) 추론 애플리케이션에 필요한 고성능을 최저 비용으로 제공하도록 설계되었습니다.
1세대 AWS Inferentia 액셀러레이터로 구동되는 Amazon Elastic Compute Cloud(Amazon EC2) Inf1 인스턴스는 비교 가능한 Amazon EC2 인스턴스에 비해 추론당 최대 70% 저렴한 비용으로 최대 2.3배 더 많은 처리량을 제공합니다. Airbnb, Snap, Sprinklr, Money Forward 및 Amazon Alexa를 비롯한 많은 고객이 Inf1 인스턴스를 채택하여 성능 및 비용 이점을 실현했습니다.
AWS Inferentia2 액셀러레이터는 1세대 AWS Inferentia보다 성능과 기능이 크게 향상되었습니다. Inferentia2는 Inferentia 대비 최대 4배 더 많은 처리량과 최대 10배 더 짧은 지연 시간을 제공합니다. Inferentia2 기반 Amazon EC2 Inf2 인스턴스는 Amazon EC2의 DL 추론 및 생성형 인공 지능(AI) 애플리케이션을 위한 고성능을 최저 비용으로 제공하도록 설계되었습니다. 이 인스턴스는 대규모 언어 모델(LLM) 및 비전 트랜스포머 등 나날이 복잡해지는 모델을 대규모로 배포할 수 있도록 최적화되었습니다. Inf2 인스턴스는 Amazon EC2 최초의 추론 최적화 인스턴스로, 엑셀러레이터 간의 초고속 연결을 통한 스케일 아웃 분산 추론을 지원합니다. 이제 Inf2 인스턴스에서 여러 액셀러레이터에 수천억 개의 파라미터가 포함된 모델을 효율적이고 경제적으로 배포할 수 있습니다.
AWS Neuron은 2가지 AWS Inferentia 액셀러레이터에 모델을 배포하고 자연어 처리(NLP)/이해, 언어 번역, 텍스트 요약, 비디오 및 이미지 생성, 음성 인식, 개인화, 사기 탐지 등을 위한 추론 애플리케이션을 실행하는 데 도움이 되는 SDK입니다. 이 SDK는 PyTorch 및 TensorFlow 같은 유명한 기계 학습(ML) 프레임워크와 기본적으로 통합되므로 기존 코드 및 워크플로를 계속 사용하여 Inferentia 액셀러레이터에서 워크플로를 실행할 수 있습니다.
이점
고성능 및 높은 처리량(throughput)
각 1세대 Inferentia 액셀러레이터에는 4개의 1세대 NeuronCore와 EC2 Inf1 인스턴스당 최대 16개의 Inferentia 액셀러레이터가 포함됩니다. 각 Inferentia2 액셀러레이터에는 2개의 2세대 NeuronCore와 EC2 Inf2 인스턴스당 최대 12개의 Inferentia2 액셀러레이터가 포함됩니다. Inferentia2는 Inferentia보다 최대 4배 더 높은 처리량(throughput)과 3배 더 높은 컴퓨팅 성능을 제공합니다. 각 Inferentia2 액셀러레이터는 최대 190테라플롭스(TFLOPS)의 FP16 성능을 지원합니다.
고대역폭 메모리를 통해 지연 시간을 낮춤
1세대 Inferentia에는 액셀러레이터당 8GB의 DDR4 메모리와 대용량 온칩 메모리가 포함됩니다. Inferentia2는 액셀러레이터당 32GB의 HBM을 제공하여 총 메모리를 Inferentia보다 4배 늘리고 메모리 대역폭을 10배 높입니다.
ML 프레임워크를 기본적으로 지원
AWS Neuron SDK는 PyTorch 및 TensorFlow 같은 유명한 ML 프레임워크와 기본적으로 통합됩니다. AWS Neuron을 이러한 프레임워크와 함께 사용할 수 있으므로 특정 공급업체 솔루션에 얽매이지 않으면서 최소한의 코드 변경으로 2가지 AWS Inferentia 액셀러레이터에 DL 모델을 최적화하여 배포할 수 있습니다.
자동 캐스팅을 통해 다양한 데이터 유형 지원
1세대 Inferentia는 FP16, BF16 및 INT8 데이터 유형을 지원합니다. Inferentia2는 FP32, TF32 및 구성 가능한 새로운 FP8(cFP8) 데이터 유형을 추가로 지원하여 보다 유연하게 성능 및 정확성을 최적화할 수 있도록 합니다. AWS Neuron은 높은 정밀도의 FP32 모델을 낮은 정밀도의 데이터 유형으로 자동 캐스팅하여 정확성과 성능을 최적화합니다. 자동 캐스팅을 사용하면 낮은 정밀도의 재훈련이 필요하지 않으므로 출시 시간이 단축됩니다.
최첨단 DL 기능
Inferentia2는 하드웨어 최적화를 추가하여 동적 입력 크기 및 C++로 작성된 사용자 지정 연산자를 지원합니다. 레거시 반올림 모드보다 높은 성능과 정확성을 제공하는 확률적 반올림 방식인 확률 반올림도 지원합니다.
지속 가능성을 고려한 설계
Inf2 인스턴스는 비교 가능한 Amazon EC2 인스턴스보다 최대 50% 뛰어난 와트당 성능을 제공합니다. 인스턴스 자체와 기반 Inferentia2 액셀러레이터가 대규모 DL 모델 실행을 위해 특별히 설계되었기 때문입니다. Inf2 인스턴스는 초대형 모델을 배포할 때 지속 가능성 목표를 달성하는 데 도움이 됩니다.
AWS Neuron SDK
AWS Neuron은 2가지 AWS Inferentia 액셀러레이터에 모델을 배포하고 AWS Trainium 액셀러레이터에서 모델을 훈련하는 데 도움이 되는 SDK입니다. 이 SDK는 PyTorch 및 TensorFlow 같은 유명한 ML 프레임워크와 기본적으로 통합되므로 기존 워크플로를 계속 사용하고 코드 몇 줄만 추가하여 Inferentia 액셀러레이터에서 워크플로를 실행할 수 있습니다.
AWS Trainium
AWS Trainium은 AWS가 설계한 DL 훈련 액셀러레이터로, AWS에서 비용 효율적으로 고성능 DL 훈련을 수행할 수 있습니다. AWS Trainium으로 구동되는 Amazon EC2 Trn1 인스턴스는 AWS에서 주요 NLP 모델의 DL 훈련에서 최고 수준의 성능을 제공합니다. Trn1 인스턴스는 비교 가능한 Amazon EC2 인스턴스 대비 최대 50% 저렴한 훈련 비용을 제공합니다.
고객 추천사

Qualtrics는 경험 관리 소프트웨어를 설계하고 개발합니다.
"Qualtrics는 고객, 직원, 브랜드 및 제품의 경험 격차를 메우는 기술을 구축하는 데 초점을 둡니다. 이를 달성하기 위해 당사는 복잡한 멀티 태스크, 멀티 모드의 DL 모델을 개발하여 텍스트 분류, 시퀀스 태깅, 담론 분석, 핵심 문구 추출, 주제 추출, 클러스터링 및 전체적인 대화 이해와 같은 새로운 기능을 출시하고 있습니다. 이와 같이 더 복잡한 모델을 더 많은 애플리케이션에서 활용하려면 비정형 데이터의 양이 증가하기 때문에 추론에 최적화된 더 높은 성능의 솔루션이 필요합니다. 예를 들어 Inf2 인스턴스처럼 요구 사항을 충족하면서 최상의 고객 경험을 제공할 수 있어야 합니다. 새로운 Inf2 인스턴스에 대한 기대가 큰데, 처리량을 높여주고 지연 시간을 극적으로 줄여줄 뿐만 아니라 분산 추론 및 향상된 동적 입력 형태 지원과 같은 새로운 기능을 통해 더 크고 복잡한 대규모 모델을 배포할 때의 요구 사항을 충족할 수 있기 때문입니다."
Aaron Colak, Qualtrics Head of Core Machine Learning

Finch Computing은 정부, 금융 서비스 및 데이터 통합 사업자 고객을 위한 인공 지능 애플리케이션을 제공하는 자연어 기술 회사입니다.
“당사는 실시간 NLP에 대한 고객의 요구를 충족하기 위해 대규모 프로덕션 워크로드에 맞게 확장할 수 있는 최첨단 DL 모델을 개발합니다. 글로벌 데이터 피드를 처리하려면 트랜잭션의 지연 시간을 줄이고 처리량을 높여야 합니다. 이미 많은 프로덕션 워크로드를 Inf1 인스턴스로 마이그레이션하여 GPU 대비 80%의 비용을 절감했습니다. 지금은 기록된 텍스트에서 더 심층적이고 유용한 의미를 추출하는 더 크고 복잡한 모델을 개발하고 있습니다. 많은 고객이 이러한 인사이트에 실시간으로 액세스해야 하는데, Inf2 인스턴스의 성능은 Inf1 인스턴스보다 지연 시간을 줄이고 처리량을 높이는 데 큰 도움이 될 것으로 보입니다. Inf2의 개선된 성능과 동적 입력 크기 지원과 같은 새로운 Inf2 기능은 회사의 비용 효율성을 개선하고 실시간 고객 경험을 향상시키며 데이터에서 새로운 인사이트를 얻는 데 도움이 됩니다.”
Franz Weckesser, Finch Computing Chief Architect

“우리는 수십만 개의 소스에서 다양한 형식(이미지, 비디오, 오디오, 텍스트 센서, 이러한 모든 유형의 조합)으로 전 세계에서 발생하는 다양한 유형의 이벤트를 여러 언어로 경고합니다. 이러한 규모를 고려했을 때 속도와 비용을 최적화하는 것은 우리 비즈니스에 절대적으로 중요합니다. AWS Inferentia를 사용하여 모델 지연 시간을 줄이고 달러당 처리량을 최대 9배까지 개선했습니다. 이를 통해 더 정교한 DL 모델을 배포하고 비용을 통제하면서 5배 더 많은 데이터 볼륨을 처리함으로써 모델 정확도를 높이고 플랫폼 기능을 확장할 수 있었습니다.”
Alex Jaimes, Dataminr Chief Scientist and Senior Vice President of AI

2008년에 설립된 샌프란시스코에 위치한 Airbnb는 전 세계 거의 모든 국가에서 9억 명 이상의 게스트를 둔 400만 이상의 호스트가 있는 커뮤니티 마켓플레이스입니다.
"Airbnb의 커뮤니티 지원 플랫폼은 전 세계 수백만 명의 게스트와 호스트로 구성된 커뮤니티에 지능적이고 확장 가능하며 탁월한 서비스 경험을 제공합니다. AWS는 지원 챗봇 애플리케이션이 사용하는 NLP 모델의 성능을 개선할 방법을 지속적으로 찾고 있습니다. AWS Inferentia 기반의 Amazon EC2 Inf1 인스턴스를 사용하면 PyTorch 기반 BERT 모델의 GPU 기반 인스턴스에 비해 즉시 처리량이 2배 향상됩니다. 앞으로 다른 모델과 사용 사례에 Inf1 인스턴스를 활용할 수 있기를 기대합니다.”
Bo Zeng, Airbnb Engineering Manager

"Snapchat의 여러 부분에 ML을 통합하고 있는데, 이 분야에서는 혁신 탐구가 최우선 과제입니다. Inferentia에 대해 들었을 때 성능과 비용 등의 측면에서 ML 배포를 지원하기 위해 AWS와 협업하여 Inf1/Inferentia 인스턴스를 채택하기 시작했습니다. 추천 모델로 시작했고, 앞으로는 Inf1 인스턴스와 함께 더 많은 모델을 채택할 수 있기를 기대합니다."
Nima Khajehnouri, Snap Inc. VP Engineering

"Sprinklr의 AI 기반 통합 고객 경험 관리(통합 CXM) 플랫폼을 사용하면 여러 채널의 실시간 고객 피드백을 수집 및 번역하고 실행 가능한 인사이트로 변환하여 문제를 사전에 해결하고, 제품 개발을 개선하고, 콘텐츠 마케팅의 효과를 높이며, 향상된 고객 서비스를 제공할 수 있습니다. Amazon EC2 Inf1을 사용한 후로 NLP 모델 중 하나의 성능이 크게 개선되었고 컴퓨터 비전 모델의 성능도 개선되었습니다. 당사는 계속해서 Amazon EC2 Inf1을 사용하여 글로벌 고객에게 더 나은 서비스를 제공할 계획입니다."
Vasant Srinivasan, Sprinklr Senior Vice President of Product Engineering

"Autodesk는 Inferentia를 사용하여 AI 기반 가상 비서인 Autodesk Virtual Agent(AVA)의 인지 기술을 발전시키고 있습니다. AVA는 자연어 이해(NLU) 및 DL 기술로 문의 내용 이면의 맥락, 의도 및 의미를 추출하여 매달 10만 개 이상의 고객 질문에 답합니다. Inferentia를 조종하면서 NLU 모델의 처리량을 G4dn의 4.9배로 높일 수 있었으며 Inferentia 기반 Inf1 인스턴스에서 더 많은 워크로드를 실행할 수 있기를 기대합니다."
Binghui Ouyang, Autodesk Sr. Data Scientist
AWS Inferentia를 사용하는 Amazon 서비스

Amazon Advertising은 모든 규모의 비즈니스에서 쇼핑 여정의 모든 단계에 있는 고객과 교류하는 데 도움이 됩니다. 텍스트 및 이미지를 포함한 수백만 건의 광고를 조정, 분류 및 제공하여 매일 최적의 고객 경험을 보장합니다.
“텍스트 광고 처리를 위해 전 세계의 AWS Inferentia 기반 Inf1 인스턴스에 PyTorch 기반 BERT 모델을 배포합니다. GPU에서 Inferentia로 전환한 후 비슷한 성능으로 비용을 69%까지 절감할 수 있었습니다. AWS Inferentia용으로 모델을 컴파일하고 테스트하는 데 걸린 시간은 3주 미만이었습니다. Amazon SageMaker를 사용하여 Inf1 인스턴스에 모델을 배포했기 때문에 배포를 확장하고 손쉽게 관리할 수 있습니다. 컴파일된 모델을 처음 분석했을 때 AWS Inferentia는 벤치마크를 다시 실행하여 맞는지 확인해야 할 정도로 인상적인 성능을 제공했습니다. 앞으로는 이미지 광고 처리 모델을 Inferentia로 마이그레이션할 계획입니다. 이러한 모델에서 비슷한 GPU 기반 인스턴스에 비해 이미 30% 짧은 지연 시간과 71%의 비용 절감을 벤치마크했습니다.”
Yashal Kanungo, Amazon Advertising Applied Scientist
뉴스 블로그 읽기 »

"AWS에서 제공하는 Amazon Alexa의 AI 및 ML 기반 인텔리전스는 오늘날 1억 대 이상의 장치에서 사용 가능하며, 당사는 Alexa가 갈수록 더 스마트해지고, 더 진보한 대화를 나누고, 더 능동적이고, 더 만족스러운 경험을 제공할 것을 고객에게 약속드립니다. 이 약속을 지키려면 응답 시간과 ML 인프라 비용의 지속적인 개선이 필요합니다. 당사는 Amazon EC2 Inf1을 사용하여 Alexa 텍스트를 음성으로 변환 기능의 추론 지연 시간을 줄이고 추론당 비용을 낮출 수 있게 된 것을 기쁘게 생각합니다. Amazon EC2 Inf1을 통해 당사는 매월 Alex를 사용하는 수천만 고객에게 더 나은 서비스를 제공할 수 있게 되었습니다."
Tom Taylor, Amazon Alexa Senior Vice President
"고객 경험을 계속해서 개선하고 인프라 비용을 줄이기 위해 계속 혁신하고 있습니다. 웹 기반 질문 답변(WBQA) 워크로드를 GPU 기반 P3 인스턴스에서 AWS Inferentia 기반 Inf1 인스턴스로 이전하면서 추론 비용이 60% 절감되었을 뿐만 아니라, 전체 지연 시간도 40% 넘게 개선되어 Alexa를 통해 고객 Q&A 경험을 향상시킬 수 있었습니다. Tensorflow 기반 모델에 Amazon SageMaker를 사용하자 Inf1 인스턴스로 바로 전환할 수 있었고 관리도 쉬웠습니다. 이제 글로벌 기반으로 Inf1 인스턴스를 사용하여 WBQA 워크로드를 실행하고 추가적으로 비용과 지연 시간을 줄이기 위해 AWS Inferentia에 대한 성능을 최적화하고 있습니다."
Eric Lind, Alexa AI Software Development Engineer

“Amazon Prime Video는 컴퓨터 비전 ML 모델을 사용하여 라이브 이벤트의 비디오 화질을 분석함으로써 Prime Video 회원의 시청 경험을 최적화합니다. 이미지 분류 ML 모델을 EC2 Inf1 인스턴스에 배포한 후 성능이 4배 개선되었고 비용은 40%까지 절감되었습니다. 이제 이 절감한 비용을 고급 모델을 혁신하고 구축하는 데 활용하려고 합니다. 고급 모델은 오디오와 비디오 파일 간의 동기화 차이와 같은 더 복잡한 결함을 감지하여 Prime Video 회원들에게 더 향상된 시청 경험을 제공할 수 있게 될 것입니다.”
Victor Antonino, Amazon Prime Video Solutions Architect

"Amazon Rekognition은 고객이 객체, 사람, 텍스트 및 활동을 식별하는 데 도움이 되는 간단하고 쉬운 이미지 및 비디오 분석 애플리케이션입니다. Amazon Rekognition은 매일 수십억 개의 이미지와 비디오를 분석할 수 있는 고성능 DL 인프라를 필요로 합니다. AWS Inferentia 기반 Inf1 인스턴스를 사용하여 객체 분류와 같은 Amazon Rekognition 모델을 실행하면 GPU에서 이러한 모델을 실행할 때보다 지연 시간이 8배 감소하고 처리량이 2배 증가했습니다. 이러한 결과를 기반으로 고객이 정확한 결과를 더 빠르게 얻을 수 있도록 Amazon Rekognition을 Inf1로 이동하고 있습니다."
Rajneesh Singh, SW Engineering, Amazon Rekognition and Video 부문 Director
블로그 및 기사
Patrick Moorhead, 2020년 5월 13일
James Hamilton, 2018년 11월 28일