메인 콘텐츠로 건너뛰기

AWS AI 칩

AWS Inferentia

Amazon EC2에서 딥 러닝 및 생성형 AI 추론을 위한 고성능 기능을 최저 비용으로 제공

Inferentia를 선택해야 하는 이유

AWS Inferentia 칩은 딥 러닝(DL) 및 생성형 AI 추론 애플리케이션을 위해 Amazon EC2에서 최저 비용으로 고성능을 제공하도록 설계되었습니다. 

1세대 AWS Inferentia 칩으로 구동되는 Amazon Elastic Compute Cloud(Amazon EC2) Inf1 인스턴스는 비교 가능한 Amazon EC2 인스턴스에 비해 추론당 최대 70% 저렴한 비용으로 최대 2.3배 더 많은 처리량을 제공합니다. Finch AI, Sprinklr, Money Forward, Amazon Alexa를 비롯한 많은 고객이 Inf1 인스턴스를 채택하여 성능 및 비용 이점을 실현했습니다.

AWS Inferentia2 칩은 Inferentia 대비 최대 4배 더 많은 처리량과 최대 10배 더 짧은 지연 시간을 제공합니다. Inferentia2 기반 Amazon EC2 Inf2 인스턴스는 대규모 언어 모델(LLM) 및 잠재 확산 모델과 같이 나날이 복잡해지는 모델을 대규모로 배포하도록 최적화되었습니다. Inf2 인스턴스는 Amazon EC2 최초의 추론 최적화 인스턴스로, 칩 간의 초고속 연결을 통한 스케일 아웃 분산 추론을 지원합니다. Leonardo.ai, Deutsche Telekom, Qualtrics를 비롯한 많은 고객이 DL 및 생성형 AI 애플리케이션에 Inf2 인스턴스를 채택했습니다. 

AWS Neuron SDK는 AWS Inferentia 칩에 모델을 배포하고 AWS Trainium 칩에서 모델을 훈련하는 데 도움이 됩니다. PyTorch, TensorFlow 같은 널리 사용되는 프레임워크와 기본적으로 통합되므로 기존 코드와 워크플로를 계속 사용하고 Inferentia 칩에서 실행할 수 있습니다.

AWS Inferentia의 이점

각 1세대 Inferentia 칩에는 4개의 1세대 NeuronCore가 탑재되며, 각 EC2 Inf1 인스턴스에는 최대 16개의 Inferentia 칩이 포함됩니다. 각 Inferentia2 칩에는 2개의 2세대 NeuronCore가 탑재되며, 각 EC2 Inf2 인스턴스에는 최대 12개의 Inferentia2 칩이 포함됩니다. 각 Inferentia2 칩은 초당 최대 190테라 부동 소수점 연산량(TFLOPS)의 FP16 성능을 지원합니다. 1세대 Inferentia에는 칩당 8GB의 DDR4 메모리와 대용량 온칩 메모리가 포함됩니다. Inferentia2는 칩당 32GB의 HBM을 제공하여 총 메모리를 Inferentia보다 4배 늘리고 메모리 대역폭을 10배 높입니다.

AWS Neuron SDK는 PyTorch 및 TensorFlow 같은 유명한 ML 프레임워크와 기본적으로 통합됩니다. AWS Neuron을 사용하면 이러한 프레임워크를 사용하여 두 AWS Inferentia 칩 모두에 DL 모델을 최적으로 배포할 수 있으며, Neuron은 코드 변경을 최소화하고 공급업체별 솔루션에 연계하도록 설계되었습니다. Neuron은 Inferentia 칩에서 자연어 처리(NLP)/이해, 언어 번역, 텍스트 요약, 비디오 및 이미지 생성, 음성 인식, 개인화, 사기 탐지 등을 위한 추론 애플리케이션을 실행하는 데 도움이 됩니다.

1세대 Inferentia는 FP16, BF16 및 INT8 데이터 유형을 지원합니다. Inferentia2는 FP32, TF32 및 구성 가능한 새로운 FP8(cFP8) 데이터 유형을 추가로 지원하여 보다 유연하게 성능 및 정확성을 최적화할 수 있도록 합니다. AWS Neuron은 높은 정밀도의 FP32 모델을 낮은 정밀도의 데이터 유형으로 자동 캐스팅하여 정확성과 성능을 최적화합니다. 자동 캐스팅을 사용하면 낮은 정밀도의 재훈련이 필요하지 않으므로 출시 시간이 단축됩니다.

Inferentia2는 하드웨어 최적화를 추가하여 동적 입력 크기 및 C++로 작성된 사용자 지정 연산자를 지원합니다. 레거시 반올림 모드보다 높은 성능과 정확성을 제공하는 확률적 반올림 방식인 확률 반올림도 지원합니다.

Inf2 인스턴스는 비교 가능한 Amazon EC2 인스턴스보다 최대 50% 뛰어난 와트당 성능을 제공합니다. 인스턴스 자체와 기반 Inferentia2 칩이 대규모 DL 모델 실행을 위해 특별히 설계되었기 때문입니다. Inf2 인스턴스는 초대형 모델을 배포할 때 지속 가능성 목표를 달성하는 데 도움이 됩니다.

Karakuri

Karakuri가 AWS Inferentia를 이용해 비용을 제어하면서도 고성능 AI를 제공하는 방법 알아보기


Missing alt text value

Metagenomi



Metagenomi가 AWS Inferentia를 이용해 대규모 단백질 설계 비용을 최대 56%까지 절감한 방법 알아보기

블로그 읽기

NetoAI

NetoAI가 AWS Inferentia2를 이용해 300~600밀리초의 추론 지연 시간을 달성한 방법 알아보기

Missing alt text value

Tomofun

Tomofun이 AWS Inferentia로 마이그레이션하여 BLIP 추론 배포 비용을 83% 절감한 방법 알아보기

추천사 보기

SplashMusic



SplashMusic이 추론 지연 시간을 줄인 방법 알아보기
AWS Inferentia를 사용하여 최대 10배

Missing alt text value

Leonardo.ai

Leonardo의 우리 팀은 생성형 AI를 활용하여 창의적 전문가와 마니아가 최고의 품질, 속도, 스타일 일관성을 갖춘 시각적 자산을 제작할 수 있도록 지원합니다. AWS Inferentia2를 활용하면 성능 저하 없이 비용을 80% 절감하여 보다 저렴한 가격대에서 최첨단 기능을 제공함으로써 고객에게 근본적으로 다른 가치를 제안할 수 있습니다. 또한 성장 및 확장에 따라 점점 더 중요해지는 보조 AI 서비스의 비용과 용량 가용성에 대한 우려를 줄여줍니다. 이것은 생성형 AI에 대한 가능성의 한계를 계속해서 넓혀 사용자에게 창의성과 표현력의 새로운 시대를 열어줄 수 있는 핵심 기술입니다.

Pete Werner, Leonardo.ai, AI Head

Logo for Leonardo AI featuring a stylized portrait resembling Leonardo da Vinci with geometric accents and vibrant colors next to the text 'Leonardo AI'.

Qualtrics

Qualtrics는 경험 관리 소프트웨어를 설계하고 개발합니다.

Qualtrics는 고객, 직원, 브랜드 및 제품의 경험 격차를 메우는 기술을 구축하는 데 초점을 둡니다. 이를 달성하기 위해 당사는 복잡한 멀티 태스크, 멀티 모드의 DL 모델을 개발하여 텍스트 분류, 시퀀스 태깅, 담론 분석, 핵심 문구 추출, 주제 추출, 클러스터링 및 전체적인 대화 이해와 같은 새로운 기능을 출시하고 있습니다. 이와 같이 더 복잡한 모델을 더 많은 애플리케이션에서 활용하려면 비정형 데이터의 양이 증가하기 때문에 추론에 최적화된 더 높은 성능의 솔루션이 필요합니다. 예를 들어 Inf2 인스턴스처럼 요구 사항을 충족하면서 최상의 고객 경험을 제공할 수 있어야 합니다. 새로운 Inf2 인스턴스에 대한 기대가 큰데, 처리량을 높여주고 지연 시간을 극적으로 줄여줄 뿐만 아니라 분산 추론 및 향상된 동적 입력 형태 지원과 같은 새로운 기능을 통해 더 크고 복잡한 대규모 모델을 배포할 때의 요구 사항을 충족할 수 있기 때문입니다.

Aaron Colak, Qualtrics, Head of Core Machine Learning

Qualtrics XM logo with stylized 'XM' in blue gradient on a white background.

Finch Computing

Finch Computing은 정부, 금융 서비스 및 데이터 통합 사업자 고객을 위한 인공 지능 애플리케이션을 제공하는 자연어 기술 회사입니다.

당사는 실시간 NLP에 대한 고객의 요구를 충족하기 위해 대규모 프로덕션 워크로드에 맞게 확장할 수 있는 최첨단 DL 모델을 개발합니다. 글로벌 데이터 피드를 처리하려면 트랜잭션의 지연 시간을 줄이고 처리량을 높여야 합니다. 이미 많은 프로덕션 워크로드를 Inf1 인스턴스로 마이그레이션하여 GPU 대비 80%의 비용을 절감했습니다. 지금은 기록된 텍스트에서 더 심층적이고 유용한 의미를 추출하는 더 크고 복잡한 모델을 개발하고 있습니다. 많은 고객이 이러한 인사이트에 실시간으로 액세스해야 하는데, Inf2 인스턴스의 성능은 Inf1 인스턴스보다 지연 시간을 줄이고 처리량을 높이는 데 큰 도움이 될 것으로 보입니다. Inf2의 개선된 성능과 동적 입력 크기 지원과 같은 새로운 Inf2 기능은 회사의 비용 효율성을 개선하고 실시간 고객 경험을 향상시키며 데이터에서 새로운 인사이트를 얻는 데 도움이 됩니다.

Franz Weckesser, Finch Computing, Chief Architect

Logo of Finch AI featuring a stylized origami bird and the text 'FinchAI'.

Dataminr

우리는 수십만 개의 소스에서 다양한 형식(이미지, 비디오, 오디오, 텍스트 센서, 이러한 모든 유형의 조합)으로 전 세계에서 발생하는 다양한 유형의 이벤트를 여러 언어로 경고합니다. 이러한 규모를 고려했을 때 속도와 비용을 최적화하는 것은 우리 비즈니스에 절대적으로 중요합니다. AWS Inferentia를 사용하여 모델 지연 시간을 줄이고 USD당 처리량을 최대 9배까지 개선했습니다. 이를 통해 더 정교한 DL 모델을 배포하고 비용을 통제하면서 5배 더 많은 데이터 볼륨을 처리함으로써 모델 정확도를 높이고 플랫폼 기능을 확장할 수 있었습니다.

Alex Jaimes, Dataminr, Chief Scientist 및 Senior Vice President of AI

The logo for Dataminr, featuring the company name and a distinctive icon in blue.

Snap Inc.

Snapchat의 여러 부분에 ML을 도입하고 있는데, 이 분야에서는 혁신 탐구가 최우선 과제입니다. Inferentia에 대해 들었을 때 성능과 비용 등의 측면에서 ML 배포를 지원하기 위해 AWS와 협업하여 Inf1/Inferentia 인스턴스를 채택하기 시작했습니다. 추천 모델로 시작했고, 앞으로는 Inf1 인스턴스와 함께 더 많은 모델을 채택할 수 있기를 기대합니다.

Nima Khajehnouri, Snap Inc. VP Engineering

The Snapchat logo, featuring a white ghost icon on a black background.

Sprinklr

Sprinklr의 AI 기반 통합 고객 경험 관리(통합 CXM) 플랫폼을 사용하면 여러 채널의 실시간 고객 피드백을 수집 및 번역하고 실행 가능한 인사이트로 변환하여 문제를 사전에 해결하며 제품 개발을 개선하고 콘텐츠 마케팅의 효과를 높이며 향상된 고객 서비스를 제공할 수 있습니다. Amazon EC2 Inf1을 사용한 후로 NLP 모델 중 하나의 성능이 크게 개선되었고 컴퓨터 비전 모델의 성능도 개선되었습니다. 당사는 계속해서 Amazon EC2 Inf1을 사용하여 글로벌 고객에게 더 나은 서비스를 제공할 계획입니다.

Vasant Srinivasan, Sprinklr, Senior Vice President of Product Engineering

The logo of Sprinklr, featuring a multicolored icon and text. Used for branding and visual identification.

Autodesk

Autodesk는 Inferentia를 사용하여 AI 기반 가상 비서인 Autodesk Virtual Agent(AVA)의 인지 기술을 발전시키고 있습니다. AVA는 자연어 이해(NLU) 및 DL 기술로 문의 내용 이면의 맥락, 의도 및 의미를 추출하여 매달 10만 개 이상의 고객 질문에 답합니다. Inferentia를 조종하면서 NLU 모델의 처리량을 G4dn의 4.9배로 높일 수 있었으며 Inferentia 기반 Inf1 인스턴스에서 더 많은 워크로드를 실행할 수 있기를 기대합니다.

Binghui Ouyang, Autodesk, Sr. Data Scientist

The Autodesk logo in black text on a white background.

Screening Eagle Technologies

지표 투과 레이더를 사용하고 시각적 결함을 감지하는 일은 일반적으로 전문 측량사의 영역입니다. AWS의 마이크로서비스 기반 아키텍처에서는 자동 검사 차량과 검사자를 통해 캡처된 동영상을 처리할 수 있습니다. 내부 구축 모델을 기존의 GPU 기반 인스턴스에서 Inferentia로 마이그레이션한 후 비용을 50%까지 절감할 수 있었습니다. 뿐만 아니라 G4dn GPU 인스턴스와 시간을 비교할 때 성능이 개선된 것을 확인했습니다. 우리 팀은 더 많은 워크로드를 Inferentia 기반 Inf1 인스턴스에서 실행하는 것을 기대하고 있습니다.

Jesús Hormigo, Screening Eagle Technologies, Chief of Cloud 및 AI Officer

The Screening Eagle logo featuring a stylized eagle head with the words 'Screening Eagle' in teal.

NTT PC Communications Inc.

일본에서 네트워크 서비스 및 통신 솔루션을 제공하는 NTT PC Communications는 정보 및 통신 기술 시장에 혁신적인 신제품을 소개하는 통신 사업자입니다.

NTT PC는 고급 자세 추정 ML 모델을 기반으로 한 모션 분석 API 플랫폼 서비스인 ‘AnyMotion’을 개발했습니다. 당사는 완전관리형 컨테이너 오케스트레이션 서비스를 위해 Amazon ECS를 사용하여 Amazon EC2 Inf1 인스턴스에 AnyMotion 플랫폼을 배포했습니다. Amazon EC2 Inf1에 AnyMotion 컨테이너를 배포함으로써 현재 세대 GPU 기반 EC2 인스턴스에 비해 전체에서 4.5배 더 높아졌고 추론 지연 시간은 25%, 비용은 90% 더 낮아졌습니다. 이 우수한 결과는 AnyMotion 서비스의 품질을 대규모로 개선하는 데 도움이 될 것입니다.

Toshiki Yanagisawa, NTT PC Communications Inc., Software Engineer

The logo of NTTPC Communications, featuring stylized text and a circular emblem.

Anthem

Anthem은 미국의 유명한 의료 복지 회사로, 수십 개 주에 걸쳐 4,000만 명이 넘는 회원의 의료 요구 사항을 해결합니다.

디지털 의료 플랫폼 시장은 놀라운 속도로 성장 중입니다. 이 시장에 대한 인텔리전스는 고객 의견 데이터의 양이 방대할 뿐 아니라 비정형 데이터 특성으로 인해 수집하기가 어렵습니다. 당사의 애플리케이션은 DL 자연어 모델(변환기)을 통해 고객 의견에서 유용한 인사이트를 자동으로 생성합니다. 이 애플리케이션은 계산 집약적이므로 높은 수준의 성능 기준을 충족할 수 있는 방식으로 배포되어야 합니다. 저희는 DL 추론 워크로드를 AWS Inferentia 프로세서로 구동되는 Amazon EC2 Inf1 인스턴스에 원활하게 배포했습니다. 새로운 Inf1 인스턴스는 GPU 기반 인스턴스에 2배 더 높은 처리량을 제공하기에 추론 워크로드를 간소화할 수 있었습니다.

Numan Laanait alc Miro Mihaylov, Anthem, PhDs, Principal AI/Data Scientists

The Anthem logo featuring the word 'Anthem' alongside stylized blue cross and blue shield symbols.

동영상

Behind the scenes look at Generative AI infrastructure at Amazon
Introducing Amazon EC2 Inf2 instances powered by AWS Inferentia2
How four AWS customers reduced ML costs and drove innovation with AWS Inferentia