Amazon EC2 Inf2 인스턴스

가장 까다로운 추론 워크로드를 위해 Amazon EC2에서 최저 비용으로 고성능 제공

Amazon Elastic Compute Cloud(Amazon EC2) Inf2 인스턴스는 딥 러닝(DL) 추론을 위해 특별히 제작되었으며, 가장 까다로운 DL 애플리케이션을 위해 Amazon EC2에서 최저 비용으로 고성능을 제공하도록 설계되었습니다. Inf2 인스턴스를 사용하면 자연어 이해, 언어 번역, 비디오 및 이미지 생성, 음성 인식, 개인화, 사기 탐지 등을 위한 추론 애플리케이션을 실행할 수 있습니다.

Inf2 인스턴스는 2세대 AWS Inferentia 액셀러레이터인 AWS Inferentia2로 구동됩니다. Inf2 인스턴스는 Inf1 인스턴스보다 3배 더 뛰어난 컴퓨팅 성능, 4배 더 많은 액셀러레이터 메모리, 최대 4배 더 많은 처리량(throughput), 최대 10배 짧은 지연 시간을 제공합니다. Inf2 인스턴스는 대규모 언어 모델(LLM) 및 비전 트랜스포머 등의 나날이 복잡해지는 모델을 대규모로 배포할 수 있도록 최적화되었습니다. Inf2 인스턴스는 Amazon EC2 최초의 추론 최적화 인스턴스로, 엑셀러레이터 간의 초고속 연결을 통한 스케일 아웃 분산 추론을 지원합니다. 이제 1,750억 개의 파라미터가 포함된 추론용 모델을 단일 Inf2 인스턴스의 여러 액셀러레이터에 효율적으로 배포할 수 있습니다. 또한 Inf2 인스턴스는 소규모 모델에서 Inf1보다 우수한 가격 대비 성능을 제공합니다.

AWS Neuron은 개발자가 AWS Trainium에서 모델을 훈련하고 AWS Inferentia 액셀러레이터에 모델을 배포하는 데 도움이 되는 SDK입니다. 이 SDK는 PyTorch 및 TensorFlow 같은 프레임워크와 기본적으로 통합되므로 기존 워크플로를 계속 사용하고 코드 몇 줄만 추가하여 Inf2 인스턴스에서 워크플로를 실행할 수 있습니다.

이점

1000억 개 이상의 파라미터 모델을 대규모로 배포


Inf2 인스턴스는 스케일 아웃 분산 추론을 지원하고 엑셀러레이터 간에 초고속 연결을 제공하는 Amazon EC2 최초의 추론 최적화 인스턴스입니다. 이제 1,750억 개의 파라미터가 포함된 추론용 모델을 단일 Inf2 인스턴스의 여러 액셀러레이터에 효율적으로 배포할 수 있습니다.

추론 비용을 크게 낮추면서 성능 향상

Inf2 인스턴스는 DL 배포를 위해 Amazon EC2에서 최저 비용으로 고성능을 제공하도록 설계되었습니다. 또한 Amazon EC2 Inf1 인스턴스보다 최대 4배 더 높은 처리량(throughput)과 최대 10배 더 짧은 지연 시간을 제공합니다.

ML 프레임워크 및 라이브러리에 대한 기본 지원 활용


AWS Neuron SDK를 사용하면 코드 몇 줄만으로 Inf2 인스턴스의 전체 성능을 쉽게 추출할 수 있습니다. Neuron SDK를 통해 Inf2 인스턴스에서 애플리케이션을 실행하고 PyTorch 및 TensorFlow에서 기존 워크플로를 계속 사용할 수 있습니다.

에너지 효율적인 솔루션으로 지속 가능성 목표 달성

Inf2 인스턴스는 Amazon EC2의 GPU 기반 인스턴스보다 최대 50% 뛰어난 와트당 성능을 제공합니다. 인스턴스 자체와 기반 Inferentia2 액셀러레이터가 대규모 DL 모델 실행을 위해 특별히 설계되었기 때문입니다. Inf2 인스턴스는 초대형 모델을 배포할 때 지속 가능성 목표를 달성하는 데 도움이 됩니다.

기능

최대 2.3페타플롭의 컴퓨팅 성능을 제공하는 AWS Inferentia2

Inf2 인스턴스는 간소화된 집단 통신을 위해 초고속 NeuronLink와 연결된 최대 12개의 AWS Inferentia2 액셀러레이터로 구동됩니다. 또한 Inf1 인스턴스보다 최대 4배 더 높은 처리량(throughput) 및 10배 더 짧은 지연 시간과 최대 2.3페타플롭의 컴퓨팅 성능을 제공합니다.

최대 384GB의 고대역폭 액셀러레이터 메모리

대규모 DL 모델을 수용하기 위해 Inf2 인스턴스는 총 메모리 대역폭이 9.8TB/s인 최대 384GB의 공유 액셀러레이터 메모리(모든 Inferentia2 가속기에서 32GB HBM2e)를 제공합니다.

액셀러레이터 간의 빠른 통신을 위해 Inf2 인스턴스는 인스턴스 내 초고속 비차단 상호 연결인 NeuronLink를 지원합니다.

자동 캐스팅으로 6가지 데이터 유형 지원

Inf2 인스턴스는 FP32, TF32, BF16, FP16, UINT8 및 새로운 구성 가능한 FP8(cFP8) 데이터 유형에 대한 전체 스택 지원을 제공합니다. AWS Neuron은 높은 정밀도의 FP32 모델을 낮은 정밀도의 데이터 유형으로 자동 캐스팅하여 정확성과 성능을 최적화합니다. 자동 캐스팅을 사용하면 낮은 정밀도의 재훈련이 필요하지 않으므로 출시 시간이 단축됩니다.

최첨단 딥 러닝 최적화

Inf2 인스턴스는 C++로 작성된 사용자 지정 연산자 및 동적 입력 크기에 대한 하드웨어 최적화 및 소프트웨어 지원을 제공합니다. 레거시 반올림 모드보다 높은 성능과 정확성을 제공하는 확률적 반올림 방식인 확률 반올림도 지원합니다.

제품 세부 정보

인스턴스 크기 Inferentia2 액셀러레이터 액셀러레이터
메모리
(GB)
vCPU 메모리
(GiB)
로컬
스토리지
액셀러레이터 간
상호 연결
네트워크
대역폭
(Gbps)
EBS
대역폭
(Gbps)
inf2.xlarge 1 32 4 16 EBSOnly 해당 사항 없음 최대 15 최대 6.6
inf2.8xlarge 1 32 32 128 EBS 전용 해당 사항 없음 최대 25 6.6
inf2.24xlarge 6 192 96 384 EBS 전용 50 20
inf2.48xlarge 12 384 192 768 EBS 전용 100 40

고객 추천사

Qualtrics

Qualtrics는 경험 관리 소프트웨어를 설계하고 개발합니다.

"Qualtrics는 고객, 직원, 브랜드 및 제품의 경험 격차를 메우는 기술을 구축하는 데 초점을 둡니다. 이를 달성하기 위해 당사는 복잡한 멀티 태스크, 멀티 모드의 딥 러닝 모델을 개발하여 텍스트 분류, 시퀀스 태깅, 담론 분석, 핵심 문구 추출, 주제 추출, 클러스터링 및 전체적인 대화 이해와 같은 새로운 기능을 출시하고 있습니다. 이와 같이 더 복잡한 모델을 더 많은 애플리케이션에서 활용하려면 비정형 데이터의 양이 증가하기 때문에 추론에 최적화된 더 높은 성능의 솔루션이 필요합니다. 예를 들어 Inf2 인스턴스처럼 요구 사항을 충족하면서 최상의 고객 경험을 제공할 수 있어야 합니다. 새로운 Inf2 인스턴스에 대한 기대가 큰데, 처리량(throughput)을 높여주고 지연 시간을 극적으로 줄여줄 뿐만 아니라 분산 추론 및 향상된 동적 입력 형태 지원과 같은 새로운 기능을 통해 더 크고 복잡한 대규모 모델을 배포할 때의 요구 사항을 충족할 수 있기 때문입니다."

Aaron Colak, Qualtrics 핵심 기계 학습 책임자

Print

Finch Computing은 정부, 금융 서비스 및 데이터 통합 사업자 고객을 위한 인공 지능 애플리케이션을 제공하는 자연어 기술 회사입니다.

"당사는 실시간 자연어 처리에 대한 고객의 요구 사항을 충족하기 위해 대규모 프로덕션 워크로드로 확장되는 최첨단 딥 러닝 모델을 개발합니다. 글로벌 데이터 피드를 처리하려면 트랜잭션의 지연 시간을 줄이고 처리량(throughput)을 높여야 합니다. 이미 많은 프로덕션 워크로드를 Inf1 인스턴스로 마이그레이션하여 GPU 대비 80%의 비용을 절감했습니다. 지금은 기록된 텍스트에서 더 심층적이고 유용한 의미를 추출하는 더 크고 복잡한 모델을 개발하고 있습니다. 많은 고객이 이러한 인사이트에 실시간으로 액세스해야 하는데, Inf2 인스턴스의 성능은 Inf1 인스턴스보다 지연 시간을 줄이고 처리량(throughput)을 높이는 데 큰 도움이 될 것으로 보입니다. Inf2의 개선된 성능과 동적 입력 크기 지원과 같은 새로운 Inf2 기능은 회사의 비용 효율성을 개선하고 실시간 고객 경험을 향상시키며 데이터에서 새로운 인사이트를 얻는 데 도움이 됩니다.”

Franz Weckesser, Finch Computing 최고 아키텍트

AWS 계정 가입

AWS 계정 가입

AWS 프리 티어에 즉시 액세스할 수 있습니다.

간단한 자습서로 학습

10분 자습서로 알아보기

간단한 자습서를 통해 자세히 알아보십시오.

콘솔에서 EC2 구축 시작

콘솔에서 구축 시작

AWS 프로젝트를 시작하는 데 도움이 되는 단계별 안내서를 통해 구축을 시작하십시오.