AWS Inferentia

AWS가 사용자 맞춤 설계한, 고성능 기계 학습 추론 칩

광범위한 애플리케이션에서 딥 러닝 가속화에 대한 요구가 빠르게 커지고 있습니다. 맞춤형 검색 추천, 동적 요금, 자동화된 고객 지원 등의 애플리케이션은 더 정교해지고 있으며 프로덕션에서 실행하는 데 드는 비용이 늘어나고 있습니다. 점점 더 많은 애플리케이션에 기계 학습 기능이 포함됨에 따라 짧은 지연 시간과 실시간 성능을 요구하는 워크로드를 포함한 더 높은 비율의 워크로드가 가속화를 필요로 합니다. 이러한 애플리케이션은 기계 학습 알고리즘을 실행하도록 최적화된 인프라의 이점을 활용합니다.

AWS의 비전은 딥 러닝을 상용화하고 저렴한 종량 요금제 사용 모델로 최첨단 하드웨어를 사용할 수 있게 하는 것입니다. AWS Inferentia는 이 비전 실현을 위한 큰 진일보이자 결심입니다. AWS Inferentia는 클라우드에서 뛰어난 추론 성능을 제공하고 총 추론 비용을 줄이면서 표준 애플리케이션 기능의 일부로 기계 학습을 쉽게 통합할 수 있게 설계되었습니다.

AWS Inferentia

이점

고성능

각 AWS Inferentia 칩은 절전 상태에서 최대 128TOPS(초당 수조 개의 작업)의 성능을 지원하여 EC2 인스턴스당 여러 개의 칩을 사용할 수 있습니다. AWS Inferentia는 FP16, BF16 및 INT8 데이터 유형을 지원합니다. 또한 Inferentia는 32비트의 교육된 모델을 가져와서 BFloat16을 사용하는 16비트의 모델 속도로 실행할 수 있습니다.

짧은 지연 시간

AWS Inferentia는 대용량 모델을 캐싱하는 데 사용할 수 있는 대용량 온칩 메모리를 제공하므로 칩 외부에 모델을 저장할 필요가 없습니다. 이는 Inferentia의 처리 코어인 Neuron Cores는 모델에 고속으로 액세스할 수 있고 칩의 오프칩 메모리 대역폭에 의해 제한되지 않아 추론 지연 시간을 줄이는 데 큰 영향을 끼칩니다.

사용 편의성

AWS Inferentia와 함께 제공되는 AWS Neuron SDK(소프트웨어 개발 키트)를 사용하면 AWS Inferentia 기반의 EC2 Inf1 인스턴스를 통해 인기 프레임워크에서 생성하고 교육한 복잡한 신경망 모델을 실행할 수 있습니다. Neuron은 컴파일러, 런타임 및 프로파일링 도구로 구성되며 TensorFlow, Pytorch, MXNet을 포함한 인기 기계 학습 프레임워크에 사전 통합되어 최적의 EC2 Inf1 인스턴스 성능을 제공합니다.

Product-Page_Standard-Icons_02_Sign-Up_SqInk
무료 계정에 가입

AWS 프리 티어에 즉시 액세스할 수 있습니다. 

가입하기 
Product-Page_Standard-Icons_03_Start-Building_SqInk
콘솔에서 구축 시작

AWS 콘솔에서 machine learning을 시작

로그인