AWS Inferentia

AWS가 사용자 맞춤 설계한, 고성능 기계 학습 추론 칩

광범위한 애플리케이션에서 딥 러닝 가속화에 대한 요구가 빠르게 커지고 있습니다. 맞춤형 검색 추천, 동적 요금, 자동화된 고객 지원 등의 애플리케이션은 더 정교해지고 있으며 프로덕션에서 실행하는 데 드는 비용이 늘어나고 있습니다. 점점 더 많은 애플리케이션에 기계 학습 기능이 포함됨에 따라 짧은 지연 시간과 실시간 성능을 요구하는 워크로드를 포함한 더 높은 비율의 워크로드가 가속화를 필요로 합니다. 이러한 애플리케이션은 기계 학습 알고리즘을 실행하도록 최적화된 인프라의 이점을 활용합니다.

AWS의 비전은 딥 러닝을 상용화하고 저렴한 종량 요금제 사용 모델로 최첨단 하드웨어를 사용할 수 있게 하는 것입니다. AWS Inferentia는 이 비전 실현을 위한 큰 진일보이자 결심입니다. AWS Inferentia는 클라우드에서 뛰어난 추론 성능을 제공하고 총 추론 비용을 줄이면서 표준 애플리케이션 기능의 일부로 기계 학습을 쉽게 통합할 수 있게 설계되었습니다. AWS Inferentia는 컴파일러, 런타임, 프로파일링 도구로 구성된 AWS Neuron 소프트웨어 개발 키트(SDK)가 제공됩니다. AWS Inferentia 기반의 Amazon EC2 Inf1 인스턴스를 통해 인기 프레임워크(예: Tensorflow, PyTorch, MXNet)에서 생성하고 훈련한 복잡한 신경망 모델을 실행할 수 있습니다.

AWS Inferentia

이점

고성능

각 AWS Inferentia 칩은 절전 상태에서 최대 128TOPS(초당 수조 개의 작업)의 성능을 지원하여 EC2 인스턴스당 여러 개의 칩을 사용할 수 있습니다. AWS Inferentia는 FP16, BF16 및 INT8 데이터 유형을 지원합니다. 또한 Inferentia는 32비트의 교육된 모델을 가져와서 BFloat16을 사용하는 16비트의 모델 속도로 실행할 수 있습니다.

짧은 지연 시간

AWS Inferentia는 대용량 모델을 캐싱하는 데 사용할 수 있는 대용량 온칩 메모리를 제공하므로 칩 외부에 모델을 저장할 필요가 없습니다. 이는 Inferentia의 처리 코어인 Neuron Cores는 모델에 고속으로 액세스할 수 있고 칩의 오프칩 메모리 대역폭에 의해 제한되지 않아 추론 지연 시간을 줄이는 데 큰 영향을 끼칩니다.

사용 편의성

훈련된 기계 학습 모델은 코드 변경을 최소화하여 AWS Inferentia 기반 Amazon EC2 Inf1 인스턴스에 손쉽게 배포할 수 있습니다. 빠르게 시작하려면 기계 학습 모델을 구축, 훈련, 배포하는 완전 관리형 서비스인 Amazon SageMaker를 사용하는 것이 좋습니다. 모델을 구축하고 배포할 때 직접 만든 워크플로를 관리하는 것을 선호하는 개발자는 TensorFlow, PyTorch, MXNet 등의 인기 프레임워크와 기본으로 통합된 AWS Neuron SDK를 바로 사용하실 수도 있습니다. AWS Neuron은 AWS Deep Learning AMI에 사전 설치되며 프레임워크 없이 사용자 지정 환경에 설치할 수도 있습니다.

AWS Inferentia로 지원되는 Amazon EC2 Inf1 인스턴스

Amazon EC2 Inf1 인스턴스는 클라우드에서 최저 비용 고성능 기계 학습 추론 기능을 제공합니다. 고객은 Inf1 인스턴스를 사용하여 클라우드에서 가장 낮은 비용으로 이미지 인식, 음성 인식, 자연어 처리, 개인화 및 부정행위 탐지 같은 대규모 기계 학습 추론 애플리케이션을 실행할 수 있습니다.

자세히 알아보기 »

Product-Page_Standard-Icons_02_Sign-Up_SqInk
무료 계정에 가입

AWS 프리 티어에 즉시 액세스할 수 있습니다. 

가입하기 
Product-Page_Standard-Icons_03_Start-Building_SqInk
콘솔에서 구축 시작

AWS 콘솔에서 machine learning을 시작

로그인