Amazon Web Services 한국 블로그

Amazon EC2 업데이트 – 고성능 추론을 위한 Inf1 인스턴스 출시

AWS의 고객은 기계 학습에 많은 관심을 가지고 있습니다. 객체 감지, 음성 인식, 자연어 처리, 개인화 및 사기 감지를 비롯한 다양한 유형의 워크로드를 실행하고 있습니다. 대규모 프로덕션 워크로드에서 실행하는 경우 가능한 한 빠르고 비용 효율적으로 추론을 수행할 수 있어야 합니다. 고객들의 피드백에 따르면, 추론은 기계 학습 작업 비용의 최대 90%까지 차지할 수 있습니다.

고성능 추론을 위한 새로운 Inf1 인스턴스 출시
AWS는 4가지 크기로 신규 Inf1 인스턴스를 출시합니다. 본 인스턴스는 AWS Inferentia 칩이 지원되며 지연 시간이 짧은 고속 추론을 제공하도록 설계되었습니다.

AWS Inferentia 칩은 추론 프로세스를 가속화하도록 설계되었습니다. 각 칩이 제공할 수 있는 성능은 다음과 같습니다.

  • 16비트 부동 소수점(FP16BF16) 및 혼합 정밀도 데이터에서 64teraOPS
  • 8비트 정수(INT8) 데이터에서 128teraOPS

고속 상호 연결 및 대량의 메모리도 칩에 포함되어 있습니다. 가장 큰 인스턴스의 경우 16개 칩이 있어 기존 및 새로운 TensorFlow, PyTorch 및 MxNet 추론 워크로드에서 2petaOPS가 넘는 추론 성능을 활용할 수 있습니다. G4 인스턴스와 비교했을 때 Inf1 인스턴스는 추론당 최대 3배의 추론 처리량과 최대 40%의 비용 절감 효과를 제공합니다.

다음은 크기 및 사양입니다.

인스턴스 이름
Inferentia 칩
vCPU RAM EBS 대역폭 네트워크 대역폭
inf1.xlarge 1 4 8GiB 최대 3.5Gbps 최대 25Gbps
inf1.2xlarge 1 8 16GiB 최대 3.5Gbps 최대 25Gbps
inf1.6xlarge 4 24 48GiB 3.5Gbps 25Gbps
inf1.24xlarge 16 96 192GiB 14Gbps 100Gbps

인스턴스는 고객 맞춤형 2세대 Intel® Xeon® Scalable(Cascade Lake) 프로세서를 사용하며 온디맨드, 스팟 및 예약 인스턴스 형태로 제공되거나 미국 동부(버지니아 북부)미국 서부(오레곤) 리전에서 Savings Plan의 일부로 제공됩니다. 인스턴스를 바로 시작할 수 있으며 Amazon SageMaker, Amazon ECSAmazon Elastic Kubernetes Service를 통해서도 곧 제공될 예정입니다.

Inf1 인스턴스 사용하기
Amazon Deep Learning AMI가 업데이트되어 이제 Inf1 인스턴스에서 사용하기에 최적화된 TensorFlow 및 MxNet 버전을 포함하고 있으며 PyTorch에서도 곧 제공될 예정입니다. 이 AMI에는 Inferentia 칩에서 ML 모델을 컴파일, 최적화 및 실행하기 위한 명령이 포함된 새로운 AWS Neuron SDK가 포함되어 있습니다. 사용자의 자체 AMI 및 이미지에 SDK를 포함할 수도 있습니다.

P3 또는 P3dn과 같은 GPU 인스턴스에서 모델을 구축하고 학습시킨 다음, 프로덕션에서 사용할 수 있도록 Inf1 인스턴스로 옮길 수 있습니다. FP16에서 기본적으로 학습된 모델을 사용하거나, 32비트 정밀도로 학습된 모델을 사용하고 AWS Neuron이 이 모델을 BF16 형식으로 자동 변환하도록 할 수도 있습니다. 언어 번역 및 자연어 처리 모델과 같은 큰 모델의 경우 여러 Inferentia 칩으로 분할해 지연 시간을 줄일 수 있습니다.

또한 AWS Neuron SDK를 사용하여 모델을 Neuron Compute Group에 할당하고 병렬로 실행할 수 있습니다. 이를 통해 각 Inferentia 칩에서 대용량 온-칩(on-chip) 캐시를 활용하여 하드웨어 사용률을 극대화하고 Neuron Core Pipeline 모드의 일부로 여러 모델을 사용할 수 있습니다. 자세한 내용은 AWS Neuron SDK 자습서를 참조하십시오.

Jeff