게시된 날짜: Nov 29, 2022

오늘 Amazon Elastic Compute Cloud(Amazon EC2) Inf2 인스턴스의 미리 보기가 발표되었습니다. Inf2 인스턴스는 사양 수준이 매우 높은 딥 러닝(DL) 추론 애플리케이션을 실행할 수 있도록 Amazon EC2에서 최저 비용으로 높은 성능을 제공합니다. Inf2 인스턴스는 최대 12개의 AWS Inferentia2(AWS에서 설계한 세 번째 DL 엑셀러레이터)를 기반으로 구동됩니다. Inf2 인스턴스는 Inf1 인스턴스에 비해 컴퓨팅 성능은 최대 3배, 처리량은 최대 4배 높으며 지연 시간은 최대 10배나 짧습니다.

Inf2 인스턴스를 사용하면 자연어 이해, 번역, 비디오 및 이미지 생성, 음성 인식, 개인화 등을 위한 DL 애플리케이션을 실행할 수 있습니다. 이러한 인스턴스는 대규모 언어 모델(LLM) 및 비전 변환기와 같은 복잡한 모델을 대규모로 배포할 수 있도록 최적화되어 있습니다. 또한 소형 모델 배포 시에도 가성비가 우수한 Inf1 인스턴스를 사용하면 더욱 효율적입니다. 파라미터가 1천억 개가 넘는 초대형 모델을 지원하는 Inf2 인스턴스는 Amazon EC2 최초의 추론 최적화 인스턴스입니다. 따라서 엑셀러레이터 간의 초고속 연결을 통한 스케일 아웃 분산 추론이 지원됩니다.

Inf2 인스턴스는 최대 2.3페타플롭의 DL 성능, 최대 34GB의 엑셀러레이터 메모리, 초당 9.8TB의 대역폭을 제공하며 인스턴스 내 초고속 비차단 인터커넥트 기능인 NeuronLink도 제공됩니다. 또한 Inf2 인스턴스는 와트당 성능이 Amazon EC2의 GPU 기반 인스턴스에 비해 최대 50% 더 우수하므로 지속 가능성 목표도 충족할 수 있습니다. AWS Neuron SDK는 PyTorch, TensorFlow 등의 널리 사용되는 ML 프레임워크와 기본적으로 통합되므로 코드 몇 줄만 작성하면 Inf2에서 DL 애플리케이션을 배포할 수 있습니다.  

Inf2 인스턴스 미리 보기에 대해 자세히 알아보고 미리 보기를 신청하려면 Inf2 제품 세부 정보 페이지를 참조하세요.