Amazon EC2 Inf1 인스턴스

클라우드 기반의 최저 비용 고성능 기계 학습 추론

다양한 업종의 기업들이 개인화된 쇼핑 추천 상품 제공, 온라인 콘텐츠 검열, 컨텍스트 인식 챗봇을 통한 고객 몰입도 향상과 같은 사용 사례를 지원하기 위해 기계 학습으로 눈을 돌리고 있습니다. 그러나 기계 학습 모델의 기능이 향상됨과 더불어 그 복잡성도 더 높아지고 있습니다. 이러한 복잡성은 더 많은 컴퓨팅 용량을 요구하며 이는 비용 증가로 이어집니다. 많은 경우, ML 애플리케이션의 개발 및 실행을 위한 인프라 지출의 최대 90%까지가 추론 기능에 소요되며, 이에 따라 비용 효과적이며 고성능인 ML 추론 인프라의 필요성이 그 어느 때보다 매우 중요해졌습니다.

Amazon EC2 Inf1 인스턴스는 Amazon EC2 G4 인스턴스보다 최대 30% 더 높은 처리 성능과 최대 45% 낮은 비용으로 추론 기능을 제공할 수 있습니다. Amazon EC2 G4 인스턴스는 기존에 클라우드에서 사용할 수 있는 최저 비용의 기계 학습 추론용 인스턴스였습니다. Inf1 인스턴스는 기계 학습 추론 애플리케이션을 지원하도록 완전히 새롭게 구축된 인스턴스입니다. 이러한 인스턴스에는 AWS가 설계하고 제작한 고성능 기계 학습 추론 칩인 AWS Inferentia 칩이 최대 16개 탑재됩니다. 그뿐 아니라, Inf1 인스턴스에는 최신 2세대 인텔® 제온® 스케일러블 프로세서 및 최대 100Gbps의 네트워킹이 포함되어 뛰어난 추론 처리 성능을 제공합니다. 고객은 Inf1 인스턴스를 사용하여 클라우드에서 가장 낮은 비용으로 검색 추천, 컴퓨터 비전, 음성 인식, 자연어 처리, 개인화 및 부정 행위 탐지 같은 대규모 기계 학습 추론 애플리케이션을 실행할 수 있습니다.

개발자는 TensorFlow, PyTorch, MXNet 등의 인기 기계 학습 프레임워크와 통합되는 AWS Neuron SDK를 사용하여 Inf1 인스턴스에 기계 학습 모델을 배포할 수 있습니다. AWS Neuron SDK는 AWS Inferentia에서 추론 성능을 최적화하기 위해 컴파일러, 런타임 및 프로파일링 도구로 구성됩니다. Inf1 인스턴스를 시작하는 가장 쉽고 빠른 방법은 개발자가 신속하게 기계 학습 모델을 구축, 훈련 및 배포할 수 있게 해 주는 완전관리형 서비스인 Amazon SageMaker를 사용하는 것입니다. 자체 기계 학습 애플리케이션 개발 플랫폼을 관리하려는 개발자는 Neuron SDK가 포함된 AWS Deep Learning AMI로 Inf1 인스턴스를 시작하거나 컨테이너식 ML 애플리케이션을 위한 Amazon EKS(Elastic Kubernetes Service) 또는 Amazon ECS(Elastic Container Service)를 통해 Inf1 인스턴스를 사용할 수 있습니다.

SiteMerch-EC2-Instances_accelerated-trial_2up

무료 체험: EC2 하드웨어 가속 인스턴스에 대해 최대 10,000 USD의 AWS 크레딧이 제공되며 ML, HPC 및 그래픽 애플리케이션에 적합합니다.

여기를 클릭하여 신청 
AWS Inferentia 기반의 Amazon EC2 Inf1 인스턴스(2:51)

이점

추론 1건당 최대 45% 더 저렴한 비용

Inf1 인스턴스의 높은 처리 성능 덕분에 클라우드에서 Amazon EC2 G4 인스턴스보다 최대 45% 낮은 추론 1건당 최저 비용을 제공할 수 있습니다. Amazon EC2 G4는 인스턴스 기존에 클라우드에서 사용할 수 있는 최저 비용의 기계 학습 추론용 인스턴스였습니다. 기계 학습 추론은 기계 학습 워크로드를 실행하는 데 소요되는 전체 운영 비용의 최대 90%를 차지하므로 상당한 비용 절감 효과를 얻을 수 있습니다.

최대 30% 더 높은 처리량

Inf1 인스턴스는 배치 추론 애플리케이션에 Amazon EC2 G4 인스턴스보다 최대 30% 더 높은 처리 성능을 제공합니다. 사진 태그 지정과 같은 배치 추론 애플리케이션은 추론 처리 성능 또는 초당 처리할 수 있는 추론 수에 크게 영향을 받습니다. Inf1 인스턴스는 작은 배치에 대해 고성능을 제공하도록 최적화되어 있으며 이는 엄격한 응답 시간 요구 사항을 가진 애플리케이션에 매우 중요합니다. 인스턴스당 1~16개의 AWS Inferentia 칩을 사용하는 Inf1 인스턴스는 최대 2000TOPS(Tera Operations per Second)까지 성능을 확장할 수 있습니다.

극도로 짧은 지연 시간

Inf1 인스턴스는 실시간 애플리케이션에 대해 짧은 대기 시간을 지원합니다. 음성 생성 및 검색 같은 실시간 추론 애플리케이션은 사용자의 입력에 빠르게 대응하여 추론을 수행해야 하며 추론 지연 시간에 크게 영향을 받습니다. Inf1 인스턴스에 사용되는 AWS Inferentia 칩의 대용량 온칩 메모리를 사용해 기계 학습 모델을 칩에 직접 캐싱할 수 있습니다. 따라서 추론을 실행하는 동안 메모리 리소스 외부에 액세스할 필요가 없어 대역폭에 영향을 미치지 않으면서 짧은 지연 시간을 실현할 수 있습니다.

광범위한 사용 사례를 위한 기계 학습 추론

개발자는 이미지 및 비디오 분석, 대화형 에이전트, 사기 감지, 재무 예측, 의료 서비스 자동화, 추천 엔진, 텍스트 분석 및 트랜스크립션을 비롯하여 다양한 사업 부분의 광범위한 기계 학습 애플리케이션에 Inf1 인스턴스를 통한 고성능 저지연 저비용 추론을 활용할 수 있습니다.

사용 편의성 및 코드 이동성

Neuron SDK가 TensorFlow 및 PyTorch 같은 일반 기계 학습 프레임워크에 통합되어 있으므로, 개발자는 최소한의 코드 변경만으로 기존 모델을 EC2 Inf1 인스턴스에 배포할 수 있습니다. 따라서 개발자는 특정 벤더 전용의 소프트웨어 라이브러리에 종속되지 않고 자유롭게 원하는 ML 프레임워크를 계속 사용하고, 요금 성능 요구 사항에 가장 적합한 컴퓨팅 플랫폼을 선택하고, 최신 기술을 활용할 수 있습니다.

다양한 기계 학습 모델 및 데이터 유형 지원

Inf1 인스턴스는 AWS Neuron을 사용하여 이미지 인식/분류를 위한 SSD(Single Shot Detector) 및 ResNet, 자연어 처리와 번역을 위한 Transformer 및 BERT와 같이 일반적으로 사용되는 다양한 기계 학습 모델을 지원합니다. 또한 INT8, BF16, FP16 등의 다양한 데이터 유형을 서로 다른 정밀도로 지원하므로 다양한 모델과 성능 요구 사항을 충족할 수 있습니다.

기능

AWS Inferentia 기반

AWS Inferentia는 저렴한 비용으로 높은 성능을 제공하도록 AWS가 맞춤 제작한 기계 학습 칩입니다. 각 AWS Inferentia 칩은 최대 128 TOPS(초당 조단위 연산)의 성능을 제공하고 FP16, BF16 및 INT8 데이터 유형을 지원합니다. 또한 AWS Inferentia 칩에는 대규모 모델을 캐싱하는 데 사용될 수 있는 고용량 온칩 메모리가 있어 잦은 메모리 액세스가 필요한 모델에 특히 유용합니다.

AWS Neuron SDK(소프트웨어 개발 키트)는 컴파일러, 런타임 및 프로파일링 도구로 구성되어 있습니다. 이 SDK를 사용하면 Inf1 인스턴스를 통해 인기 있는 프레임워크(예: Tensorflow, PyTorch, MXNet)에서 생성하고 훈련한 복잡한 신경망 모델을 실행할 수 있습니다. AWS Neuron은 여러 Inferentia 칩에 걸친 실행을 위해 고속 물리적 칩 간 상호 연결을 사용하여 대규모 모델을 분할하는 기능을 지원하므로 높은 추론 처리량과 낮은 추론 비용을 제공합니다.

고성능 네트워킹 및 스토리지

Inf1 인스턴스는 고속 네트워킹에 대한 액세스가 필요한 애플리케이션을 위해 최대 100Gbps의 네트워킹 처리량을 제공합니다. 차세대 ENA(Elastic Network Adapter) 및 NVMe(NVM Express) 기술이 적용된 Inf1 인스턴스는 네트워킹 및 Amazon Elastic Block Store(EBS)를 위한 처리량이 높고 지연 시간이 짧은 인터페이스를 제공합니다.

AWS Nitro System 기반

AWS Nitro System은 기존의 많은 가상화 기능을 전용 하드웨어 및 소프트웨어로 오프로드하여 고성능, 고가용성 및 뛰어난 보안을 제공하면서 가상화 오버헤드도 줄이는 다양한 빌딩 블록 모음입니다.

작동 방식

Inf1 및 AWS Inferentia 사용 방법

고객 추천사

Anthem
Anthem은 미국의 유명한 의료 복지 회사로, 수십 개 주에 걸쳐 4천만 명이 넘는 회원의 의료 요구 사항을 해결합니다. "디지털 의료 플랫폼 시장은 놀라운 속도로 성장 중입니다. 이 시장에 대한 인텔리전스는 고객 의견 데이터의 양이 방대할 뿐 아니라 구조화되지 않은 데이터 특성으로 인해 수집하기가 어렵습니다. 당사의 애플리케이션은 딥 러닝 자연어 모델(변환기)을 통해 고객 의견에서 실행 가능한 인사이트를 자동으로 생성합니다. 이 애플리케이션은 계산 집약적이므로 높은 수준의 성능 기준을 충족할 수 있는 방식으로 배포되어야 합니다. 저희는 딥 러닝 추론 워크로드를 AWS Inferentia로 구동되는 Amazon EC2 Inf1 인스턴스에 원활하게 배포했습니다. 새로운 Inf1 인스턴스는 GPU 기반 워크로드에 2배 더 높은 처리량을 제공하기 때문에 추론 워크로드를 간소화할 수 있었습니다.”

Numan Laanait 박사, 수석 AI/데이터 사이언티스트, Miro Mihaylov 박사, 수석 AI/데이터 사이언티스트

Condé Nast
"Condé Nast의 글로벌 포트폴리오는 Wired, Vogue, Vanity Fair를 포함하여 20개가 넘는 업계 주요 미디어 브랜드를 아우릅니다. 우리 팀은 자사의 추천 엔진과 AWS Inferentia 칩을 몇 주 만에 통합할 수 있었습니다. 이러한 통합 덕분에 SageMaker의 Inf1 인스턴스에서 최첨단 자연어 모델에 대해 여러 가지 런타임 최적화를 수행할 수 있습니다. 그에 따라 이전에 배포한 GPU 인스턴스와 비교해 72%의 비용을 절감하고 성능도 개선되었습니다."

Paul Fryzel, AI Infrastructure 수석 엔지니어

Asahi Shimbun
"아사히 신문은 일본에서 가장 널리 읽히는 신문 중 하나입니다. 자사 부서로 설립된 Media Lab은 최신 기술, 그중에서도 특히 AI를 연구하고 새로운 사업을 위해 첨단 기술을 연결하는 것을 미션으로 삼습니다. AWS Inferentia 기반 Amazon EC2 Inf1 인스턴스가 도쿄에 출시되었을 때 PyTorch 기반 텍스트 요약 AI 애플리케이션을 여기에 테스트했습니다. 이 애플리케이션은 방대한 텍스트를 처리하고 최근 30년 이내의 기사로 훈련된 제목과 요약문을 생성합니다. Inferentia를 사용해서 CPU 기반 인스턴스보다 비용을 몇 배나 낮출 수 있었습니다. 이렇게 비용이 대폭 절감되면 재정적으로 불가능하다고 생각했던 가장 복잡한 모델도 대규모로 배포할 수 있게 됩니다."

Hideaki Tamori, PhD, Asahi Shimbun Company Media Lab 고위 관리자

CS Disco
"CS Disco는 법률가가 법률가를 위해 개발한 전자증거개시(e-Discrovery)를 위한 AI 솔루션을 선보이는 주요 제공업체로서 법률 기술을 재창조하고 있습니다. Disco AI는 몇 테라바이트 분량의 데이터를 결합하는 아무런 보람 없는 태스크를 가속화하여 검토 시간을 높이고 검토 정확도를 개선하는데, 이를 위해 컴퓨팅 비용이 비싸고 많이 드는 복잡한 자연어 처리 모델을 활용합니다. Disco는 AWS Inferentia 기반의 Inf1 인스턴스가 오늘날의 GPU 인스턴스와 비교해 Disco AI의 추론 비용을 35% 이상 절감한다는 사실을 확인하게 되었습니다. CS Disco는 Inf1 인스턴스와 관련된 이러한 긍정적인 경험을 바탕으로 Inferentia로 마이그레이션할 기회를 살펴볼 예정입니다.”

Alan Lockett, CS Disco 수석 연구 책임자

Talroo
"Talroo에서는 고객이 고유한 구직 희망자에게 지원서를 받고 채용할 수 있는 데이터 중심적 플랫폼을 제공합니다. 고객에게 최고의 제품과 서비스를 제공하기 위한 항상 새로운 기술을 탐색합니다. Inferentia를 사용하여 텍스트 데이터 코퍼스에서 인사이트를 추출하고, AI로 작동하는 검색 및 일치 기술을 강화합니다. Talroo는 Amazon EC2 Inf1 인스턴스를 사용해서 SageMaker로 대량 처리가 가능한 자연어 처리 모델을 개발합니다. Talroo의 초기 테스트에 따르면, Amazon EC2 Inf1 인스턴스는 G4dn GPU 기반 인스턴스보다 추론 지연이 40% 감소하고 처리량은 두 배로 높아졌습니다. Talroo는 이 결과를 바탕으로 AWS 인프라에서 Amazon EC2 Inf1 인스턴스를 사용하고자 합니다."

Janet Hu, Talroo 소프트웨어 엔지니어

Digital Media Professionals(DMP)
Digital Media Professionals(DMP)는 인공 지능(AI) 기반의 실시간 ZIA 플랫폼으로 미래를 시각화합니다. DMP의 효율적인 컴퓨터 비전 분류 기술은 많은 양의 실시간 이미지 데이터(예: 상태 관찰, 범죄 예방 및 사고 방지)에 대한 인사이트를 구축하는 데 사용됩니다. 당사는 Inf1 인스턴스를 다른 대체 옵션과 비교하면서 적극적으로 평가 중입니다. Inferentia의 성능과 비용 구조는 AI 애플리케이션을 대규모로 배포하기에 적합합니다.” 

Hiroyuki Umeda - Digital Media Professionals 영업 및 마케팅 그룹 부문 이사 겸 총괄 관리자

Hotpot.ai
Hotpot.ai는 디자이너가 아닌 사람이 훌륭한 그래픽을 만들 수 있는 기능과 전문 디자이너가 기계적인 작업을 자동화할 수 있는 기능을 제공합니다. “회사 전략의 핵심이 기계 학습이기 때문에 저희는 AWS Inferentia 기반 Inf1 인스턴스에 대한 기대가 큽니다. Inf1 인스턴스는 회사의 연구 및 개발 파이프라인에 손쉽게 통합됩니다. 무엇보다 G4dn GPU 기반 인스턴스에 비해 인상적인 수준의 성능 이점을 제공하는 것이 확인되었습니다. 당사의 첫 번째 모델에서 Inf1 인스턴스는 약 45% 높은 처리량을 제공했고 추론당 비용은 거의 50%까지 감소했습니다. 저희는 AWS 팀과 긴밀하게 협력하여 다른 모델을 포팅하고 대부분의 ML 추론 인프라를 AWS Inferentia로 전환할 계획입니다."

Clarence Hu, Hotpot.ai 창립자

INGA
"INGA의 사명은 기존의 비즈니스 파이프라인에 쉽게 통합되는 인공 지능과 딥 러닝 기술을 기반으로 고급 텍스트 요약 솔루션을 생성하는 것입니다. 당사는 기업들이 데이터에서 유의미한 인사이트를 도출하는 데 있어 텍스트 요약이 매우 중요할 것이라고 믿고 있습니다. 당사는 이러한 기능을 AWS Inferentia 기반의 Amazon EC2 Inf1 인스턴스에서 빠르게 구축하여 개발 파이프라인에 통합했습니다. 우리는 즉각적이고 상당한 규모의 결과를 얻을 수 있었습니다. Inf1 인스턴스는 뛰어난 성능을 제공하므로 당사의 추론 모델 파이프라인의 효율과 효과를 개선할 수 있게 해 줍니다. 당사는 즉각적으로 GPU 기반의 이전 파이프라인에 비해 4배 더 높은 처리량과 30% 더 낮은 파이프라인 비용을 달성할 수 있었습니다."

Yaroslav Shakula, INGA Technologies 최고 비즈니스 개발 책임자

SkyWatch
"SkyWatch는 매일 우주에서 캡처된 수백조 픽셀이 지구 관측 데이터를 처리합니다. 실시간 클라우드 감지 및 이미지 품질 분류를 위해 Amazon SageMaker를 사용하는 AWS Inferentia 기반의 새로운 Inf1 인스턴스를 채택하는 것은 빠르고 간편했습니다. 간단히 배포 구성에서 인스턴스 유형을 전환하기만 하면 되었습니다. 인스턴스 유형을 Inferentia 기반의 Inf1으로 전환함으로써, 당사는 성능을 40% 개선하고 전체 비용을 23% 절감했습니다. 이는 정말 대단한 성과입니다. 이 인스턴스를 사용함으로써 당사는 최소한의 엔지니어링 작업을 통해 고품질 위성 이미지를 계속해서 제공하는 동시에 전반적인 운영 비용을 낮출 수 있었습니다. 당사는 데이터 신뢰성과 고객 경험을 더욱 개선하기 위해 당사의 모든 추론 엔드포인트 및 배치 ML 프로세스가 Inf1 인스턴스를 사용하도록 전환할 계획입니다."

Adler Santos, SkyWatch 엔지니어링 매니저

Amazon EC2 Inf1 인스턴스를 사용하는 Amazon 서비스

Amazon Alexa

Alexa 장치는 전 세계적으로 1억 개 이상이 판매되었으며 Amazon에는 고객들이 Echo 장치에 대해 40만 개 이상의 별 5개 평점을 남겼습니다. Amazon Alexa의 선임 부사장 tom Taylor는 “Amazon Web Services에서 제공하는 Amazon Alexa의 AI 및 ML 기반 인텔리전스는 오늘날 1억 대 이상의 장치에서 사용 가능하며, 당사는 Alexa가 갈수록 더 스마트해지고, 더 진보한 대화를 나누고, 더 능동적이고, 더 만족스러운 경험을 제공할 것을 고객에게 약속드립니다.”라고 말합니다. “이 약속을 지키려면 응답 시간과 기계 학습 인프라 비용의 지속적인 개선이 필요합니다. 당사는 Amazon EC2 Inf1을 사용하여 Alexa 텍스트 투 스피치 기능의 추론 지연 시간을 줄이고 추론당 비용을 낮출 수 있게 된 것을 기쁘게 생각합니다. Amazon EC2 Inf1을 통해 당사는 매월 Alex를 사용하는 수천만 고객에게 더 나은 서비스를 제공할 수 있게 되었습니다.”

요금

* 명시된 요금은 미국 동부(버지니아 북부) AWS 리전 요금입니다. 1년 및 3년 예약 인스턴스의 요금은 “부분 선결제” 결제 옵션에 해당하는 요금이거나, 부분 선결제 옵션이 없는 인스턴스의 경우 “선결제 없음”에 해당하는 요금입니다.

Amazon EC2 Inf1 인스턴스는 미국 동부(버지니아 북부) 및 미국 서부(오레곤) AWS 리전에서 온디맨드, 예약 또는 스팟 인스턴스로 사용 가능합니다.

시작하기

Amazon SageMaker 사용

Amazon SageMaker를 사용하면 훈련된 모델을 손쉽게 컴파일하고 프로덕션 환경의 Amazon Inf1 인스턴스에 배포하여 짧은 지연 시간으로 실시간 예측을 생성할 수 있습니다. AWS Inferentia용 컴파일러인 AWS Neuron은 Amazon SageMaker Neo에 통합되어, 훈련된 기계 학습 모델이 Inf1 인스턴스에서 최적의 상태로 실행되도록 컴파일할 수 있습니다. Amazon SageMaker를 사용하면 여러 가용 영역에 분산된 Inf1 인스턴스의 Auto Scaling 클러스터에서 손쉽게 모델을 실행하여 뛰어난 성능과 고가용성을 모두 갖춘 실시간 추론을 제공할 수 있습니다. Github의 예제를 통해 Amazon SageMaker를 사용한 Inf1 배포 방법 알아보기

AWS Deep Learning AMI 사용

AWS DLAMI(Deep Learning AMI)는 기계 학습 담당자 및 연구원에게 규모와 관계없이 클라우드에서 딥 러닝을 가속화할 수 있는 인프라 및 도구를 제공합니다. AWS Neuron SDK는 Inf1 인스턴스에서 기계 학습 모델을 컴파일 및 실행할 수 있도록 AWS Deep Learning AMI에 미리 설치되어 제공됩니다. 시작하기 프로세스에 대한 안내는 AMI 선택 설명서 및 기타 딥 러닝 리소스를 참조하십시오. DLAMI를 Neuron과 함게 사용하는 방법은 AWS DLAMI 시작하기 안내서를 참조하십시오.

AWS Deep Learning 컨테이너 사용

개발자는 이제 완전 관리형 Kubernetes 서비스인 Amazon EKS(Elastic Kubernetes Service)뿐 아니라 Amazon의 완전 관리형 컨테이너 오케스트레이션 서비스인 Amazon ECS(Elastic Container Service)에 Inf1 인스턴스를 배포할 수 있습니다. Amazon EKS에서 Inf1을 시작하는 방법에 대한 자세한 내용은 이 블로그를 참조하십시오. Inf1 인스턴스 기반의 컨테이너 실행에 대한 자세한 내용은 Neuron container tools tutorial 페이지를 참조하십시오. AWS DL 컨테이너에 대한 Inf1 지원은 향후 제공될 예정입니다.