Amazon EC2 Inf1 인스턴스

클라우드 기반의 최저 비용 고성능 기계 학습 추론

Amazon EC2 Inf1 인스턴스는 기계 학습 추론 애플리케이션을 지원하도록 완전히 새롭게 구축된 서비스입니다. Inf1 인스턴스에는 AWS가 설계하고 제작한 고성능 기계 학습 추론 칩인 AWS Inferentia 칩이 최대 16개 탑재됩니다. 또한 이 추론 칩은 최신 맞춤형 2세대 인텔® 제온® 확장형 프로세서 및 최대 100Gbps의 네트워킹과 결합하여 뛰어난 추론 처리 성능을 제공합니다. 이러한 강력한 구성을 통해 Inf1 인스턴스는 Amazon EC2 G4 인스턴스보다 최대 3배 더 높은 처리 성능과 최대 40% 낮은 비용으로 추론 기능을 제공할 수 있습니다. Amazon EC2 G4 인스턴스 기존에 클라우드에서 사용할 수 있는 최저 비용의 기계 학습 추론용 인스턴스였습니다. 고객은 Inf1 인스턴스를 사용하여 클라우드에서 가장 낮은 비용으로 이미지 인식, 음성 인식, 자연어 처리, 개인화 및 부정 행위 탐지 같은 대규모 기계 학습 추론 애플리케이션을 실행할 수 있습니다.

Inf1 인스턴스

다양한 업종의 고객들이 개인별 쇼핑 추천 상품 제공, 온라인 콘텐츠 조정을 통한 안전 및 보안 개선, Chatbot의 고객 인게이지먼트 개선 등과 같은 애플리케이션의 일반적인 사용 사례를 지원하기 위해 기계 학습으로 눈을 돌리고 있습니다. 고객은 최상의 최종 사용자 경험을 제공하기 위해 기계 학습 애플리케이션을 지원할 더 뛰어난 성능을 원합니다.

Amazon EC2 Inf1 인스턴스는 클라우드에서 최저 비용 고성능 기계 학습 추론 기능을 제공합니다. TensorFlow, PyTorch, MXNet 등 인기 있는 기계 학습 프레임워크 중 하나에서 모델을 구축하여 기계 학습 워크플로를 시작하고 P3 또는 P3dn과 같은 GPU 인스턴스를 사용하여 모델을 학습시킬 수 있습니다. 기계 학습 모델이 고객의 요구 사항을 충족하도록 학습된 후에는 Invia 칩의 기계 학습 추론 성능을 최적화하는 컴파일러, 런타임 및 프로파일링 도구로 구성된 특수한 SDK(소프트웨어 개발 키트)인 AWS Neuron을 사용하여 Inf1 인스턴스에 모델을 배포할 수 있습니다. Neuron은 AWS Deep Learning AMI에 사전 설치되며 프레임워크 없이 사용자 지정 환경에 설치할 수도 있습니다 또한 Neuron은 AWS Deep Learning ContainersAmazon SageMaker에 사전 설치되므로 그 어느 솔루션보다 기계 학습을 쉽게 활용할 수 있습니다.

이점

추론 1건당 최대 40% 더 저렴한 비용

Inf1 인스턴스의 높은 처리 성능 덕분에 클라우드에서 Amazon G4 G4 인스턴스보다 최대 40% 낮은 추론 1건당 최저 비용을 제공할 수 있습니다. Amazon EC2 G4 인스턴스 기존에 클라우드에서 사용할 수 있는 최저 비용의 기계 학습 추론용 인스턴스였습니다. 기계 학습 추론은 기계 학습 워크로드를 실행하는 데 소요되는 전체 운영 비용의 최대 90%를 차지하므로 상당한 비용 절감 효과를 얻을 수 있습니다.

최대 3배 더 높은 처리 성능

Inf1 인스턴스는 배치 추론 애플리케이션에 Amazon EC2 G4 인스턴스보다 최대 3배 더 높은 처리 성능을 제공합니다. 사진 태그 지정과 같은 배치 추론 애플리케이션은 추론 처리 성능 또는 초당 처리할 수 있는 추론 수에 크게 영향을 받습니다. 인스턴스당 1~16개의 AWS Inferentia 칩을 사용하는 Inf1 인스턴스는 최대 2000TOPS(Tera Operations per Second)까지 성능을 확장할 수 있습니다.

극도로 짧은 지연 시간

Inf1 인스턴스는 실시간 애플리케이션에 대해 매우 짧은 대기 시간을 지원합니다. 음성 인식과 같은 실시간 추론 애플리케이션은 사용자의 입력에 빠르게 대응하여 추론을 수행해야 하며 추론 지연 시간에 크게 영향을 받습니다. Inf1 인스턴스에 사용되는 AWS Inferentia 칩의 대용량 온칩 메모리를 사용해 기계 학습 모델을 칩에 직접 캐싱할 수 있습니다. 따라서 추론을 실행하는 동안 메모리 리소스 외부에 액세스할 필요가 없어 대역폭에 영향을 미치지 않으면서 짧은 지연 시간을 실현할 수 있습니다.

사용 편의성

Inf1 인스턴스는 코드를 거의 변경하지 않고 TensorFlow, PyTorch, MXNet 등 가장 인기 있는 기계 학습 프레임워크를 사용하여 학습된 모델을 지원할 수 있으므로 사용이 간편합니다.

다양한 기계 학습을 모델을 지원하는 유연성

Inf1 인스턴스는 AWS Neuron을 사용하여 이미지 인식/분류를 위한 SSD(Single Shot Detector) 및 ResNet, 자연어 처리와 번역을 위한 Transformer 및 BERT와 같이 일반적으로 사용되는 다양한 기계 학습 모델을 지원합니다.

다양한 데이터 유형 지원

Inf1 인스턴스는 INT8, BF16, FP16 등의 다양한 데이터 유형을 서로 다른 정밀도로 지원하므로 다양한 모델과 성능 요구 사항을 충족할 수 있습니다.

Amazon SageMaker(Inf1 인스턴스 곧 지원 예정)

Amazon SageMaker를 사용하면 한 번의 클릭으로 프로덕션 환경의 Amazon EC2 Inf1 인스턴스에 학습된 모델을 배포하여, 실시간 또는 배치 데이터에 대한 예측을 생성할 수 있습니다. Amazon SageMaker는 전체 기계 학습 워크플로를 포괄하여 데이터를 분류 및 준비하고, 알고리즘을 선택하며, 모델을 학습하고, 배포를 위해 조정 및 최적화하고, 예측을 수행하며, 작업을 수행하는 완전관리형 서비스입니다. 훨씬 적은 노력과 비용으로 더 빨리 모델을 실행할 수 있습니다. 모델은 여러 가용 영역에 걸쳐 있는 Amazon SageMaker Inf1 인스턴스의 자동 조정 클러스터에서 실행되어 고성능과 고가용성을 모두 제공합니다.

자세히 알아보기 »

작동 방식

Inf1 및 AWS Inferentia 사용 방법

AWS Inferentia 칩

AWS Inferentia는 저렴한 비용으로 높은 성능을 제공하도록 AWS가 설계 및 구축한 기계 학습 추론 칩입니다. 각 AWS Inferentia 칩에는 4개의 Neuron 코어가 있으며 FP16, BF16 및 INT8 데이터 유형을 지원합니다. AWS Inferentia 칩은 대용량 모델을 캐싱하는 데 사용할 수 있는 대용량 온칩 메모리를 제공하므로 칩 외부에 모델을 저장할 필요가 없습니다. 또한 AWS Inferentia 칩 전용 SDK인 AWS Neuron SDK는 고속 상호 연결을 사용하여 여러 Inferentia 칩에 걸쳐 대형 모델을 분할함으로써 강력한 추론 처리 파이프라인을 생성합니다.

자세히 알아보기 >>

AWS Neuron SDK

AWS Neuron은 InWSia 칩의 기계 학습 추론 성능을 최적화하는 AWS Inferentia 칩 전용 SDK입니다. 이 SDK는 개발자가 Industia 기반 EC2 Inf1 인스턴스에서 지연 시간이 짧은 고성능 추론 워크로드를 실행할 수 있도록 지원하는 AWS Industia 칩용 컴파일러, 런타임 및 프로파일링 도구로 구성됩니다.

자세히 알아보기 >>

사용 사례

추천

기계 학습은 맞춤형 제품 및 콘텐츠 추천, 맞춤형 검색 결과 및 타겟팅된 마케팅 프로모션 지원을 통해 고객 참여를 개선하는 데 더욱 많이 사용되고 있습니다.

예측

오늘날 기업에서는 제품 수요, 리소스 요구량 또는 금융 실적 등의 향후 비즈니스 성과를 정확하게 예측하기 위해 간단한 스프레드시트에서 복잡한 금융 계획 소프트웨어에 이르기까지 모든 도구를 사용하고 있습니다. 이러한 도구는 시계열 데이터라는 일련의 기록 데이터를 확인하는 방식으로 예측을 만들어냅니다. 시계열 데이터와 추가 변수를 결합하여 예측을 실행하기 위해 기계 학습을 활용하는 기업이 늘어나고 있습니다.

이미지 및 비디오 분석

오늘날 기계 학습은 사물, 사람, 텍스트, 장면 및 활동을 식별하고 이미지 또는 비디오에 포함된 부적절한 내용을 탐지하는 데 사용되고 있습니다. 또한 이미지 및 비디오의 안면 분석/안면 인식 기능을 통해 사용자 확인, 인원 계산 및 공공 안전 등 다양한 사용 사례에서 얼굴을 탐지, 분석 및 비교할 수 있습니다.

고급 텍스트 분석

기계 학습은 방대한 텍스트 모음에서 특정한 관심 항목을 정확히 가려내는 데 특히 효과적이며(예: 분석 보고서에서 회사 이름 찾기), 언어 뒤에 숨겨진 심리를 거의 무한대로 학습할 수 있습니다(부정적인 후기 또는 고객 서비스 상담사와의 긍정적인 고객 상담 등 식별).

문서 분석

기계 학습을 사용하여 사실상 모든 유형의 문서를 즉시 읽고, 수작업 또는 사용자 지정 코드 없이 텍스트와 데이터를 정확하게 추출할 수 있습니다. 문서 워크플로를 신속하게 자동화하여 문서 수백만 페이지를 몇 시간 만에 처리할 수 있습니다.

음성

기업은 기계 학습을 활용하여 텍스트를 생생한 음성으로 변환하는 서비스로서 이를 사용하면 말을 하는 애플리케이션을 만들고 전혀 새로운 유형의 음성 지원 제품을 개발할 수 있습니다. TTS(텍스트 음성 변환) 서비스에서는 고급 딥 러닝 기술을 사용하여 실제 사람의 음성처럼 소리를 합성할 수 있습니다.

대화 에이전트

AI는 지능화된 자연어 가상 비서로서 Chatbot을 통한 인게이지먼트를 포함하도록 콜센터의 고객 경험을 개선하는 역할을 하고 있습니다. 이 같은 Chatbot은 사람의 음성을 인식하며 발신자가 특정 문구를 말하지 않아도 발신자의 의도를 이해할 수 있습니다. 발신자는 상담원과 통화하지 않고도 암호 변경, 계정 잔액 요청 또는 예약과 같은 작업을 수행할 수 있습니다.

번역

기업들은 기계 학습 기반 번역 서비스를 이용하여 기존의 통계 및 규칙 기반 번역 알고리즘보다 더 정확하고 자연스러운 번역을 제공할 수 있습니다. 또한 기업들은 해외 사용자를 위해 웹 사이트 및 애플리케이션과 같은 콘텐츠를 현지화하고 대량의 텍스트를 손쉽게 효율적으로 번역할 수 있습니다.

트랜스크립션

기계 학습 트랜스크립션은 고객 서비스 통화를 기록, 오디오 및 비디오 콘텐츠에 자막 생성을 비롯하여 수많은 일반 애플리케이션에 이용할 수 있습니다. 트랜스크립션 서비스에서는 단어마다 타임스탬프를 추가하므로, 텍스트를 검색하여 원래 소스에서 오디오의 정확한 위치를 손쉽게 찾을 수 있습니다.

사기 탐지

Fraud Detection Using Machine Learning 서비스는 잠재적인 사기 활동을 자동으로 감지하고 이러한 활동에 검토를 위한 플래그를 지정합니다. 부정 행위 탐지 기능은 일반적으로 금융 서비스 업계에서 금액, 위치, 판매자 또는 시간을 기준으로 거래의 점수를 평가하는 모델을 통해 거래를 합법적 거래 또는 부정 거래로 분류하는 데 사용됩니다.

의료 서비스

의료 업계에서 기계 학습은 의료진의 환자 치료 속도를 개선하여 비용을 줄이는 동시에 치료 결과도 개선할 수 있도록 지원합니다. 병원은 환자가 보고한 데이터, 센서 데이터, 기타 다양한 출처 등의 다양한 데이터 세트를 스캔 프로세스에 통합하여 기계 학습 알고리즘이 정상적인 결과와 비정상적인 결과 간의 차이를 인식할 수 있도록 함으로써 초음파, CT 등 기존 X-레이 이미징 기술을 개선할 수 있습니다.

요금