Amazon Elastic Inference를 사용하면 Amazon EC2 인스턴스, Amazon SageMaker 인스턴스 또는 ECS 작업에 GPU 지원 추론 가속을 적절한 양만 연결할 수 있습니다. 따라서 이제 애플리케이션의 전체 컴퓨팅, 메모리 및 스토리지 요구 사항에 가장 적합한 인스턴스를 선택한 후 필요한 양의 추론 가속을 별도로 구성할 수 있습니다.

Amazon SageMaker, Amazon EC2 및 Amazon ECS와 통합됨

AWS에서 추론 워크로드를 실행하는 방법은 여러 가지가 있습니다. 완전관리형 경험을 위해 Amazon SageMaker에 모델을 배포하거나, Amazon EC2 인스턴스 또는 Amazon ECS 작업에서 실행하고 직접 관리할 수도 있습니다. Amazon Elastic Inference는 Amazon SageMaker, Amazon EC2 및 Mazon ECS에서 원활하게 작동하도록 통합되었으므로 모든 시나리오에서 추론 가속을 추가할 수 있습니다. Amazon SageMaker에서 모델의 HTTPS 엔드포인트를 만들 때, Amazon EC2를 사용할 때, 그리고 Amazon ECS 작업을 정의할 때 원하는 양의 추론 가속을 지정할 수 있습니다.

TensorFlow 및 Apache MXNet 지원

Amazon Elastic Inference는 AWS의 향상된 TensorFlow Serving 및 Apache MXNet 버전에서 사용하도록 설계되었습니다. 이러한 향상 기능을 통해 프레임워크에서 추론 액셀러레이터가 있는지 자동으로 감지하고, 액셀러레이터의 GPU와 인스턴스의 CPU 간에 모델 작업을 적절하게 분배하며, AWS Identity and Access Management(IAM) 정책을 사용하여 액셀러레이터에 대한 액세스를 안전하게 제어할 수 있습니다. 향상된 TensorFlow Serving 및 MXNet 라이브러리가 Amazon SageMaker, AWS Deep Learning AMI 및 AWS Deep Learning Containers에 자동으로 제공되므로 프로덕션에 모델을 배포하기 위해 코드를 직접 변경할 필요가 없습니다. 여기에 나와 있는 지침에 따라 라이브러리를 별도로 다운로드할 수도 있습니다.

ONNX(Open Neural Network Exchange) 형식 지원

ONNX는 하나의 딥러닝 프레임워크에서 모델을 학습한 후 추론을 위해 다른 프레임워크로 전송할 수 있게 해주는 개방형 형식입니다. 따라서 여러 프레임워크의 상대적 장점을 활용할 수 있습니다. 예를 들어 ONNX를 사용하면 PyTorch의 유연성을 활용하여 모델을 빌드하고 학습한 후 Apache MXNet로 전송하여 대규모 추론을 효율적으로 실행할 수 있습니다. ONNX는 PyTorch, MXNet, Chainer, Caffe2 및 Microsoft Cognitive Toolkit에 통합되며, TensorFlow를 비롯한 다른 많은 프레임워크에 대한 커넥터가 있습니다. Amazon Elastic Inference에서 ONNX 모델을 사용하려면 프로덕션 배포를 위해 학습된 모델을 AWS 최적화 버전의 Apache MXNet로 전송해야 합니다.

단일 또는 혼합 정밀도 연산 선택

Amazon Elastic Inference 액셀러레이터는 단일 정밀도(32비트 부동 소수점) 연산과 혼합 정밀도(16비트 부동 소수점) 연산을 둘 다 지원합니다. 단일 정밀도는 모델에서 사용되는 파라미터를 나타내기 위해 매우 큰 숫자 범위를 제공합니다. 하지만 대부분의 모델은 실제로 이 정도의 정밀도가 필요하지 않으며, 이렇게 큰 숫자를 계산하면 불필요하게 성능이 저하됩니다. 이 문제를 방지하려면 혼합 정밀도 연산을 통해 숫자 범위를 절반으로 줄여 추론 성능을 최대 8배까지 늘릴 수 있습니다.

여러 가속량으로 제공

Amazon Elastic Inference는 액셀러레이터당 1~32TFLOPS(초당 1조 부동 소수점 연산) 범위의 여러 처리량 크기로 제공되므로 컴퓨터 비전, 자연어 처리 및 음성 인식을 비롯한 광범위한 추론 모델 가속화에 효율적입니다. 125TFLOPS(사용 가능한 최소 P3 인스턴스)에서 시작되는 독립 실행형 Amazon EC2 P3 인스턴스에 비해, Amazon Elastic Inference는 액셀러레이터당 단일 TFLOPS에서 시작됩니다. 따라서 보다 적절한 증분으로 추론 가속을 확장할 수 있습니다. 보다 복잡한 모델을 위해 액셀러레이터당 최대 32TFLOPS까지 큰 액셀러레이터 크기를 선택할 수도 있습니다.

Auto Scaling

Amazon Elastic Inference는 Amazon SageMaker, Amazon EC2 및 Amazon ECS 인스턴스의 크기 조정에 사용하는 그룹과 동일한 Amazon EC2 Auto Scaling 그룹에 속할 수 있습니다. EC2 Auto Scaling은 애플리케이션 수요를 충족하기 위해 EC2 인스턴스를 더 추가할 때 각 인스턴스에 연결된 액셀러레이터도 확장합니다. 마찬가지로, 수요가 감소하여 Auto Scaling이 EC2 인스턴스를 줄이는 경우 각 인스턴스에 연결된 액셀러레이터도 축소합니다. 따라서 애플리케이션 수요를 충족하기 위해 애플리케이션의 컴퓨팅 용량과 함께 추론 가속의 크기를 쉽게 조정할 수 있습니다. 

Product-Page_Standard-Icons_01_Product-Features_SqInk
제품 요금에 대해 자세히 알아보기

Amazon Elastic Inference 요금 검토

자세히 알아보기 
Product-Page_Standard-Icons_02_Sign-Up_SqInk
무료 계정에 가입

AWS 프리 티어에 즉시 액세스할 수 있습니다. 

가입하기 
Product-Page_Standard-Icons_03_Start-Building_SqInk
콘솔에서 빌드 시작

Amazon SageMaker 또는 Amazon EC2에서 Amazon Elastic Inference를 시작하십시오.

로그인