AWS Machine Learning 인프라

모든 워크로드를 위한 고성능의 비용 효율적이며 확장 가능한 인프라

다른 어느 곳보다 많은 기계 학습이 실행되는 AWS

다양한 산업 전반에 걸쳐, 기계 학습(ML) 애플리케이션을 구축, 훈련 및 배포하기 위한 인프라로 다른 어떤 클라우드보다 AWS를 선택하는 고객이 많습니다. AWS는 모든 기계 학습 프로젝트 또는 애플리케이션을 위한 강력한 컴퓨팅, 고속 네트워킹 및 확장 가능한 고성능 스토리지 옵션으로 구성된 가장 방대한 선택을 제공합니다.

모든 기계 학습 프로젝트는 다릅니다. AWS를 사용하면 성능 및 예산 요구 사항에 맞게 인프라를 사용자 지정할 수 있습니다. 팀에 가장 적합한 기계 학습 프레임워크를 사용하는 것부터 기계 학습 모델을 호스트하기에 적절한 하드웨어 플랫폼을 선택하는 것까지, AWS는 요구 사항을 충족하는 방대한 서비스 선택을 제공합니다.

비즈니스에서는 추천 엔진, 객체 탐지, 음성 지원, 사기 탐지 및 기타 기능에 기계 학습을 활용할 새로운 방법을 찾았습니다. 기계 학습의 사용은 갈수록 보편화되고 있지만 기계 학습 모델의 훈련 및 배포에는 많은 비용이 들고 모델 개발 시간은 깁니다. 또한 적절한 양의 인프라를 조달하여 변화하는 비즈니스 상황을 충족하기가 쉽지 않을 수 있습니다. AWS 기계 학습 인프라 서비스는 고성능, 비용 효율성 및 탁월한 유연성을 제공하여 기계 학습 채택의 장애물을 제거합니다.

AWS ML 인프라: 탁월한 성능, 경제성 및 유연성(3:20)

방대한 기계 학습 서비스 세트 중에서 선택

아래의 그래픽은 AWS가 제공하는 서비스의 깊이와 폭을 보여줍니다. 맨 위의 계층에 표시된 워크플로 서비스는 기반 기계 학습 인프라의 관리와 크기 조정을 손쉽게 합니다. 다음 계층은 AWS 기계 학습 인프라가 선도적인 모든 기계 학습 프레임워크를 지원한다는 것을 강조합니다. 맨 아래 계층은 기계 학습 인프라의 기초적인 요소를 구성하는 컴퓨팅, 네트워킹 및 스토리지 서비스의 예를 보여줍니다.

방대한 기계 학습 서비스 세트 중에서 선택

기계 학습 인프라 서비스

전통적인 기계 학습 개발은 복잡하고 비싸며 반복적인 프로세스입니다. 먼저, 모델을 훈련할 예제 데이터를 준비해야 합니다. 그런 다음에는 개발자들이 모델 구축에 사용할 알고리즘 또는 프레임워크를 선택해야 합니다. 다음으로, 예측 방법을 모델에 훈련하고 가능한 최상의 예측을 제공하도록 모델을 튜닝해야 합니다. 마지막으로, 모델을 애플리케이션에 통합하고 이 애플리케이션을 크기 조정이 가능한 인프라에 배포해야 합니다.

  • 준비
  • 데이터 사이언티스트는 예제 데이터를 모델 훈련에 사용하기 전에 예제 데이터의 탐색 및 전처리 또는 ‘논쟁’에 많은 시간을 씁니다. 데이터를 전처리할 때는 데이터를 리포지토리로 가져옵니다. 데이터 필터링 및 수정을 통해 데이터를 정리합니다. 그러면 데이터를 손쉽게 탐색, 준비 또는 변환하여 원하지 않거나 필요하지 않은 부분을 필터링으로 제거한 후 데이터를 유의미한 데이터 집합으로 변환할 수 있습니다. 그런 다음 데이터에 레이블을 지정합니다.

    당면 과제 AWS 솔루션 방법
    수동 데이터 레이블 지정 Amazon Mechanical Turk 온디맨드의 확장 가능한 인력을 제공하여 태스크를 완료합니다.
    수동 데이터 레이블 지정 Amazon SageMaker Ground Truth 사람이 레이블을 지정한 데이터에서 Ground Truth를 훈련하여 데이터에 레이블을 독립적으로 지정하는 방법을 학습시킴으로써 레이블 지정을 자동화합니다.
    데이터 처리 관리 및 크기 조정 Amazon SageMaker Processing 완전관리형 경험을 데이터 처리 워크로드로 확장합니다. 기존 스토리지나 파일 시스템 데이터 원본에 연결하고, 작업 실행에 필요한 리소스를 빠르게 시작하며, 영구 스토리지에 출력을 저장하고, 로그 및 지표를 검사합니다.
    모델 훈련에 필요한 다량의 데이터 관리 Amazon EMR 방대한 양의 데이터를 신속하고 비용 효율적으로 대규모로 처리합니다.
    모델 훈련에 필요한 다량의 데이터를 위한 공유 파일 스토리지
    Amazon S3 바로 액세스 가능한 get/put 액세스 형식으로 데이터를 장기간 저장하는 내구성 있는 스토리지를 전 세계에서 사용할 수 있습니다.
  • 구축
  • 훈련 데이터를 마련한 후에는 요구 사항을 충족하는 학습 스타일을 가진 기계 학습 알고리즘을 선택해야 합니다. 이러한 알고리즘은 크게 지도 학습, 비지도 학습 또는 강화 학습으로 분류될 수 있습니다. TensorFlow, Pytorch 및 MXNet와 같은 다양한 기계 학습 프레임워크의 개발을 용이하게 하는 라이브러리 및 도구와 함께 사용하여 모델 개발을 지원할 수 있습니다.

    당면 과제 AWS 솔루션 방법
    Jupyter 노트북 액세스 호스트형 Jupyter 노트북 선택한 EC2 인스턴스에서 실행되는 호스트형 Jupyter 노트북입니다.
    Jupyter 노트북에서 공유하고 협업 Amazon SageMaker 노트북 몇 초 안에 작업을 시작하고 클릭 한 번으로 공유할 수 있는 완전관리형 Jupyter 노트북입니다. 코드 종속성이 자동으로 캡처되므로 다른 사용자와 쉽게 협업을 수행할 수 있습니다. 협업하는 사용자는 같은 장소에서 저장된 정확하게 동일한 노트북을 사용합니다.
    알고리즘 생성 Amazon SageMaker 내장 알고리즘 속도 및 정확도에 최적화된 확장 가능한 고성능 기계 학습 알고리즘을 제공하며, 이를 통해 페타바이트 규모의 데이터 집합 훈련을 수행할 수 있습니다.
    딥 러닝 프레임워크 최적화 Amazon SageMaker 이러한 선도적인 프레임워크는 고성능을 제공하도록 자동으로 구성되고 최적화됩니다. 프레임워크를 수동으로 설정하지 않아도 되며, 기본 제공 컨테이너에서 사용할 수 있습니다.
    여러 기계 학습 프레임워크를 사용하여 시작하기 AWS Deep Learning AMI TensorFlow, PyTorch 및 Apache MXNet과 같은 주요 딥 러닝 프레임워크 및 인터페이스가 미리 설치된 Amazon EC2 인스턴스를 빠르게 시작할 수 있습니다.
    여러 기계 학습 프레임워크를 사용하여 컨테이너로 시작하기   AWS Deep Learning Containers 사용자 지정 기계 학습 환경을 쉽고 빠르게 배포할 수 있도록 딥 러닝 프레임워크가 사전에 설치된 Docker 이미지입니다.
  • 훈련
  • 모델을 구축한 후에는 모델 훈련에 사용할 컴퓨팅, 네트워킹 및 스토리지 리소스가 필요합니다. 더 빠른 모델 훈련을 통해 데이터 사이언티스트와 기계 학습 엔지니어는 더 빠르게 반복하고, 더 많은 모델을 훈련하며, 정확도를 높일 수 있습니다. 모델을 훈련한 후에는 모델을 평가하여 추론의 정확성이 허용 가능한 수준인지 여부를 결정해야 합니다.

    인스턴스

    당면 과제
    AWS 솔루션            방법
    시간과 비용에 민감한 대규모 훈련 AWS Trainium 기반 EC2 Trn1 인스턴스

    AWS Trainium 칩으로 구동되는 Amazon EC2 Trn1 인스턴스는 고성능 딥 러닝을 위해 특별히 구축되었으며 클라우드에서 딥 러닝 모델을 훈련할 때 최고의 가격 대비 성능을 제공합니다.

    비용에 민감한 훈련 Habana Gaudi 기반 EC2 DL1 인스턴스

    인텔 자회사인 Habana Labs의 Gaudi 액셀러레이터로 구동되는 Amazon EC2 DL1 인스턴스는 딥 러닝 모델 훈련을 위해 설계되었습니다. 8개의 Gaudi 액셀러레이터를 활용하여 딥 러닝 모델 훈련을 위한 현재의 GPU 기반 EC2 인스턴스보다 최대 40% 향상된 가격 대비 성능을 제공합니다.

    시간에 민감한 대규모 훈련 Amazon EC2 P4 인스턴스 P4d 인스턴스는 8개의 NVIDIA A100 Tensor Core GPU, 400Gbps 인스턴스 네트워킹 및 NVIDIA GPUDirect RDMA(원격 직접 메모리 액세스) 기반 Elastic Fabric Adapter(EFA) 지원을 통해 클라우드에서 가장 높은 성능의 기계 학습 훈련을 제공합니다. P4d 인스턴스는 EC2 UltraCluster라고 하는 하이퍼스케일 클러스터에 배포됩니다. 이 클러스터는 매일의 기계 학습 개발, 연구 및 데이터 과학 작업을 위한 슈퍼컴퓨터급 성능을 제공합니다.
    시간에 민감한 대규모 훈련 Amazon EC2 P3 인스턴스 P3 인스턴스는 최대 8개의 NVIDIA® V100 Tensor Core GPU 및 최대 100Gbps의 네트워킹 처리량을 통해 인스턴스당 최대 1페타플롭의 혼합 정밀도 성능을 제공합니다.
    비용에 민감한 소규모 훈련 Amazon EC2 G5 인스턴스

    G5 인스턴스는 기계 학습 훈련에서 G4dn 인스턴스 대비 최대 3.3배 더 높은 성능을 제공합니다.

    비용에 민감한 소규모 훈련 Amazon EC2 G4 인스턴스 G4 인스턴스는 최대 65TFLOP의 FP16 성능을 제공하며 소규모 훈련 작업에 적합한 솔루션입니다.

    오케스트레이션 서비스

    당면 과제 AWS 솔루션 방법
    다중 노드 훈련 Elastic Fabric Adapter EFA를 사용하면 사용자 지정 구축 운영 체제(OS) 바이패스 하드웨어 인터페이스를 사용하여 높은 수준의 노드 간 통신을 필요로 하는 애플리케이션을 대규모로 실행할 수 있습니다.
    고도로 확장 가능하고 복잡한 컨테이너 오케스트레이션 Amazon Elastic Container Service(ECS) ECS는 완전관리형 컨테이너 오케스트레이션 서비스입니다.
    고도로 확장 가능한 Kubernetes 오케스트레이션 Amazon Elastic Kubernetes Service(EKS) EKS와 함께 Kubeflow를 사용하여 기계 학습 워크플로를 모델링하고, 배포된 훈련 작업을 효율적으로 실행할 수 있습니다.
    대규모 훈련 AWS Batch Batch는 제출된 배치 작업의 볼륨 및 특정 리소스 요구 사항에 따라 컴퓨팅 리소스의 최적 수량과 유형을 동적으로 프로비저닝합니다.
    대규모 훈련을 위한 성능 최적화 AWS ParallelCluster AWS ParallelCluster는 대규모 기계 학습 훈련 프로젝트에 필요한 컴퓨팅 리소스 및 공유 파일 시스템을 자동으로 설정합니다.

    스토리지

    당면 과제 AWS 솔루션 방법
    확장 가능한 스토리지 Amazon S3 S3를 스토리지 계층으로 사용하면 초당 수천 건의 트랜잭션을 손쉽게 달성할 수 있습니다.
    스토리지 액세스의 처리량 및 대기 시간 Amazon FSx for Lustre FSx for Lustre를 S3와 통합하면 높은 처리량의 공유 파일 스토리지를 일관된 짧은 대기 시간으로 제공할 수 있습니다.
    중앙 위치에서의 배치 처리 Amazon Elastic File System(EFS) EFS를 사용하면 노트북 환경에서 바로 대규모 기계 학습 데이터 집합 또는 공유 코드에 손쉽게 액세스할 수 있습니다. 스토리지를 프로비저닝할 필요가 없고 네트워크 파일 시스템의 관리를 걱정하지 않아도 됩니다.
    임시 작업 스토리지를 위한 높은 I/O 성능 Amazon Elastic Block Store(EBS) EBS는 고성능 스토리지 요구 사항을 충족하는 10밀리초 미만의 대기 시간을 지원합니다.

    완전관리형 서비스

    당면 과제 AWS 솔루션 방법
    실험 관리 및 추적 Amazon SageMaker 실험 훈련 실험을 간편하고 확장 가능한 방식으로 평가 및 구성하고, 수천 개의 훈련 실험을 구성하고, 실험 아티팩트를 로깅하며, 모델을 빠르게 시각화합니다.
    모델 디버깅 Amazon SageMaker Debugger 디버그 데이터를 분석하고 훈련 프로세스의 잠재적 이상에 대한 시각적 지표를 볼 수 있는 시각적 인터페이스입니다.
    모델 튜닝 Amazon SageMaker 자동 모델 튜닝 수천 개의 다양한 알고리즘 파라미터 조합을 조정하여 자동으로 모델을 튜닝함으로써 모델이 산출할 수 있는 가장 정확한 예측에 도달할 수 있습니다.
  • 배포
  • 모델 훈련 및 최적화를 통해 원하는 수준의 정확도 및 정밀도를 달성한 후에는 프로덕션으로 전환하여 예측을 수행합니다. 실제로 기계 학습에서 가장 많은 비용을 차지하는 부분은 추론입니다. 고객들의 이야기에 따르면 기계 학습 추론은 기계 학습 워크로드를 실행하는 데 소요되는 전체 운영 비용의 최대 90%를 차지할 수 있다고 합니다.

    인스턴스

    당면 과제 AWS 솔루션 방법
    높은 비용과 낮은 성능 Amazon EC2 Inf1 인스턴스 Inf1 인스턴스에는 AWS가 설계하고 제작한 고성능 기계 학습 추론 칩인 AWS Inferentia 칩이 최대 16개 탑재됩니다.

    NVIDIA의 CUDA, CuDNN 또는 TensorRT 라이브러리를 사용하는 모델의 추론

    Amazon EC2 G5 인스턴스

    NVIDIA A10G Tensor Core GPU 최대 8개가 장착된 G5 인스턴스는 기계 학습 추론에서 G4dn 인스턴스 대비 최대 3배 더 높은 성능을 제공합니다.

    NVIDIA의 CUDA, CuDNN 또는 TensorRT 라이브러리를 사용하는 모델의 추론 Amazon EC2 G4 인스턴스 G4 인스턴스에는 CPU보다 최대 40배 짧은 대기 시간의 처리량을 제공하는 NVIDIA T4 GPU가 탑재됩니다.
    인텔 AVX-512 Vector Neural Network Instructions(AVX512 VNNI)를 활용하는 모델의 추론 Amazon EC2 C5 인스턴스 C5 인스턴스에는 중첩과 같은 일반적인 기계 학습의 작업을 가속화하고 다양한 딥 러닝 워크로드에서 추론 성능을 자동으로 개선하는 데 도움이 되는 인텔 AVX-512 VNNI가 포함됩니다.
    적정 규모의 추론 가속화를 통해 최적의 가격 대비 성능 달성 Amazon Elastic Inference Elastic Inference를 사용하면 저렴한 비용의 GPU 기반 가속화를 Amazon EC2 인스턴스에 연결할 수 있습니다.
    짧은 대기 시간의 추론, 로컬 데이터 처리 또는 스토리지 요구 사항
    AWS Outposts AWS Outposts는 AWS 인프라, AWS 서비스, API 및 도구를 사실상 모든 데이터 센터, 콜로케이션 공간, 온프레미스 시설로 확장하는 완전관리형 서비스입니다.

    추론 크기 조정

    당면 과제 AWS 솔루션 방법
    인프라의 복잡한 크기 조정 AWS Cloudformation CloudFormation을 사용하면 프로그래밍 언어 또는 간단한 텍스트 파일을 사용하여 자동화되고 안전한 방식으로 모든 리전과 계정에 걸쳐 애플리케이션에 필요한 모든 리소스를 모델링 및 프로비저닝할 수 있습니다.
    인프라의 예측 불가능한 확장성 AWS Auto Scaling AWS Auto Scaling은 애플리케이션을 모니터링하고 용량을 자동으로 조정하여, 최대한 저렴한 비용으로 안정적이고 예측 가능한 성능을 유지합니다.
    EC2 인스턴스의 예측 불가능한 사용량 Amazon EC2 플릿 단일 API 호출을 통해 다양한 EC2 인스턴스 유형과 구매 모델에 걸쳐 용량을 프로비저닝하여 원하는 수준의 확장성, 성능 및 비용을 실현할 수 있습니다.
    모델 정확성 보장 Amazon SageMaker Model Monitor 추가 도구를 구성할 필요 없이 프로덕션에서 기계 학습 모델의 품질을 지속적으로 모니터링하고 모델 품질에 편차가 있을 경우 알림을 받을 수 있습니다.
    추론 비용 관리 Amazon SageMaker 다중 모델 엔드포인트 단일 엔드포인트에서 한 번의 클릭으로 여러 모델을 배포하고 단일 지원 컨테이너를 사용하여 지원할 수 있으므로 확장 가능하고 비용 효율적인 방법으로 다수의 모델을 배포할 수 있습니다.
Toyota

"P3 인스턴스는 기계 학습 모델 훈련 시간을 며칠에서 몇 시간으로 줄이는 데 도움이 되었습니다. 향후에는 P4d 인스턴스를 활용할 계획인데 GPU 메모리가 추가되고 float 형식의 효율성이 개선되면 더 복잡한 모델을 훨씬 더 빠른 속도로 훈련할 수 있기 때문입니다.”

Intuit

Intuit는 AWS에 모든 인프라가 있으며 AWS를 사용하여 고객 서비스를 개선합니다. Intuit는 Amazon SageMaker를 사용하여 기계 학습 모델을 대규모로 신속하게 훈련함으로써 모델 배포에 필요한 시간을 90%나 단축했습니다. 자세히 알아보세요.

GE Healthcare

"이전 GPU 클러스터를 사용했다면 진행형 GAN과 같은 복잡한 AI 모델을 훈련하여 시뮬레이션하고 결과를 보기까지 며칠이 걸렸을 것입니다. 새로운 P4d 인스턴스를 사용한 후로 처리 시간이 며칠에서 몇 시간으로 단축되었습니다. 모델 훈련 속도가 2~3배 빨라졌습니다.”

Capital One

Capital One은 기계 학습을 통해 데이터를 인사이트로 바꾸어 고객을 대신해 신속한 혁신을 실현하는 데 활용하고 있습니다. Capital One은 Amazon S3를 비롯한 AWS 서비스를 사용하여 기계 학습 혁신을 추진합니다. 자세히 알아보세요.

Zillow

Zillow는 Amazon EMR 기반 Spark를 사용하여 기계 학습 알고리즘을 실행합니다. 확장 가능한 클러스터를 빠르게 생성하고 분산 처리 기능을 사용하여 대규모 데이터 집합을 거의 실시간으로 처리하고, 기능을 생성하며, 수백만 개의 기계 학습 모델을 훈련하고 점수를 매깁니다. 자세히 알아보세요.

수치별

성능

2.5배 개선

P4d는 이전 세대 P3 인스턴스에 대비 2.5배 개선된 딥 러닝 성능을 바탕으로 클라우드에서 가장 높은 수준의 성능을 제공합니다.

성능

62분

2,048개의 GPU가 포함된 256개의 P3dn.24xlarge 인스턴스를 사용하여 TensorFlow로 BERT를 훈련할 때 62분이라는 신기록을 세웠습니다.

저렴한 비용

40% 절감

G4 인스턴스보다 40% 저렴한 Inf1 인스턴스의 추론당 비용은 클라우드에서 가장 낮은 추론당 비용을 제공합니다.

가용성

전 세계 22개

전 세계 22개의 지리적 리전과 최대 69개의 가용 영역에서 다수의 AWS 기계 학습 인프라 서비스를 사용할 수 있습니다.

이점

  • 고성능
  • 데이터 사이언티스트와 기계 학습 엔지니어의 개발 효율성은 새로운 기능을 통합하거나, 예측 정확성을 개선하거나, 데이터 드리프트를 조정하기 위해 딥 러닝 모델을 얼마나 자주 훈련할 수 있는지에 좌우되는 경우가 많습니다. AWS는 종량제 요금으로 광범위하게 사용할 수 있는 고성능 컴퓨팅, 네트워킹 및 스토리지 인프라를 제공합니다. 개발 팀에서는 필요에 따라 모델을 훈련할 수 있으며 인프라로 인해 혁신이 늦어지는 일이 발생하지 않습니다.

    컴퓨팅: 훈련 시간을 분 단위로 단축하고 추론에 필요한 고성능을 제공

    AWS는 ML 훈련 및 추론을 위해 특별히 구축된 업계 최초의 인스턴스를 제공합니다.

    AWS Trainium 칩으로 구동되는 Amazon EC2 Trn1 인스턴스는 비용 효율적인 고성능 딥 러닝 훈련용으로 특별히 구축되었습니다. 이 인스턴스는 비교 가능한 GPU 기반 인스턴스 대비 최대 50% 저렴한 훈련 비용으로 업계 최고 수준의 성능을 제공합니다. Trn1 인스턴스는 최대 16개의 AWS Trainium 칩으로 구동됩니다. 각 칩에는 딥 러닝 알고리즘을 위해 특별히 구축된 2세대 NeuronCore 액셀러레이터 2개가 포함됩니다. Trn1 인스턴스는 최대 800Gbps의 Elastic Fabric Adapter(EFA) 네트워크 대역폭을 지원하는 최초의 EC2 인스턴스입니다. 최대 3만 개의 Trainium 액셀러레이터로 스케일 업할 수 있는 EC2 UltraClusters에 배포됩니다. 액셀러레이터는 비차단 페타비트급 네트워크로 상호 연결되어 최대 6.3엑사플롭스의 컴퓨팅을 제공합니다.

    Amazon EC2 Trn1

    훈련된 모델을 프로덕션에 배포하는 데 있어서 Amazon EC2 Inf1 인스턴스는 클라우드에서 최저 비용의 고성능 기계 딥 러닝 추론 기능을 제공합니다. 이러한 인스턴스에는 AWS가 설계하고 제작한 고성능 기계 학습 추론 칩인 AWS Inferentia 칩이 탑재됩니다. 인스턴스당 1~16개의 AWS Inferentia 칩을 사용하는 Inf1 인스턴스는 최대 2,000TOPS(Tera Operations per Second)까지 성능을 스케일 인할 수 있습니다.

    Amazon EC2 Inf1

    네트워킹: 효율적인 분산 훈련 또는 스케일아웃 추론을 위한 확장 가능한 인프라

    대규모 모델을 훈련하려면 시간이 걸립니다. 훈련 시간은 모델이 크고 복잡할수록 길어집니다. AWS에는 다중 노드 배포를 확장하여 훈련 시간을 단축하는 데 도움이 되는 다수의 네트워킹 솔루션이 있습니다. Elastic Fabric Adapter(EFA)는 Amazon EC2 인스턴스의 네트워크 인터페이스입니다. 이 인터페이스를 사용하면 AWS에서 대규모로 높은 수준의 노드 간 통신이 필요한 애플리케이션을 실행할 수 있습니다. EFA는 사용자 지정 운영 체제(OS) 바이패스 기술을 사용하여 효율적인 확장에 매우 중요한 인스턴스 간 통신 성능을 강화합니다. EFA를 사용하면 NVIDIA Collective Communications Library(NCCL)를 사용하는 기계 학습 훈련 애플리케이션을 수천 개의 GPU 규모로 확장할 수 있습니다. 인스턴스당 최대 400Gbps의 네트워크 대역폭과 NVIDIA GPUDirect RDMA(원격 직접 메모리 액세스)를 결합하여 인스턴스의 GPU 간 통신 대기 시간을 낮춰주므로 고가의 온프레미스 GPU 클러스터가 제공하는 성능을 AWS 클라우드에서 온디맨드로 탄력적이고 유연하게 사용할 수 있습니다.

    Page-Illo_EC2 Overviews and Features_Enhanced Networking and EFA.png

    스토리지: 데이터 레이크를 생성하거나 레이블이 지정된 데이터를 관리하기에 이상적인 옵션

    규모와 업종을 불문한 모든 조직이 기계 학습의 도움을 받아 데이터를 억제해야 하는 비용에서 유용한 비즈니스 인사이트를 도출하거나 향상된 고객 경험을 제공하는 데 사용할 수 있는 비즈니스 자산으로 바꾸기 위해 데이터 레이크를 사용하고 있습니다. Amazon Simple Storage Service(S3)는 정형 데이터 및 비정형 데이터를 위한 가장 성능이 뛰어나면서도 가장 큰 객체 스토리지이자, 데이터 레이크를 구축할 때 가장 많이 선택되는 스토리지입니다. Amazon S3를 사용하면 99.999999999%(9가 11개)의 내구성으로 데이터가 보호되는 안전한 환경에서 모든 규모의 데이터 레이크를 비용 효율적으로 구축하고 확장할 수 있습니다. 분산 훈련에서 레이블이 지정된 데이터에 빠르게 액세스해야 한다면 Amazon FSx for Lustre로 1밀리초 미만의 대기 시간과 초당 수백 기가바이트로 확장되는 처리량에 최적화된 성능을 제공할 수 있습니다. FSx for Lustre는 Amazon S3와 통합되므로 Lustre 파일 시스템으로 데이터 집합을 처리하는 작업이 쉬워집니다. FSx for Lustre 파일 시스템을 S3 버킷에 연결하는 경우 S3 객체가 자동으로 파일로 표시되며 변경된 데이터를 다시 S3에 쓸 수 있습니다.

    Amazon Simple Storage Service(S3)
  • 비용 효율성
  • 고유한 애플리케이션을 구축하기 위해 딥 러닝을 채택하는 조직의 속도가 빨라지고 있습니다. 모델의 복잡성이 증가하면 기계 학습 애플리케이션의 구축, 훈련 및 배포 비용도 늘어납니다. 이제 회사들은 기계 학습을 탐색하고 실험하는 단계에서 애플리케이션을 대규모로 배포하는 단계로 이동하고 있습니다. 이에 AWS는 전체 애플리케이션 개발 수명 주기에서 저렴한 비용으로 사용할 수 있는 고성능 인프라 서비스의 이상적인 조합을 제공합니다.

    업계에서 가장 저렴한 기계 학습 추론 서비스

    기계 학습 추론은 프로덕션에서 기계 학습 애플리케이션을 실행하는 데 소요되는 전체 운영 비용의 최대 90%를 차지할 수 있습니다. Amazon EC2 Inf1 인스턴스는 클라우드에서 고성능 기계 학습 추론 기능을 가장 저렴한 비용으로 제공합니다. Inf1 인스턴스는 기계 학습 추론 애플리케이션을 지원하도록 완전히 새롭게 구축된 인스턴스입니다. 이 인스턴스에는 AWS가 설계하고 제작한 고성능 기계 학습 추론 칩인 AWS Inferentia 칩이 최대 16개 탑재되어 있습니다. 각 AWS Inferentia 칩은 절전 상태에서 최대 128TOPS(초당 수조 개의 작업)의 성능을 저렴한 비용으로 제공하여 고성능을 통한 효율성을 지원합니다.

    Amazon EC2 Inf1

    프로덕션에서 모델을 실행할 때 GPU급 성능이 필요한 애플리케이션에 있어서 Amazon EC2 G4 인스턴스는 업계에서 가장 비용 효율적인 GPU 인스턴스입니다. NVIDIA T4 GPU가 탑재된 이 인스턴스는 서로 다른 양의 vCPU 및 메모리로 단일 GPU 또는 여러 GPU에 액세스할 수 있는 다양한 크기로 제공되므로 애플리케이션에 적합한 인스턴스 크기를 유연하게 선택할 수 있습니다.

    Amazon EC2 G4

    모든 기계 학습 모델이 같은 것은 아니며 모델에 따라 서로 다른 수준의 하드웨어 가속화를 사용하는 것이 유리합니다. 인텔 기반 Amazon EC2 C5 인스턴스는 Amazon EC2 패밀리 중에서 vCPU당 가격이 가장 낮으며 고급 컴퓨팅 집약적 워크로드를 실행하기에 적합합니다. 이 인스턴스는 인텔 딥 러닝 부스트를 지원하며 프로덕션에서 기계 학습 모델을 실행할 때 성능과 비용의 이상적인 균형을 제공합니다.

    Amazon EC2 C5

    Amazon Elastic Inference를 사용하면 Amazon EC2 인스턴스, Amazon SageMaker 인스턴스 또는 Amazon ECS 태스크에 저렴한 비용의 GPU 지원 가속화를 연결하여 딥 러닝 추론 비용을 최대 75% 절감할 수 있습니다.

    Amazon Elastic Inference

    대규모로 사용할 수 있는 광범위한 GPU 인스턴스 중에서 선택하여 훈련 시간 및 비용을 최적화

    기계 학습 애플리케이션의 유형에 따라 고객은 기계 학습 모델의 훈련 시간을 줄이거나 총 훈련 비용을 낮추는 방향으로 개발 주기를 최적화해야 할 수 있습니다. 대부분의 경우 훈련 비용에는 훈련 비용만 포함되는 것이 아니라 기계 학습 엔지니어 및 데이터 사이언티스트가 모델 최적화에 쓸 수 있는 유휴 시간의 기회 비용도 포함됩니다.

    Amazon EC2 G4 인스턴스는 업계에서 가장 비용 효율적인 GPU 플랫폼을 제공합니다. 이 인스턴스는 덜 복잡한 모델의 훈련에 최적화되었으며 훈련 시간에 덜 민감한 비즈니스 또는 기관에 적합합니다. G4 인스턴스는 각각 최대 65TFLOP의 FP16 성능을 제공하는 최대 8개의 NVIDIA T4 GPU에 대한 액세스를 제공합니다.

    Amazon EC2 G4

    Amazon EC2 P4 인스턴스는 동급 최고의 단일 인스턴스 및 분산 훈련 성능을 제공합니다. 엔지니어링 팀에서는 모델 반복 시간을 대폭 줄이고 출시를 가속화하며 전체 엔지니어링 지출을 최적화할 수 있습니다. 이 인스턴스는 이전 세대인 P3 인스턴스 대비 최대 60% 저렴한 비용을 제공하며 모든 EC2 요금 옵션을 통해 배포할 수 있습니다. 스팟을 사용할 경우 90%가 할인됩니다. GPU 및 하드웨어 기계 학습 액셀러레이터의 성능은 18개월마다 최소 2배 개선됩니다. 따라서 AWS 인프라를 종량제 모델로 사용할 경우 저장 수명이 제한적인 온프레미스 클러스터에 귀한 자본 비용을 고정하지 않고도 최고의 가격 대비 성능을 활용할 수 있습니다.

    Amazon EC2 P4

    Amazon EC2 P3 및 P3dn 인스턴스는 기계 학습 및 HPC 애플리케이션을 위한 최대 100Gbps의 네트워킹 처리량과 최대 8개의 NVIDIA® V100 Tensor Core GPU를 통해 클라우드에서 고성능 컴퓨팅을 제공합니다. 이 인스턴스는 인스턴스당 최대 1페타플롭의 혼합 정밀도 성능을 제공하여 기계 학습 및 고성능 컴퓨팅 애플리케이션을 크게 가속화합니다. P3 및 P3dn 인스턴스는 4개 크기로 사용할 수 있으며 최대 8개의 GPU 및 96개의 vCPU를 제공하고 전 세계 18개 AWS 리전에서 사용할 수 있습니다.

    Amazon EC2 P3 및 P3dn 인스턴스
  • 고도의 유연성
  • 모든 주요 기계 학습 프레임워크 지원

    TensorFlow 및 PyTorch와 같은 프레임워크는 기계 학습 모델을 구축할 때 구현해야 하는 대부분의 구성 요소를 추상화합니다. 따라서 개발자는 모델의 전체 로직과 데이터 흐름에 집중할 수 있습니다. 기계 학습 애플리케이션을 구축하는 회사의 70% 이상은 여러 기계 학습 프레임워크를 혼합하여 사용 중이라고 응답했습니다. AWS 기계 학습 인프라는 주요 딥 러닝 프레임워크를 모두 지원하므로 선호 사항 및 개발 효율성과 일치하는 프레임워크를 선택할 수 있습니다.

    TensorFlow
    PyTorch
    mxnet
    Keras
    Gluon
    Horovod

    프레임워크와 호환되는 최적화

    AWS는 AWS에서 기계 학습 워크로드를 실행할 수 있도록 고객을 지원하는 데 주력할 뿐만 아니라 가장 적합한 기계 학습 프레임워크 또는 인프라 서비스를 선택할 수 있는 궁극의 자유를 제공합니다. AWS 인프라 서비스에서 모델을 효과적으로 훈련하고 배포하는 데 사용되는 소프트웨어 최적화는 대부분의 주요 기계 학습 프레임워크(TensorFlow, PyTorch, and MXNet)와 통합되므로 고객은 선호하는 프레임워크를 계속 사용할 수 있고 특정 프레임워크 또는 하드웨어 아키텍처의 제약을 받지 않습니다. 프레임워크 수준에서 작업할 수 있으므로 언제나 요구 사항에 가장 적합한 솔루션을 자유롭게 선택할 수 있으며 특정 하드웨어 아키텍처 또는 클라우드 공급자에 종속되지 않습니다.

    AWS Neuron은 AWS Inferentia 및 AWS Trainium 칩을 위한 SDK입니다. AWS Neuron을 사용하면 AWS Trainium 기반 Amazon EC2 Trn1 인스턴스에서 비용 효율적인 고성능 ML 훈련을 실행할 수 있습니다. 또한 AWS Inferentia 기반 Amazon EC2 Inf1 인스턴스를 사용하여 지연 시간이 짧은 고성능 추론을 실행할 수 있습니다. AWS Neuron은 TensorFlow, PyTorch 및 MXNet과 같은 주요 프레임워크와 기본적으로 통합됩니다. EC2 Trn1 인스턴스로 훈련을 가속화하고 EC2 Inf1 인스턴스로 추론을 가속화하려면 미리 훈련된 모델을 사용하고 프레임워크 내에서 코드 몇 줄만 변경하면 됩니다.

    AWS Neuron

    효율적인 다중 노드 및 분산 훈련을 지원하기 위해 AWS는 Elastic Fabric Adapter(EFA)를 단일 노드 또는 여러 노드 내의 여러 GPU 간 통신을 위한 라이브러리인 NVIDIA Collective Communications Library(NCCL)와 통합했습니다. AWS Neuron과 마찬가지로 고객은 원하는 기계 학습 프레임워크를 계속 사용하여 모델을 구축하고 AWS 인프라의 자동 최적화를 활용할 수 있습니다.

    Nvidia

요금 옵션

기계 학습 훈련과 추론 워크로드는 안정적(예: 대규모 사용자의 사진을 시간 단위로 배치 태깅)이거나 스파이크(예: 새 훈련 작업을 시작하거나 프로모션 기간 중에 추천 검색)한 특징을 보이거나 둘 다일 수 있습니다. AWS에는 인프라 성능 및 비용을 최적화하는 데 도움이 되는 요금 옵션과 솔루션이 있습니다.

요금 옵션

 

 

A - 유연하고 내결함성이 있는 워크로드(예: 시간에 민감하지 않은 기계 학습 훈련 작업)에 스팟 인스턴스 사용

B - 새로운 워크로드 또는 상태 유지 스파이크 워크로드(예: 단기 기계 학습 훈련 작업)에 온디맨드 인스턴스 사용

C - 상태가 안정적인 알려진 워크로드(예: 안정적인 추론 워크로드)에 Savings Plans 사용

사용 사례 AWS 솔루션 방법
단기 훈련 작업 온디맨드 요금 온디맨드 인스턴스에서는 실행하는 인스턴스에 따라 시간당 또는 초당 컴퓨팅 파워에 대한 비용을 지불합니다.
시작-중지 시간이 유연한 훈련 작업 스팟 요금 Amazon EC2 스팟 인스턴스를 사용하면 온디맨드 요금보다 최대 90% 할인된 가격으로 예비 Amazon EC2 컴퓨팅 용량을 요청할 수 있습니다.
다양한 인스턴스 유형에서 장기간 실행되는 안정적인 기계 학습 워크로드 Savings Plans Savings Plans에서는 1년 또는 3년 동안 특정 양의 컴퓨팅 파워를 사용하기로 약정하여 온디맨드에 비해 상당한 비용을 절감할 수 있습니다.