Amazon Web Services 한국 블로그

Amazon EC2 DL1 인스턴스 출시 – Habana Labs의 Gaudi 가속기 기반 딥러닝 모델 훈련 전용

오늘날 딥 러닝을 위한 애플리케이션은 그 어느 때보다 많습니다. 자연어 처리, 추천 시스템, 이미지 인식, 비디오 인식 등 모든 것이 제대로 훈련된 고품질 모델의 이점을 누릴 수 있습니다.

이러한 모델을 구축하는 과정은 반복적입니다. 초기 모델을 생성하고, 기초 실측 데이터로 훈련시키고, 테스트 추론을 수행하고, 모델을 수정하고, 반복합니다. 딥 러닝 모델에는 많은 계층(또한 이름)이 포함되어 있으며, 각 계층은 이전 계층의 출력값을 변환합니다. 훈련 프로세스는 수학 및 프로세서 집약적이며 GPU 또는 기타 훈련 가속기, 네트워크, 로컬 또는 네트워크 스토리지를 포함하여 훈련에 사용되는 시스템의 거의 모든 부분을 필요로 합니다. 이러한 정교함과 복잡성으로 인해 훈련 시간이 늘어나고 비용이 증가합니다.

새로운 EC2 DL1 인스턴스
오늘은 새로운 DL1 인스턴스에 대해 알려드리겠습니다. Habana Labs의 Gaudi 가속기로 구동되는 dl1.24xlarge 인스턴스의 사양은 다음과 같습니다.

  • Gaudi 가속기 — 각 인스턴스에는 총 256GB의 고대역폭(HBM2) 가속기 메모리와 가속기 간 고속 RDMA 기반 통신 기능이 포함된 8개의 Gaudi 가속기가 장착되어 있습니다.
  • 시스템 메모리 — 768GB의 시스템 메모리로, 고객이 자주 요청하는 대량의 훈련 데이터 세트를 메모리에 저장할 수 있습니다.
  • 로컬 스토리지 — 4TB의 로컬 NVMe 스토리지로서 4개의 1TB 볼륨으로 구성됩니다.
  • 프로세서 — 96vCPU가 장착된 Intel Cascade Lake 프로세서.
  • 네트워크 — 400Gbps의 네트워크 처리량.

보시다시피, 현재 GPU 기반 EC2 인스턴스보다 저렴한 초기 비용과 최대 40% 더 나은 가성비로 고도의 역량을 갖춘 기계 학습 훈련 플랫폼을 제공할 목적으로 거의 모든 차원에서 사양을 최대한으로 활용했습니다.

Gaudi Inside
Gaudi 가속기는 기계 학습 훈련을 위해 맞춤 설계되었으며, 유용하고 흥미로운 기능 및 특성이 많이 있습니다.

  • 데이터 형식 — 부동 소수점(BF16 및 FP32), 부호가 있는 정수(INT8, INT16 및 INT32) 및 부호가 없는 정수(UINT8, UINT16 및 UINT32) 데이터를 지원합니다.
  • 일반화 행렬 승수 엔진(GEMM) — 행렬 곱셈을 가속화하는 특수 하드웨어입니다.
  • Tensor 프로세싱 코어(TPC) — 기계 학습 훈련을 위해 설계된 특수 VLIW SIMD(매우 긴 명령어/단일 명령 다중 데이터) 처리 장치입니다. 대부분의 사용자는 상위 수준의 도구와 프레임워크를 사용하지만 TPC는 C 프로그래밍이 가능합니다.

DL1 인스턴스 시작하기
훈련용 Gaudi SynapseAI 소프트웨어 제품군은 새로운 모델을 구축하고 PyTorch 및 TensorFlow와 같은 인기 있는 프레임워크에서 기존 모델을 마이그레이션하는 데 도움이 됩니다.

시작하는 데 도움이 되는 몇 가지 리소스는 다음과 같습니다.

TPC 프로그래밍 도구를 사용하여 TPC에서 직접 실행되는 코드를 작성, 시뮬레이션 및 디버깅할 수 있으며, HCL(Habana 통신 라이브러리) 을 사용하여 여러 가속기의 성능을 활용하는 애플리케이션을 구축할 수 있습니다. HCCL(Habana 집단 커뮤니케이션 라이브러리)은 atop HCL을 실행하며 축소, 브로드캐스트, 수집 및 분산 작업을 위한 집단 프리미티브에 대한 액세스 권한을 부여합니다.

더 자세한 것은 간단한 데모를 통해 확인해 보세요.

정식 출시
DL1 인스턴스는 현재 미국 동부(버지니아 북부)미국 서부(오레곤) 리전에서 온디맨드 및 스팟 형태로 제공됩니다. 예약 인스턴스 및 절약 요금제도 구매할 수 있습니다.

Jeff;