AWS 기술 블로그
AWS re:Invent 2024, EC2 인스턴스 RECAP 살펴보기
AWS가 매년 주최하는 세계 최대 규모의 클라우드 컴퓨팅 컨퍼런스인 AWS re:Invent가 2024년도에도 미국 라스베이거스에서 성황리에 개최되었습니다. Re:Invent를 통해 새롭고 다양한 서비스 및 기술들이 매년 쏟아지고 있습니다. 이번 블로그에서는 AWS re:Invent 2024 를 전후로 출시된 EC2 인스턴스 관련 새로운 기술 중, 특히 머신 러닝 용 가속기 관련 내용들을 중심으로 소개하고자 합니다. 이 블로그는 단순히 신규 출시된 EC2 인스턴스에 대한 나열보다는 뉴스, 블로그, 유투브 등에서 쏟아지는 다양한 용어들에 대한 가독성을 높이기 위해 작성되었습니다.
스토리지 최적화 인스턴스의 라인업 강화
AWS는 최근 스토리지 I/O에 특화된 I8g와 I7ie 라는 두 가지 신규 인스턴스를 출시하여 기존의 스토리지 최적화 인스턴스 포트폴리오를 강화했습니다. 이러한 인스턴스 출시로 인해 고성능 스토리지 I/O가 필요한 워크로드를 더욱 효율적으로 처리할 수 있게 되었습니다. 두 인스턴스에 대해 좀 더 자세히 알아보도록 하겠습니다.
첫번째로, 2023년에 새롭게 발표된 그래비톤(Graviton)4 기반의 I8g 인스턴스가 출시되었습니다. 이 인스턴스는 3세대 AWS Nitro SSD를 사용하여 이전 세대인 I4g(그래비톤 2 기반) 대비 실시간 스토리지 성능이 65% 향상되었고, 스토리지 I/O 지연 시간은 50% 감소했으며, 지연 시간 변동성은 60% 개선되었습니다. 특히 MySQL, PostgreSQL과 같은 관계형 데이터베이스와 Aerospike, MongoDB 같은 NoSQL 데이터베이스, 그리고 Apache Spark를 이용한 실시간 분석 워크로드에 최적화되어 있습니다. 최대 96 vCPU와 768 GiB의 메모리, 22.5TB의 로컬 NVMe 스토리지를 제공하며, DDR5-5600 메모리를 사용하여 높은 메모리 대역폭을 제공합니다. 현재 미국 동부(버지니아) 및 서부(오리건) 리전에서 사용 가능하며, 온디맨드(On-Demand), 절감형 플랜(Savings Plans), 스팟 인스턴스(Spot Instances) 등 다양한 구매 옵션을 통해 비용 최적화도 가능합니다.
새롭게 출시한 I7ie 인스턴스는 5세대 인텔 제온 스케일러블 프로세서(Emerald Rapids)와 3세대 AWS Nitro SSD를 탑재한 스토리지 최적화 인스턴스입니다. 이 프로세서는 3.2GHz의 올코어 터보 주파수를 제공하며, 이전 세대인 I3en 인스턴스와 비교하여 컴퓨팅 성능이 40% 향상되고 가격 대비 성능은 20% 개선되었습니다. 특히 스토리지 성능이 크게 향상되어, I3en 인스턴스 대비 실시간 스토리지 성능이 65% 향상되었고, 스토리지 I/O 지연 시간은 50% 감소했으며, I/O 지연 시간 변동성은 65% 개선되었습니다. 최대 120TB의 로컬 NVMe 스토리지를 제공하여 클라우드에서 가장 높은 로컬 NVMe 스토리지 밀도를 자랑합니다. 이 인스턴스는 NoSQL 데이터베이스(Cassandra, MongoDB, Redis), 인메모리 데이터베이스(Aerospike), 분산 파일 시스템, 검색 엔진, 데이터 웨어하우징, 분석 작업과 같이 대용량 데이터에 대한 고성능 I/O가 필요한 워크로드에 최적화되어 있습니다. 네트워크 측면에서는 최대 100Gbps의 네트워크 대역폭과 60Gbps의 EBS 대역폭을 제공합니다. I7ie 인스턴스는 미국 동부(버지니아) 리전에서 사용 가능합니다.
NVIDIA H200에 기반한 P5en 인스턴스 출시
NVIDIA H200에 기반한 EC2 인스턴스인 P5en 인스턴스가 새롭게 출시되었습니다. 아래 표1과 같이 P5en 인스턴스는 48xlarge 라는 단일 사이즈의 인스턴스만 제공합니다. 인스턴스 이름에 ‘e’와 ‘n’이라는 추가 기능 옵션이 존재하기 때문에 향상된 성능(e) 및 고속의 네트워크(n) 가 지원된다는 것을 확인할 수 있습니다. 이 인스턴스는 H200 GPU 8개로 구성됩니다. 또한 인텔의 4세대 Xeon Scalable 프로세서를 기반으로 하기 때문에, Gen5 PCIe를 통해 CPU와 GPU 간 대역폭을 기존 대비 4배 향상시켰습니다. 현재까지 AWS에서 제공하는 NVIDIA GPU를 탑재한 EC2 인스턴스 중, P5en 인스턴스가 가장 최고의 성능을 제공하는 인스턴스라 할 수 있습니다.
인스턴스 크기 | vCPU | 메모리 (GiB) |
GPU(H200) | 네트워크 대역폭 (Gbps) |
GPU 피어 투 피어 (GB/s) |
인스턴스 스토리지 (TB) |
EBS 대역폭 (Gbps) |
p5en.48xlarge | 192 | 2,048 | 8 | 3,200 | 900 | 8×3.84 | 100 |
<표 1. P5en 인스턴스 스펙(spec)>
새롭게 출시된 P5en 인스턴스는 기존 P5 인스턴스 대비, 표2와 같은 차이점을 갖습니다.
항목 | P5 | P5en |
출시 년도 | 2023년 7월 | 2024년 12월 |
GPU | NVIDIA H100 | NVIDIA H200 |
GPU 메모리 | 640 GB (80*8), HBM3 탑재 | 1128 GB (141*8, 1.7배 증가), HBM3e 탑재 |
GPU 메모리 대역폭 | 3.35 TB/s | 4.8 TB/s (1.5배 증가) |
CPU | 3세대 AMD EPYC 프로세서 (AMD EPYC 7R13) |
AWS 전용 4세대 Intel Xeon Scalable 프로세서 |
CPU-GPU 연결 | PCIe Gen 4 | PCIe Gen 5 (4배 향상) |
네트워킹 어댑터 | EFAv2 | EFAv3 (35% 낮은 지연 시간) |
네트워크 대역폭 | 3.2 Tbps | 3.2 Tbps |
EBS 대역폭 | 80 Gbps | 100 Gbps (25% 증가) |
<표 2. P5 인스턴스 별 특징>
이 표를 통해 P5en 인스턴스가 P5 대비 여러 측면에서 상당한 성능 향상을 이루어 낸 것을 확인할 수 있습니다. 특히 GPU 메모리, CPU-GPU 연결, 네트워킹, 스토리지 성능 등에서 큰 개선이 이루어졌습니다. 주목할 점은, P5en에는 HPC(High Performance Computing) 환경에서 주로 사용되는 AWS의 고성능 네트워크 어댑터인 EFA(Elastic Fabric Adaptor)의 최신 버전인 v3가 도입되었다는 점입니다. EFAv3 도입을 통해 더욱 더 낮은 지연 시간을 제공함으로써, 대규모 AI 모델 훈련에 적합한 환경을 제공하게 됩니다. EFAv3는 다음과 같은 특징을 갖습니다.
- EFAv2 대비, 지연 시간 35% 개선
- AWS Nitro v5 시스템 기반으로 구축되어 성능 최적화
만약 EFA가 어떤 기술인지 정확히 알지 못하시는 분들은 다음의 블로그를, 2세대 EFA의 특징에 대해서는 다음의 블로그를 참고하시 바랍니다. EFA의 버전 별 전반적인 특징에 대해서는 표3을 통해 정리하였습니다.
항목 | Original EFA | EFAv2 | EFAv3 |
출시 시기 | 2018년 | 2022년 | 2024년 |
지연 시간 | 기본적인 저지연 네트워킹 제공 | v1 대비 엔드포인트 지연 시간 30% 감소 작은 규모의 collective 연산에서 v1 대비 통신 시간 50% 개선 |
P5en에서 사용, P5 대비 35% 개선된 지연시간 |
사용 인스턴스 | P3dn, c5n 등 이전 세대 인스턴스 | P5, P4d, Trn1 등 | P5en, Trn2 |
Nitro 버전 | 초기 Nitro 시스템 | 이전 세대 Nitro 사용 | Nitro v5 사용 |
네트워크 성능 | 기본적인 HPC 및 기계학습 워크로드 지원 |
EFAv1 대비 개선된 네트워크 성능 | 가장 향상된 네트워크 성능 |
<표 3. EFA 버전 별 특징>
P5en 인스턴스는 현재 미국 동부(오하이오), 미국 서부(오리건) 및 아시아 태평양(도쿄) AWS 리전에서 사용 가능하며 Amazon EC2 Capacity Blocks for ML, 온디맨드 및 절감형 플랜 구매 옵션을 통해 사용할 수 있습니다. 참고로 NVIDIA의 차세대 괴물 GPU라 할 수 있는 블랙웰(Blackwell)이 탑재된 P6 인스턴스는 2025년 상반기에 출시될 예정입니다.
Trainium2 기반 Trn2 인스턴스 출시
여러 시장 조사 기관에 따르면, 현재 GPU는 분산 트레이닝의 가속기(accelerator) 시장에서 90% 이상의 압도적인 시장 점유율을 차지하고 있습니다. 특히 생성형 AI의 등장과 같은 기술적 변화로 인해 GPU 수요는 폭발적으로 증가하고 있으나 공급이 수요를 못 따라 가고 있는 실정입니다. 최근 NVIDIA의 급격한 주가 상승이 이를 뒷받침합니다. NVIDIA의 GPU는 강력한 하드웨어 성능과 CUDA 플랫폼 기반의 소프트웨어 생태계 덕분에 머신 러닝 작업에서 필수적인 도구로 자리 잡았습니다. 그러나 GPU는 고비용과 높은 발열이라는 명확한 단점도 가지고 있습니다. 예를 들어, 2024년 12월 기준으로 최신 NVIDIA H200 GPU의 개당 가격은 약 30,000달러에 달하며, 온프레미스(on-premise) 환경에서 서버 한 대에 보통 8개의 GPU를 탑재한다고 가정할 때, GPU 서버 한 대의 비용은 수억 원을 초과합니다. 또한 NVIDIA의 차세대 GPU인 블랙웰의 출시 지연 사유 중 하나로 서버 과열 문제가 지목되고 있습니다. 이는 고성능을 제공하는 GPU가 동시에 높은 전력 소비와 발열 문제를 동반한다는 점을 보여줍니다. 이러한 이유로 GPU는 여전히 AI 가속기 시장에서 중요한 위치를 차지하고 있지만, 비용 및 에너지 효율성 문제가 지속적인 도전 과제로 남아 있습니다.
AWS가 자체 개발한 가속기를 탑재한 인스턴스를 지속적으로 출시하는 이유는 고객들의 요구와 시장 트렌드에 부응하기 위해서입니다. 많은 고객들이 모델 트레이닝 시장에서 더 저렴하고 에너지 효율적인 가속기 옵션을 원하고 있습니다. 이에 AWS는 GPU를 탑재한 인스턴스 외에도 자체 개발한 가속기를 탑재한 인스턴스를 시장에 출시하고 있습니다. AWS re:Invent 2024 기조연설에서 맷 가먼(Matt Garman) AWS CEO는 “인공지능(AI)으로 세계 최초의 체스 선수를 이기는 것이 아니라, 고성능 및 저비용 AI 서비스로 고객에게 실질적인 도움을 주는 방안을 고민하겠다”고 언급했습니다. 이는 AWS가 단순히 기술적 성과를 추구하는 것이 아니라, 고객에게 실질적인 가치를 제공하는 것에 중점을 두고 있음을 보여줍니다. 이러한 AWS의 접근 방식은 고성능과 저비용을 동시에 추구하며, 고객들의 실제 문제를 해결하는 데 초점을 맞추고 있습니다. 결과적으로 AWS가 자체 가속기를 지속적으로 개발하고 출시하는 것은 이러한 고객 중심적인 철학을 실현하기 위한 전략적 선택이라고 볼 수 있습니다. 이러한 가속기 전략의 일환으로 AWS는 24년 11월에 자사 인공지능 칩을 활용하는 AI 연구자에게 1억 1,000만 달러(한화 약 1500억) 규모의 크레딧을 지원하는 ‘빌드 온 트레이니움(Build on Trainium)’ 프로그램을 시작했습니다.
트래니엄(Tranium)이 바로 AWS가 자체 개발한 분산 트레이닝 전용 AI 가속기이며, 트래니엄을 적용한 인스턴스가 바로 Trn 인스턴스입니다. 2022년 Trn1 인스턴스가 시장에 최초로 소개된 이후, AWS re:Invent 2024에서 트래니엄2가 새롭게 출시되었으며 이를 탑재한 Trn2 인스턴스 역시 소개되었습니다. 그림1이 바로 신규 출시된 트래니엄2의 아키텍처 입니다. 하나의 트래니엄 칩은 8개의 뉴런코어(NeuronCore)로 구성되어 있습니다. 뉴런코어는 딥러닝 알고리즘을 위해 특별히 설계된 컴퓨팅 코어를 의미합니다.
<그림 1. 트래니엄 가속기 아키텍처 >
Trn2 인스턴스는 다음과 같은 특징을 갖습니다.
- 하나의 Trn2 인스턴스에는 16개의 트래니엄 칩이 탑재되므로, 총 128(16*8)개의 뉴런코어가 탑재됩니다. 또한 192개의 vCPU, 1.5 TiB에 달하는 HBM 메모리, 3.2 Tbps의 EFAv3 네트워크 기술을 보유하고 있습니다.
- 기존 Trn1 인스턴스 대비, 4배 더 빠른 학습 성능과 3배 많은 메모리 용량을 제공합니다. 또한 30% 더 높은 부동 소수점 연산 능력 및 2배 높은 에너지 효율을 제공합니다.
- GPU 기반 P5e/P5en 인스턴스와 비교 시, 30~40% 더 높은 가성비를 제공합니다.
- Trn2 인스턴스는 현재 미국 동부(오하이오) AWS 리전에서 사용 가능하며, Amazon EC2 Capacity Blocks for ML을 통해 예약할 수 있습니다.
신규 출시된 Trn2 인스턴스와 기존 Trn1 인스턴스의 차이를 표 4에서 정리해 두었습니다.
항목 | Trn1 | Trn2 |
출시 년도 | 2022년 | 2024년 |
기반 칩 | AWS 트래니엄1 | AWS 트래니엄2 |
칩 수 | 16 | 16 |
vCPU | 128 | 192 |
메모리 | 512 GiB | 1.5 TiB |
메모리 대역폭 | 9.8 TB/s | 46 TB/s |
네트워크 대역폭 | 800 Gbps (Trn1n:1.6Tbps) | 3.2 Tbps |
EFA 버전 | EFA v2 | EFA v3 |
컴퓨팅 성능 | 최대 3.4 PFLOPS (TF32/FP16/BF16 기준) |
최대 20.8 PFLOPS (FP8 Dense 기준) |
칩 간 연결 | 뉴런링크 | 뉴런 링크v3 (2D Torus 토폴로지) |
울트라클러스터에 적용 가능한 트래니엄 칩 개수 |
1만 | 수십 만 |
<표 4. Trn 인스턴스 비교>
AWS에서는 2개의 서버 랙(rack)에 64개의 트래니엄2(Trn2 인스턴스 4개에 해당)를 뉴런링크(NeuronLink)로 연결하여 최고의 추론 및 훈련 성능을 제공하는 울트라서버(UltraServer)를 AWS re:Invent 2024를 기점으로 출시하였습니다. 이러한 울트라서버를 통해 사용자는 최대 83.2 PFLOPS(Dense 기준, Trn2 4대 *20.8)의 고성능을 확보할 수 있습니다. 여기서 FLOPS에서의 ‘Dense’란, 행렬이나 신경망의 데이터 표현 방식과 연산 효율성을 나타내는 중요한 개념으로 모든 요소가 값(0이 아닌 숫자)을 가지는 행렬 또는 데이터 구조를 의미합니다. 대부분의 요소가 0인 행렬 또는 데이터 구조를 의미하는 ‘Sparse’ 기준으로 울트라서버는 최대 332.8 PFLOPS의 성능을 제공합니다. FLOPS가 어떤 의미인지에 대해서는 이 블로그의 후반부에서 자세히 설명하도록 하겠습니다. 참고로 앞서 언급한 뉴런링크란 AWS 가 자체 개발하는 가속기(트래니엄 또는 추론용 인퍼런시아 칩)간의 고속 연결을 위한 AWS의 독점 기술입니다.
<그림 2. AWS SVP 피터 드산티스(Peter DeSantis)의 키노트에서 소개된 울트라서버 스펙 >
2024년 AWS re:Invent에서는 Trn2 인스턴스와 관련된 두 가지 주요 고객 사례가 소개되었습니다. 첫 번째로, AWS의 전략적 파트너사인 앤트로픽(Anthropic)은 자사의 거대언어모델(LLM)인 클로드(Claude)를 훈련하기 위해 AWS의 반도체 전문 조직인 안나푸르나 랩(Annapurna Labs)과 협력하고 있습니다. 이들은 프로젝트 레이너(Project Rainier)라는 이름으로 수십만 개의 트래니엄2를 EFAv3 네트워크로 연결한 울트라클러스터(UltraCluster)를 구축할 예정입니다. 이 클러스터는 기존 앤트로픽의 모델 훈련 성능 대비 5배 이상의 컴퓨팅 성능을 제공할 것으로 기대됩니다. 두 번째 사례로, 애플은 트래니엄2를 평가 중이며 자사의 AI 시스템인 애플 인텔리전스(Apple Intelligence)의 사전 학습에 적용할 계획입니다. 이는 애플이 AWS의 고성능 AI 인프라를 활용하려는 의지를 보여줍니다.
또한 AWS는 차세대 트래니엄 칩인 트래니엄3에 대한 계획도 발표했습니다. 트래니엄3는 AWS 칩으로는 최초로 3나노미터 공정이 적용될 예정이며, 이를 기반으로 한 울트라서버는 트래니엄2 기반 울트라서버 대비 4배 높은 성능을 제공할 것으로 전망됩니다. 첫 트래니엄3 기반 인스턴스는 2025년 하반기에 출시될 예정입니다.
컴퓨터의 성능을 측정하는 방법
생성형 AI의 급속한 발전으로 인해 최신 GPU 기술과 이를 활용한 다양한 서버 및 슈퍼컴퓨터 시스템이 연이어 출시되고 있습니다. 이러한 시스템들은 이전 세대에 비해 현저히 향상된 성능을 보여주고 있습니다. 특히, AWS에서 새롭게 선보인 울트라서버의 경우, 그 성능을 ‘Dense’와 ‘Sparse’라는 두 가지 형태로 제시하여 주목을 받고 있습니다.
그러나 이러한 성능 지표의 의미와 중요성에 대해 대부분의 사람들이 정확히 이해하지 못하고 있습니다. 성능 지표의 정확한 이해는 AI 시스템의 실제 성능과 효율성을 평가하는 데 중요한 도구가 됩니다. 단순히 높은 수치만을 보고 성능을 판단하는 것이 아니라, 각 지표가 의미하는 바와 실제 응용 분야에서의 영향을 고려해야 합니다. 따라서 이러한 성능 지표의 의미와 적용 방식에 대해 더 깊이 이해하고, 이를 바탕으로 시스템의 실질적인 성능을 평가할 필요가 있습니다.
최근에 GPU 및 인공 지능을 위한 HPC 클러스터의 성능을 표현하는 방법으로 FLOPS 란 용어에 대해 한 번씩은 들어 보셨을 것으로 생각됩니다. 그림2에서도 트래니엄2 기반의 울트라서버의 성능을 FLOPS로 표시하고 있습니다. 컴퓨터에서 대부분의 연산은 소수점을 이용하여 처리되는데, FLOPS(Floating Point Operations Per Second)란 컴퓨터의 성능을 측정하는 단위로, 1초당 수행할 수 있는 부동 소수점 연산의 횟수를 의미합니다. 부동 소수점이란 고정 소수점과 대척점에 있는 용어로, 실수를 표현할 때 지수부와 가수부를 이용하여 소수점의 위치를 자유롭게 변경할 수 있습니다.
예를 들어, 456.78라는 10진 실수가 있다고 가정했을 때, 이 숫자를 고정 소수점으로 표현하면 정수부(456)와 실수부(78)로 구분할 수 있습니다. 이 방법은 우리에게 매우 친숙한 방법입니다. 만약 이 숫자를 부동 소수점 방식으로 표현하면 45.678 x 101 또는 4.5678 x 102 등으로 표현할 수 있습니다. 이 때 지수부는 1 또는 2를 의미하며, 지수부(Exponent)의 값에 따라 가수부(Mantissa) 숫자가 45.678 또는 4.5678 형태로 변동(가변)하기 때문에, 이런 방식으로 숫자를 표현하는 방식을 부동 소수점 방식이라 합니다. 컴퓨터가 바라보는 숫자는 2진수이므로 표현 방법은 다소 상이할 수 있으나 기본 개념은 동일합니다. 참고로 이렇게 지수부와 가수부를 이용하여 숫자를 표현하려는 이유는 컴퓨터에서 한정된 적은 비트 수를 가지고 가능한 넓은 범위의 실수를 표현하고자 하기 때문입니다.
대부분의 범용 컴퓨터 시스템에서는 이러한 부동 소수점 연산 방식이 적용되며, 이를 FP(Floating Point)라고 합니다. 프로그래밍 언어에서는 이를 Double이나 Float 타입으로 구현합니다. 지금까지 슈퍼컴퓨터는 CPU 연산을 위주로 물리학 시뮬레이션이나 기상 예측과 같이 매우 높은 수준의 정확도가 요구되는 분야에서 활용되어 왔습니다. 계산 과학 영역에서는 이러한 정밀한 계산을 위해 슈퍼컴퓨터의 성능은 배정밀도(double precision)를 사용하는 FP64를 기준으로 측정됩니다. FP64란 64개의 비트로 컴퓨터에서 숫자를 이진수로 표현하는 방식을 의미하며 1개의 부호(+/-)비트, 11비트의 지수부와 52비트의 가수부를 포함합니다. 이러한 배정밀도 방식은 높은 계산 정확도를 갖는다는 장점이 존재하나, 대신 높은 정확도를 확보하기 위해 상대적으로 처리 속도가 느리고 더 많은 메모리를 요구한다는 단점이 존재합니다. 매년 반기별로 공개되는, 세상에서 가장 성능이 좋은 슈퍼컴퓨터 리스트인 Top500도 HPL(High-Performance Linpack) 벤치마크를 사용하여 FP64연산 성능을 기준으로 슈퍼컴퓨터를 평가합니다.
주로 GPU를 활용하는 인공 지능 세상에서도 딥러닝 모델을 계산하기 위해서 기본적으로 부동 소수점 연산이 필요합니다. CPU를 주로 사용하는 엔지니어링 시뮬레이션의 경우 실제 물리적 현상을 수학적 모델링을 통해 최대한 근사한 값을 구하는 것이 목적입니다. 그러나 딥러닝과 같은 머신 러닝에서는 이와는 달리 엄청나게 많은 데이터를 뒤져서 새로운 통찰력을 확보하는 것이 목적입니다. 이 경우에는 높은 정밀도가 반드시 필요하지 않으며, 상대적으로 가중치 업데이트를 위한 행렬 연산이 많아 학습 시간이 크게 증가하는 특징이 존재합니다. 따라서 FP64 대신에 FP32, FP16, 최근에는 FP8 등의 낮은 정밀도를 사용합니다. FP뒤에 붙는 숫자가 작아질 수록 계산의 정확도는 상대적으로 감소하나, 처리 속도가 증가하고 메모리 사용량은 줄어드는 장점이 존재합니다. 그렇기 때문에 대부분의 GPU는 FP64 연산을 제한적으로만 지원합니다. 앞서 언급한 Trn2 및 울트라서버의 성능도 전부 FP8 기준임을 명확히 이해할 필요가 있습니다. 단 FP8은 정밀도가 낮기 때문에 과학 계산과 같은 정밀한 연산에는 적합하지 않습니다. FP 대신에 구글 브레인에서 딥러닝 애플리케이션을 위해 특별히 설계한 BP(Brain Point Floating)와 같은 정밀도를 사용하기도 합니다.
특정 디바이스 또는 슈퍼컴퓨터가 FLOPS 메트릭을 이용하여 성능을 표현한다 하더라도, FP64와 FP8과 같은 실수 표현 방식에 따라 완전히 다른 성능을 갖게 됩니다. 예를 들어 NVIDIA의 H100 GPU의 경우, FP64 기준으로 67 TFLOPS의 성능을 갖게 되지만 FP8 기준으로는 3,958 TFLOPS 값을 가집니다. 즉 H100 GPU는 AI/ML 워크로드에 최적화된 FP8 연산에서는 매우 높은 성능을 보이지만, 과학 계산 연산에 사용되는 FP64 연산은 이전 세대에 비해 크게 향상되었음에도 불구하고 FP8 정밀도 대비 상대적으로 낮은 성능을 보입니다.
다른 한가지 예를 들어보도록 하겠습니다. AWS re:Invent 2023에서 AWS는 NVIDIA와 함께 세계에서 가장 성능이 높은 GPU 기반의 AI 슈퍼컴퓨터를 구축하는, 프로젝트 세이바(Project Ceiba)를 발표하였습니다. 프로젝트 세이바는 16,384개의 NVIDIA GH200 슈퍼칩을 병렬로 연결하여 65 엑사플롭스(Exaflops)의 성능을 목표로 하고 있습니다. 2025년 1월 기준, Top500에 등재된 공식적으로 세상에서 가장 성능이 높은 슈퍼컴퓨터인 엘 캐피탄(EL Capitan)은 1.742엑사플롭스 의 성능을 보유하고 있습니다. 그렇다면 프로젝트 세이바를 통해 구축되는 AI용 슈퍼컴퓨터는 엘 캐피탄 대비 약 40배 높은 성능을 갖게 되는 것일까요? 정답은 그렇지 않다는 것입니다. 아무리 AWS와 NVIDIA가 유수의 글로벌 빅테크 기업이라 하더라도 현존하는 최고 슈퍼컴퓨터 대비 수십 배 이상의 성능을 갖는 슈퍼컴퓨터를 단기간에 개발하는 것은 불가능합니다. 이런 오해가 발생한 이유는 바로 정밀도 기준이 다르다는 점입니다. 앞서 언급한 것처럼 전통적인 슈퍼컴퓨터의 성능 기준 척도는 FP64를 기준으로 합니다. 그러나 대부분의 인공 지능 관련 성능 지표는 FP64를 따르지 않습니다. 프로젝트 세이바의 성능 기준은 FP8 기준으로 제공되었습니다. 따라서 Top500에 등재된 슈퍼컴퓨터와 단순히 FLOPS 기준으로 성능을 비교하는 것은 무의미합니다.
그렇다면 프로젝트 세이바는 일반 슈퍼컴퓨터 기준, 어느 정도의 성능을 갖게 될까요? 프로젝트 세이바의 성능을 FP64로 환산하려면 FP8 기준 성능에서 GPU의 정밀도 성능 비율을 고려해야 합니다. 일반적으로 NVIDIA GPU의 경우 FP8 대비 FP64 성능은 약 1/64 수준입니다. 그러나 정확한 비율은 GPU아키텍처 및 모델에 따라 다를 수 있습니다. 어찌됐던 1/64 로 가정한다면, 프로젝트 세이바의 FP64로 환산된 성능은 약 1.02 엑사플롭스로 추정됩니다. 세계 3위 슈퍼컴퓨터인 미국 아르곤 연구소(Argonne National Laboratory)의 오로라(Aurora)와 거의 비슷한 수준으로 예상됩니다. 다시 한번 말씀드리자면, 이것은 단순한 추정치일 뿐 정확한 값이 될 수 없다는 점입니다.
HPC 업계에서는 엑사스케일 급의 슈퍼컴퓨터를 꿈의 컴퓨터라 부르며, 전세계에 오로라를 포함하여 단 3대만이 존재합니다. 그렇기 때문에 프로젝트 세이바를 통하여 구성될 AI 전용 슈퍼컴퓨터의 성능이 매우 뛰어날 것임을 간접적으로 나마 확인할 수 있습니다.
맺음말
이번 블로그에서는 AWS re:Invent 2024 행사에서 발표되었던 다양한 AWS 신규 서비스 중 EC2 인스턴스와 관련된 내용에 대해 소개하였습니다. 2023년도와 마찬가지로, AWS re:Invent 2024 도 생성형 AI라는 시대의 흐름에 맞게 다수의 서비스가 생성형 AI에 관련되었습니다. EC2 인스턴스 관점에서도 NVIDIA H200 기반의 P5en 인스턴스 출시는 AWS가 최신 GPU 기술을 신속하게 도입하고 있음을 보여줍니다. 특히 EFAv3의 도입으로 대규모 AI 모델 학습에 더욱 적합한 환경을 제공하게 되었습니다. 또한 AWS의 자체 가속기인 트래니엄2 기반의 Trn2 인스턴스와 울트라서버의 출시는 AWS가 자체 개발한 AI 가속기를 통해 고성능과 비용 효율성을 동시에 추구하고 있음을 보여줍니다. 특히 앤트로픽 및 애플과 같은 주요 기업들의 채택은 AWS의 AI 인프라 전략이 시장에서 인정받고 있음을 증명합니다. 이러한 혁신들은 AWS가 단순한 기술적 성과를 넘어 실질적인 고객 가치 창출에 초점을 맞추고 있음을 보여줍니다. 앞으로도 AWS는 EC2 인스턴스 관점에서 고객들의 다양한 워크로드 요구사항을 충족시키기 위해 지속적인 혁신을 이어갈 것으로 예상됩니다.