- Amazon EC2›
- 实例类型›
- 加速型计算
加速型计算 Amazon EC2 实例类型
使用更快的硬件增强功能操作
什么是加速计算型 EC2 实例类型?
加速型计算实例使用硬件加速器或协处理器来更高效地执行功能。例如,它们可以执行浮点数计算、图形处理或数据模式匹配。
实例类别
有一系列 EC2 实例类型可供选择,每种类型都提供计算、内存和存储的独特组合,为您的特定工作负载需求提供支持。
通用实例可实现计算、内存和联网资源的平衡,可用于多种工作负载。这类实例适用于 Web 服务器、代码存储库、中小型数据库等应用程序。
计算优化型实例非常适用于从高性能处理器获取的受计算限制的应用程序。计算型实例工作负载的一些示例包括批处理、媒体转码和专用游戏服务器。
内存优化型实例旨在提高可处理内存中大型数据集的工作负载的性能。例如,这类实例适用于内存数据库、数据分析和企业级应用程序。
存储优化型实例每秒可以向应用程序交付数以百万计的低延迟、随机 I/O 操作。该实例设计用于需要对本地存储上的大型数据集进行高速连续读写访问的工作负载。例如,它们适用于高吞吐量数据库、数据处理和数据流式传输。
高性能计算(HPC)实例为大规模运行 HPC 工作负载提供出色的性价比。HPC 实例特别适用于可从高性能处理器中受益的应用程序,如复杂模拟、深度学习和视觉效果渲染。
探索实例类型
P6e - Instance
|
Instance Type
|
GPUs
|
vCPUs
|
Instance Memory (GiB)
|
GPU Memory (GB)
|
Network Bandwidth
|
GPUDirect RDMA
|
GPU Peer to Peer
|
Instance Storage (TB)
|
EBS Bandwidth (Gbps)
|
|---|---|---|---|---|---|---|---|---|---|
|
P6e-gb200.36xlarge*
|
4 |
144 |
960 |
740 |
1600 |
是 |
1800 |
22.5 |
60 |
*单实例规格仅供参考。
P6e-GB200 实例仅在超级服务器中可用,大小
从 36 个 GPU 到 72 个 GPU 不等。
由 NVIDIA GB200 NVL72 加速的 Amazon EC2 P6e-GB200 超级服务器可在 Amazon Elastic Compute Cloud(Amazon EC2)中提供极高性能的 GPU 人工智能训练和推理。
特点:
- Grace Blackwell 超级芯片由基于 ARM 架构的 Grace CPU 提供支持,在一个 NVLink 域内配备多达 72 个 Blackwell GPU,可提供高达 360 千万亿次的 FP8 计算能力(不包含稀疏性)
- 高达 13.4 TB 的高带宽内存(HBM3e)GPU 内存
- 支持 Adapter (EFAv4)和 NVIDIA GPUDirect 远程直接内存访问(RDMA)技术,可提供高达每秒 28.8 Tb 的网络带宽
- 包含 NVIDIA NVSwitch 的 1800GB/s 的对等 GPU 通信
使用场景
- P6e-GB200 超级服务器可加速前沿模型的训练和推理,包括万亿参数级别的混合专家模型和推理模型。
- 代理式和生成式人工智能应用程序,包括问答、代码生成、视频和图像生成、语音识别等。
P6e - UltraServers
|
Instance Type
|
GPUs
|
vCPUs
|
Instance Memory (GiB)
|
GPU Memory (GB)
|
Network Bandwidth
|
GPUDirect RDMA
|
GPU Peer to Peer
|
Instance Storage (TB)
|
EBS Bandwidth (Gbps)
|
|---|---|---|---|---|---|---|---|---|---|
|
u-p6e-gb200x36
|
36 |
1296 |
8640 |
6660 |
14400 |
是 |
1800 |
202.5 |
540 |
|
u-p6e-gb200x72
|
72 |
2592 |
17280 |
13320 |
28800 |
是 |
1800 |
405 |
1080 |
P6e-GB200 实例具有如下规格:
P6
|
Instance
|
GPUs
|
vCPUs
|
Instance Memory (TiB)
|
GPU Memory (GB)
|
Network Bandwidth (Gbps)
|
GPUDirect RDMA
|
GPU Peer to Peer
|
Instance Storage (TB)
|
EBS Bandwidth (Gbps)
|
|---|---|---|---|---|---|---|---|---|---|
|
P6-b200.48xlarge
|
8 |
192 |
2 |
1432 |
8 x 400 |
是 |
1800 |
8 x 3.84 |
100 |
与 P5en 实例相比,由 NVIDIA Blackwell GPU 加速的 Amazon EC2 P6-B200 实例在人工智能训练和推理场景中的性能可提升高达 2 倍。
特点:
- 第 5 代英特尔至强可扩展处理器(Emerald Rapids)
- 8 个 NVIDIA Blackwell GPU
- 高达 1440GB 的 HBM3e GPU 内存
- 支持 Adapter (EFAv4)和 NVIDIA GPUDirect“远程直接内存访问”(RDMA)技术,可提供高达每秒 3.2 Tb 的网络带宽
- 包含 NVIDIA NVSwitch 的 1800GB/s 的对等 GPU 通信
P6-B200 具有如下规格:
应用场景
- P6-B200 实例是训练和部署中大型前沿基础模型(如专家混合模型和高性能推理模型)的经济高效之选。
- 代理式和生成式人工智能应用程序,包括问答、代码生成、视频和图像生成、语音识别等
- HPC 在药物发现、地震分析、天气预报和财务建模方面的大规模应用
P5
|
Instance
|
GPUs
|
vCPUs
|
Instance Memory (TiB)
|
GPU Memory
|
Network Bandwidth
|
GPUDirect RDMA
|
GPU Peer to Peer
|
Instance Storage (TB)
|
EBS Bandwidth (Gbps)
|
|---|---|---|---|---|---|---|---|---|---|
|
p5.4xlarge
|
1 H100 |
16 |
256 GiB |
80 GB HBM3 |
100 Gbps EFA |
否* |
不适用* |
3.84 NVMe SSD |
10 |
|
p5.48xlarge
|
8 H100 |
192 |
2 |
640 GB HBM3 |
3200 Gbps EFAv2 |
是 |
900 GB/s NVSwitch |
8 个 3.84 NVMe SSD |
80 |
|
p5e.48xlarge
|
8 H200
|
192
|
2
|
1128 GB HBM3
|
3200 Gbps EFAv2
|
是
|
900 GB/s NVSwitch
|
8 个 3.84 NVMe SSD
|
80
|
|
p5en.48xlarge
|
8 H200
|
192
|
2
|
1128 GB HBM3
|
3200 Gbps EFAv3
|
是
|
900 GB/s NVSwitch
|
8 个 3.84 NVMe SSD
|
100
|
*P5.4xlarge 不支持 GPUDirect RDMA
Amazon EC2 P5 实例是基于 GPU 的实例,在 Amazon EC2 中为深度学习和高性能计算(HPC)提供最高性能支持。
特点:
- 在 P5en 实例中,CPU 与 GPU 之间采用 Intel Sapphire Rapids CPU 和 PCIe Gen5;在 P5 和 P5e 实例中,CPU 与 GPU 之间采用第三代 AMD EPYC 处理器(AMD EPYC 7R13)和 PCIe Gen4。
- 最多 8 个 NVIDIA H100(在 P5 中)或 H200(在 P5e 和 P5en 中)Tensor Core GPU
- 高达 3200 Gbps 网络带宽,支持 Elastic Fabric Adapter(EFA)和 NVIDIA GPUDirect RDMA(远程直接内存访问)
- 包含 NVIDIA NVSwitch 的 900 GB/s 的对等 GPU 通信
P5 实例均具有如下规格:
应用场景
生成式人工智能应用程序,包括问答、代码生成、视频和图像生成、语音识别等。
HPC 在药物发现、地震分析、天气预报和财务建模方面的大规模应用。
P4
|
Instance
|
GPUs
|
vCPUs
|
Instance Memory (GiB)
|
GPU Memory
|
Network Bandwidth
|
GPUDirect RDMA
|
GPU Peer to Peer
|
Instance Storage (GB)
|
EBS Bandwidth (Gbps)
|
|---|---|---|---|---|---|---|---|---|---|
|
p4d.24xlarge
|
8
|
96
|
1152
|
320 GB HBM2
|
400 ENA 和 EFA
|
是
|
600 GB/s NVSwitch
|
8 个 1000 NVMe SSD
|
19
|
|
p4de.24xlarge
|
8
|
96
|
1152
|
640 GB HBM2e
|
400 ENA 和 EFA
|
是
|
600 GB/s NVSwitch
|
8 个 1000 NVMe SSD
|
19
|
Amazon EC2 P4 实例为机器学习训练和云端高性能计算提供高性能。
- 3.0 GHz 的第 2 代英特尔至强可扩展处理器(Cascade Lake P-8275CL)
- 高达 8 NVIDIA A100 Tensor Core GPU
- 400 Gbps 实例联网,支持 Elastic Fabric Adapter(EFA)和 NVIDIA GPUDirect RDMA(远程直接内存访问)
- 包含 NVIDIA NVSwitch 的 600 GB/s 的对等 GPU 通信
- 部署在由超过 4000 个 NVIDIA A100 Tensor Core GPU、PB 级网络和适用于 Lustre 的 Amazon FSx 提供的可扩展低延迟存储组成的 Amazon EC2 UltraClusters 中
P4d 实例均具有如下规格:
- 3.0 GHz 的第 2 代英特尔至强可扩展处理器
- Intel AVX、Intel AVX2、Intel AVX-512 和 Intel Turbo
- EBS 优化
- 增强型联网†
- Elastic Fabric Adapter(EFA)
使用案例
机器学习、高性能计算、计算流体动力学、计算金融学、地震分析、语音识别、无人驾驶汽车和药物发现。
G6e
|
Instance Name
|
vCPUs
|
Memory (GiB)
|
NVIDIA L40S Tensor Core GPU
|
GPU Memory (GB)
|
Network Bandwidth (Gbps)***
|
EBS Bandwidth (Gbps)
|
|---|---|---|---|---|---|---|
|
g6e.xlarge
|
4
|
32
|
1
|
48
|
最高 20
|
最高 5
|
|
g6e.2xlarge
|
8
|
64
|
1
|
48
|
最高 20
|
最高 5
|
|
g6e.4xlarge
|
16
|
128
|
1
|
48
|
20
|
8
|
|
g6e.8xlarge
|
32
|
256
|
1
|
48
|
25
|
16
|
|
g6e.16xlarge
|
64
|
512
|
1
|
48
|
35
|
20
|
|
g6e.12xlarge
|
48
|
384
|
4
|
192
|
100
|
20
|
|
g6e.24xlarge
|
96
|
768
|
4
|
192
|
200
|
30
|
|
g6e.48xlarge
|
192
|
1536
|
8
|
384
|
400
|
60
|
Amazon EC2 G6e 实例旨在加速深度学习推理和空间计算工作负载的处理。
特点:
- 第 3 代 AMD EPYC 处理器(AMD EPYC 7R13)
- 高达 8 个 NVIDIA L40S Tensor Core GPU
- 高达 400 Gbps 的网络带宽
- 高达 7.6TB 的本地 NVMe 存储
应用场景
用于图像、音频和视频生成的大型语言模型和传播模型的推理工作负载;中等复杂的生成式人工智能模型的单节点训练;3D 模拟、数字孪生和工业数字化。
G6 - Fractional-GPU vCPU:RAM 比率为 1:8 的 Gr6 实例
|
Instance Name
|
vCPUs
|
Memory (GiB)
|
NVIDIA L4 Tensor Core GPU
|
GPU Memory (GiB)
|
Network Bandwidth (Gbps)***
|
EBS Bandwidth (Gbps)
|
|---|---|---|---|---|---|---|
|
gr6f.4xlarge
|
16 |
128 |
1/2 |
12 |
最高 25 |
8 |
G6 - Fractional-GPU G6 实例
|
Instance Name
|
vCPUs
|
Memory (GiB)
|
NVIDIA L4 Tensor Core GPU
|
GPU Memory (GiB)
|
Network Bandwidth (Gbps)***
|
EBS Bandwidth (Gbps)
|
|---|---|---|---|---|---|---|
|
g6f.large
|
2 |
8 |
1/8 |
3 |
最高 10
|
最高 5
|
|
g6f.xlarge
|
4 |
16 |
1/8 |
3 |
最高 10
|
最高 5
|
|
g6f.2xlarge
|
8 |
32 |
1/4 |
6 |
最高 10 |
8 最高 5 |
|
g6f.4xlarge
|
16 |
64 |
1/2 |
12 |
最高 25 |
6 |
Amazon EC2 G6 实例旨在加速图形密集型应用程序和机器学习推理。
特点:
- 第 3 代 AMD EPYC 处理器(AMD EPYC 7R13)
- 高达 8 个 NVIDIA L4 Tensor Core GPU
- 高达 100 Gbps 的网络带宽
- 高达 7.52 TB 的本地 NVMe 存储
应用场景
部署 ML 模型,用于自然语言处理、语言翻译、视频和图像分析、语音识别、个性化以及图形工作负载,例如创建和渲染实时、电影质量的图形和游戏直播。
G6 - Single-GPU G6 实例
|
Instance Name
|
vCPUs
|
Memory (GiB)
|
NVIDIA L4 Tensor Core GPU
|
GPU Memory (GiB)
|
Network Bandwidth (Gbps)***
|
EBS Bandwidth (Gbps)
|
|---|---|---|---|---|---|---|
|
g6.xlarge
|
4
|
16
|
1
|
24
|
最高 10
|
最高 5
|
|
g6.2xlarge
|
8
|
32
|
1
|
24
|
最高 10
|
最高 5
|
|
g6.4xlarge
|
16
|
64
|
1
|
24
|
最高 25
|
8
|
|
g6.8xlarge
|
32
|
128
|
1
|
24
|
25
|
16
|
|
g6.16xlarge
|
64
|
256
|
1
|
24
|
25
|
20
|
G6 - Single-GPU vCPU:RAM 比率为 1:8 的 Gr6 实例
|
Instance Name
|
vCPUs
|
Memory (GiB)
|
NVIDIA L4 Tensor Core GPU
|
GPU Memory (GiB)
|
Network Bandwidth (Gbps)***
|
EBS Bandwidth (Gbps)
|
|---|---|---|---|---|---|---|
|
gr6.4xlarge
|
16 |
128 |
1
|
24
|
最高 25 |
8 |
|
gr6.8xlarge
|
32 |
256 |
1
|
24
|
25 |
16 |
G6 - Multi-GPU G6 实例
|
Instance Name
|
vCPUs
|
Memory (GiB)
|
NVIDIA L4 Tensor Core GPU
|
GPU Memory (GiB)
|
Network Bandwidth (Gbps)***
|
EBS Bandwidth (Gbps)
|
|---|---|---|---|---|---|---|
|
g6.12xlarge
|
48
|
192
|
4
|
96
|
40
|
20
|
|
g6.24xlarge
|
96
|
384
|
4
|
96
|
50
|
30
|
|
g6.48xlarge
|
192 |
768 |
8 |
192 |
100 |
60 |
vCPU:RAM 比率为 1:8 的 Gr6 实例
|
Instance Name
|
vCPUs
|
Memory (GiB)
|
NVIDIA L4 Tensor Core GPU
|
GPU Memory (GiB)
|
Network Bandwidth (Gbps)***
|
EBS Bandwidth (Gbps)
|
|---|---|---|---|---|---|---|
|
gr6.4xlarge
|
16
|
128
|
1
|
24
|
最高 25
|
8
|
|
gr6.8xlarge
|
32
|
256
|
1
|
24
|
25
|
16
|
Amazon EC2 G6 实例旨在加速图形密集型应用程序和机器学习推理。
特点:
- 第 3 代 AMD EPYC 处理器(AMD EPYC 7R13)
- 高达 8 个 NVIDIA L4 Tensor Core GPU
- 高达 100 Gbps 的网络带宽
- 高达 7.52 TB 的本地 NVMe 存储
应用场景
部署 ML 模型,用于自然语言处理、语言翻译、视频和图像分析、语音识别、个性化以及图形工作负载,例如创建和渲染实时、电影质量的图形和游戏直播。
G5g
|
Instance Name
|
vCPUs
|
Memory (GiB)
|
NVIDIA T4G Tensor Core GPU
|
GPU Memory (GiB)
|
Network Bandwidth (Gbps)***
|
EBS Bandwidth (Gbps)
|
|---|---|---|---|---|---|---|
|
g5g.xlarge
|
4
|
8
|
1
|
16
|
最高 10
|
最高 3.5
|
|
g5g.2xlarge
|
8
|
16
|
1
|
16
|
最高 10
|
最高 3.5
|
|
g5g.4xlarge
|
16
|
32
|
1
|
16
|
最高 10
|
最高 3.5
|
|
g5g.8xlarge
|
32
|
64
|
1
|
16
|
12
|
9
|
|
g5g.16xlarge
|
64
|
128
|
2
|
32
|
25
|
19
|
|
g5g.metal
|
64
|
128
|
2
|
32
|
25
|
19
|
Amazon EC2 G5g 实例由 AWS Graviton2 处理器提供支持并搭载 NVIDIA T4G Tensor Core GPU,可为 Android 游戏流等图形工作负载提供 Amazon EC2 中的最佳性价比。它们是主要云中第一种具有 GPU 加速功能的基于 Arm 的实例。客户还可以使用 G5g 实例进行经济高效的推理。
特点:
- 定制的 AWS Graviton2 处理器,搭载 64 位 Arm Neoverse 核心
- 高达 2 个 NVIDIA T4G Tensor Core GPU
- 高达 25 Gbps 联网带宽
- 默认情况下已经过 EBS 优化
- 由 AWS Nitro System(专用硬件和轻量级虚拟机监控程序的组合)提供支持
应用场景
Android 游戏流、机器学习推理、图形渲染、自动驾驶车辆模拟
G5
|
Instance Size
|
GPU
|
GPU Memory (GiB)
|
vCPUs
|
Memory (GiB)
|
Instance Storage (GB)
|
Network Bandwidth (Gbps)***
|
EBS Bandwidth (Gbps)
|
|---|---|---|---|---|---|---|---|
|
g5.xlarge
|
1
|
24
|
4
|
16
|
1 个 250 NVMe SSD
|
最高 10
|
最高 3.5
|
|
g5.2xlarge
|
1
|
24
|
8
|
32
|
1 个 450 NVMe SSD
|
最高 10
|
最高 3.5
|
|
g5.4xlarge
|
1
|
24
|
16
|
64
|
1 个 600 NVMe SSD
|
最高 25
|
8
|
|
g5.8xlarge
|
1
|
24
|
32
|
128
|
1 个 900 NVMe SSD
|
25
|
16
|
|
g5.16xlarge
|
1
|
24
|
64
|
256
|
1 个 1900 NVMe SSD
|
25
|
16
|
|
g5.12xlarge
|
4
|
96
|
48
|
192
|
1 个 3800 NVMe SSD
|
40
|
16
|
|
g5.24xlarge
|
4
|
96
|
96
|
384
|
1 个 3800 NVMe SSD
|
50
|
19
|
|
g5.48xlarge
|
8
|
192
|
192
|
768
|
2 个 3800 NVME SSD
|
100
|
19
|
Amazon EC2 G5 实例旨在加速图形密集型应用程序和机器学习推理。它们还可以用于训练从简单到中等复杂程度的机器学习模型。
特点:
- 第 2 代 AMD EPYC 处理器 (AMD EPYC 7R32)
- 高达 8 NVIDIA A10G Tensor Core GPU
- 高达 100 Gbps 的网络带宽
- 高达 7.6TB 的本地 NVMe 存储
G5 实例均具有如下规格:
使用案例
图形密集型应用程序,例如远程工作站、视频渲染和云游戏,以实时生成高保真图形。机器学习应用场景(如自然语言处理、计算机视觉和推荐引擎应用场景)的训练和推理深度学习模型。
G4dn
|
Instance
|
GPUs
|
vCPU
|
Memory (GiB)
|
GPU Memory (GiB)
|
Instance Storage (GB)
|
Network Performance (Gbps)***
|
EBS Bandwidth (Gbps)
|
|---|---|---|---|---|---|---|---|
|
g4dn.xlarge
|
1
|
4
|
16
|
16
|
1 个 125 NVMe SSD
|
最高 25
|
最高 3.5
|
|
g4dn.2xlarge
|
1
|
8 |
32
|
16
|
1 个 225 NVMe SSD
|
最高 25
|
最高 3.5
|
|
g4dn.4xlarge
|
1
|
16
|
64
|
16
|
1 个 225 NVMe SSD
|
最高 25
|
4.75
|
|
g4dn.8xlarge
|
1
|
32
|
128
|
16
|
1 个 900 NVMe SSD
|
50
|
9.5
|
|
g4dn.16xlarge
|
1
|
64
|
256
|
16
|
1 个 900 NVMe SSD
|
50
|
9.5
|
|
g4dn.12xlarge
|
4
|
48
|
192
|
64
|
1 个 900 NVMe SSD
|
50
|
9.5
|
|
g4dn.metal
|
8
|
96
|
384
|
128
|
2 个 900 NVMe SSD
|
100
|
19
|
Amazon EC2 G4dn 实例旨在帮助加速机器学习推理和图形密集型工作负载。
特点:
- 第 2 代英特尔至强可扩展处理器(Cascade Lake P-8259CL)
- 高达 8 NVIDIA T4 Tensor Core GPU
- 高达 100Gbps 的联网吞吐量
- 高达 1.8TB 的本地 NVMe 存储
所有实例均具有如下规格:
- 2.5GHz Cascade Lake 24C 处理器
- Intel AVX、Intel AVX2、Intel AVX-512 和 Intel Turbo
- EBS 优化
- 增强型联网†
应用场景
用于将元数据添加到图像、对象检测、推荐系统、自动语音识别和语言翻译等应用程序的机器学习推理。G4 实例还为构建和运行图形密集型应用程序(例如远程图形工作站、视频转码、真实感设计和云中的游戏流媒体)提供了非常经济高效的平台。
G4ad
|
Instance
|
GPUs
|
vCPU
|
Memory (GiB)
|
GPU Memory (GiB)
|
Instance Storage (GB)
|
Network Bandwidth (Gbps)***
|
EBS Bandwidth (Gbps)
|
|---|---|---|---|---|---|---|---|
|
g4ad.xlarge
|
1
|
4
|
16
|
8
|
1 个 150 NVMe SSD
|
最高 10
|
最高 3
|
|
g4ad.2xlarge
|
1
|
8
|
32
|
8
|
1 个 300 NVMe SSD
|
最高 10
|
最高 3
|
|
g4ad.4xlarge
|
1
|
16
|
64
|
8
|
1 个 600 NVMe SSD
|
最高 10
|
最高 3
|
|
g4ad.8xlarge
|
2
|
32
|
128
|
16
|
1 个 1200 NVMe SSD
|
15
|
3
|
|
g4ad.16xlarge
|
4
|
64
|
256
|
32
|
1 个 2400 NVMe SSD
|
25
|
6
|
Amazon EC2 G4ad 实例为云中的图形密集型应用程序提供最佳性价比。
特点:
- 第 2 代 AMD EPYC 处理器 (AMD EPYC 7R32)
- AMD Radeon Pro V520 GPU
- 高达 2.4TB 的本地 NVMe 存储
所有实例均具有如下规格:
应用场景
图形密集型应用程序,例如远程图形工作站、视频转码、真实感设计和云中的游戏流。
Trn2
|
Instance Size
|
Available in EC2 UltraServers
|
Trainium2 Chips
|
Accelerator Memory (TB)
|
vCPUs
|
Memory (TB)
|
Instance Storage (TB)
|
Network Bandwidth (Tbps)***
|
EBS Bandwidth (Gbps)
|
|---|---|---|---|---|---|---|---|---|
|
trn2.48xlarge
|
否
|
16
|
1.5
|
192
|
2
|
4 x 1.92 NVMe SSD
|
3.2
|
80 |
|
trn2u.48xlarge
|
是(预览版)
|
16
|
1.5
|
192
|
2
|
4 x 1.92 NVMe SSD
|
3.2
|
80
|
由 AWS Trainium2 芯片提供支持的 Amazon EC2 Trn2 实例专为具有数千亿到数万亿以上参数的模型的高性能生成式人工智能训练和推理而构建。
特点:
- 16 个 AWS Trainium2 芯片
- 由 AWS Neuron SDK 提供支持
- 第 4 代英特尔至强可扩展处理器(Sapphire Rapids 8488C)
- 高达 12.8 Tbps 的第三代 Elastic Fabric Adapter(EFA)联网带宽
- 高达 8TB 的本地 NVMe 存储
- 使用 NeuronLink 的高带宽、实例内和实例间连接
- 部署在 Amazon EC2 UltraClusters 中,并可在 EC2 UltraServer(提供预览版)中使用
- Amazon EBS 优化
- 增强型联网
应用场景
训练和推理要求最严苛的基础模型,包括大型语言模型(LLM)、多模态模型、扩散转换器等,以构建广泛的下一代生成式人工智能应用程序。
Trn1
|
Instance Size
|
Trainium Chips
|
Accelerator Memory (GB)
|
vCPUs
|
Memory (GiB)
|
Instance Storage (GB)
|
Network Bandwidth (Gbps)***
|
EBS Bandwidth (Gbps)
|
|---|---|---|---|---|---|---|---|
|
trn1.2xlarge
|
1
|
32
|
8
|
32
|
1 个 500 NVMe SSD |
最高 12.5
|
最高 20 |
|
trn1.32xlarge
|
16
|
512
|
128
|
512
|
4 x 2000 NVMe SSD |
800
|
80
|
|
trn1n.32xlarge
|
16
|
512
|
128
|
512
|
4 x 2000 NVMe SSD
|
1600
|
80
|
Amazon EC2 Trn1 实例由 AWS Trainium 芯片提供支持,专为高性能深度学习训练打造,与 Amazon EC2 实例相比,可节省高达 50% 的训练成本。
特点:
- 16 个 AWS Trainium 芯片
- 由 AWS Neuron SDK 提供支持
- 第三代 Intel Xeon 可扩展处理器(Ice Lake SP)
- 高达 1600 Gbps 的第二代 Elastic Fabric Adapter(EFA)联网带宽
- 高达 8TB 的本地 NVMe 存储
- 使用 NeuronLink 的高带宽、实例内连接
- 部署在可扩展至多达 30,000 个 AWS Trainium 加速器、与 PB 级非阻塞网络连接,并且可使用 Amazon FSx for Lustre 实现可扩展低延迟存储的 EC2 UltraClusters 中
- Amazon EBS 优化
- 增强型联网
应用场景
适用于自然语言处理(NLP)、计算机视觉、搜索、推荐、排名等的深度学习训练
Inf2
|
Instance Size
|
Inferentia2 Chips
|
Accelerator Memory (GB)
|
vCPU
|
Memory (GiB)
|
Local Storage
|
Inter-accelerator Interconnect
|
Network Bandwidth (Gbps)
|
EBS Bandwidth (Gbps)
|
|---|---|---|---|---|---|---|---|---|
|
inf2.xlarge
|
1
|
32
|
4
|
16
|
仅限 EBS
|
NA
|
最高 15
|
最高 10
|
|
inf2.8xlarge
|
1
|
32
|
32
|
128
|
仅限 EBS
|
NA
|
最高 25
|
10
|
|
inf2.24xlarge
|
6
|
192
|
96
|
384
|
仅限 EBS
|
是
|
50
|
30
|
|
inf2.48xlarge
|
12
|
384
|
192
|
768
|
仅限 EBS
|
是
|
100
|
60
|
Amazon EC2 Inf2 实例专为深度学习推理而构建。它们在 Amazon EC2 中以最低的成本为生成式人工智能模型(包括大型语言模型和视觉转换器)提供高性能。Inf2 实例由 AWS Inferentia2 提供支持。与 Inf1 实例相比,这些新实例的计算性能提高了 3 倍,加速器内存提高了 4 倍,吞吐量提高了 4 倍,延迟降低了 10 倍
特点:
- 多达 12 个 AWS Inferentia2 芯片
- 由 AWS Neuron SDK 提供支持
- 双 AMD EPYC 处理器(AMD EPYC 7R13)
- 高达 384GB 共享加速器内存(每个加速器 32GB HBM)
- 高达 100Gbps 的网络速度
应用场景
自然语言理解(高级文本分析、文档分析、会话代理)、翻译、图像和视频生成、语音识别、个性化、欺诈检测等。
Inf1
|
Instance Size
|
Inferentia chips
|
vCPUs
|
Memory (GiB)
|
Instance Storage
|
Inter-accelerator Interconnect
|
Network Bandwidth (Gbps)***
|
EBS Bandwidth
|
|---|---|---|---|---|---|---|---|
|
inf1.xlarge
|
1
|
4
|
8
|
仅限 EBS
|
不适用
|
最高 25
|
最高 4.75
|
|
inf1.2xlarge
|
1
|
8
|
16
|
仅限 EBS
|
不适用
|
最高 25
|
最高 4.75
|
|
inf1.6xlarge
|
4
|
24
|
48
|
仅限 EBS
|
是
|
25
|
4.75
|
|
inf1.24xlarge
|
16
|
96
|
192
|
仅限 EBS
|
是
|
100
|
19
|
Amazon EC2 Inf1 实例从构建之初就以支持机器学习推理应用程序为目标。
特点:
- 最多 16 个 AWS Inferentia 芯片
- 由 AWS Neuron SDK 提供支持
- 高频第 2 代英特尔至强可扩展处理器(Cascade Lake P-8259L)
- 高达 100Gbps 的网络速度
应用场景
推荐引擎、预测、图像和视频分析、高级文本分析、文档分析、语音、对话式代理、翻译、转录和欺诈检测。
DL1
|
Instance Size
|
vCPU
|
Gaudi Accelerators
|
Instance Memory (GiB)
|
Instance Storage (GB)
|
Accelerator Peer-to-Peer Bidirectional (Gbps)
|
Network Bandwidth (Gbps)
|
EBS Bandwidth (Gbps)
|
|---|---|---|---|---|---|---|---|
|
dl1.24xlarge
|
96 |
8 |
768 |
4 个 1000 NVMe SSD |
100 |
400 |
19 |
Amazon EC2 DL1 实例由 Habana Labs(英特尔旗下公司)的 Gaudi 加速器提供支持。与当前一代基于 GPU 的 EC2 实例相比,这些实例为训练深度学习模型提供多达 40% 的性价比。
特点:
- 第 2 代英特尔至强可扩展处理器 (Cascade Lake P-8275CL)
- 多达 8 个 Gaudi 加速器,每个加速器具有 32 GB 高带宽内存 (HBM)
- 400 Gbps 的联网吞吐量
- 4TB 的本地 NVMe 存储
DL1 实例具有如下规格:
- 第 2 代英特尔至强可扩展处理器
- Intel AVX†、Intel AVX2†、Intel AVX-512、Intel Turbo
- EBS 优化
- 增强型联网†
应用场景
深度学习训练、对象检测、图像识别、自然语言处理和推荐引擎。
DL2q
|
Instance Size
|
Qualcomm AI 100 Accelerators
|
Accelerator Memory (GB)
|
vCPU
|
Memory (GiB)
|
Local Storage
|
Inter-accelerator Interconnect
|
Network Bandwidth (Gbps)
|
EBS Bandwidth (Gbps)
|
|---|---|---|---|---|---|---|---|---|
|
dl2q.24xlarge
|
8
|
128
|
96
|
768
|
仅限 EBS
|
否
|
100
|
19
|
Amazon EC2 DL2q 实例由 Qualcomm AI 100 加速器提供支持,可用于经济高效地在云中部署深度学习(DL)工作负载,或者验证将在 Qualcomm 设备上部署的 DL 工作负载的性能和准确性。
特点:
- 8 台 Qualcomm AI 100 加速器
- 由 Qualcomm Cloud AI Platform 和 Apps SDK 提供支持
- 第 2 代英特尔至强可扩展处理器(Cascade Lake P-8259CL)
- 高达 128GB 的共享加速器内存
- 高达 100Gbps 的网络速度
应用场景
运行人的深度学习和生成式人工智能应用程序,例如内容生成、图像分析、文本摘要和虚拟助手。在将 AI 工作负载部署到智能手机、汽车、机器人和扩展现实耳机之前对其进行验证。
F2
|
Instance Name
|
FPGAs
|
vCPU
|
FPGA Memory HBM / DDR4
|
Instance Memory (GiB)
|
Local Storage (GiB)
|
Network Bandwidth (Gbps)
|
EBS Bandwidth (Gbps)
|
|---|---|---|---|---|---|---|---|
|
f2.6xlarge
|
1
|
24
|
16 GiB/ 64 GiB
|
256
|
1x 940
|
12.5
|
7.5
|
|
f2.12xlarge
|
2
|
48
|
32 GiB / 128 GiB
|
512
|
2x 940
|
25
|
15
|
|
f2.48xlarge
|
8
|
192
|
128 GiB / 512 GiB
|
2048
|
8x 940
|
100
|
60
|
Amazon EC2 F2 实例能够通过现场可编程门阵列(FPGA)实现定制硬件加速。
特点:
- 多达 8 个 AMD Virtex UltraScale+ HBM VU47P FPGA,包含 290 万个逻辑单元和 9024 个 DSP 切片
- 第三代 AMD EPYC 处理器
- 64 GiB 的 DDR4 ECC 保护的 FPGA 内存
- 专用 FPGA PCI-Express x16 接口
- 高达 100 Gbps 的网络带宽
- 由 FPGA 开发人员 AMI 和 FPGA 开发套件支持
应用场景
基因组学研究、金融分析、实时视频处理、大数据搜索和分析以及安全性。
VT1
|
Instance Size
|
U30 Accelerators
|
vCPU
|
Memory (GiB)
|
Network Bandwidth (Gbps)
|
EBS Bandwidth (Gbps)
|
1080p60 Streams
|
4Kp60 Streams
|
|---|---|---|---|---|---|---|---|
|
vt1.3xlarge
|
1 |
12 |
24 |
3.125 |
最高 4.75 |
8 |
2 |
|
vt1.6xlarge
|
2 |
24 |
48 |
6.25 |
4.75 |
16 |
4 |
|
vt1.24xlarge
|
8 |
96 |
192 |
25 |
19 |
64 |
16 |
Amazon EC2 VT1 实例旨在提供低成本实时视频转码,最高支持 4K UHD 分辨率。
特点:
- 第 2 代英特尔至强可扩展处理器 (Cascade Lake P-8259CL)
- 最多 8 个 Xilinx U30 媒体加速器卡,具有加速的 H.264/AVC 和 H.265/HEVC 编解码器
- 最高 25Gbps 的增强联网吞吐量
- 最高 19Gbps 的 EBS 带宽
所有实例均具有如下规格:
- 第 2 代英特尔至强可扩展处理器
- Intel AVX†、Intel AVX2†、Intel AVX-512、Intel Turbo
- EBS 优化
- 增强型联网†
应用场景
现场活动广播、视频会议和实时转码。
脚注
每个 vCPU 都是一个 Intel Xeon 内核或 AMD EPYC 内核的线程,但 T2 和 m3.medium 除外。
† AVX、AVX2、AVX-512 和增强型联网仅在用 HVM AMI 启动的实例上可用。
* 此为默认值,是可用于该实例类型的最大 vCPU 数量。您可以在启动此实例类型时指定自定义数量的 vCPU。有关有效 vCPU 数量以及如何开始使用此功能的更多详细信息,请单击此处访问“优化 CPU”文档页面。
*** 标有“最高”网络带宽的实例具有基线带宽,并可以使用网络 I/O 积分机制尽可能地超出其基线带宽。有关更多信息,请参阅“实例网络带宽”。