跳至主要内容

Amazon EC2

加速型计算 Amazon EC2 实例类型

使用更快的硬件增强功能操作

什么是加速计算型 EC2 实例类型?

加速型计算实例使用硬件加速器或协处理器来更高效地执行功能。例如,它们可以执行浮点数计算、图形处理或数据模式匹配。

Missing alt text value

实例类别

有一系列 EC2 实例类型可供选择,每种类型都提供计算、内存和存储的独特组合,为您的特定工作负载需求提供支持。

    通用实例可实现计算、内存和联网资源的平衡,可用于多种工作负载。这类实例适用于 Web 服务器、代码存储库、中小型数据库等应用程序。

    了解通用实例

    计算优化型实例非常适用于从高性能处理器获取的受计算限制的应用程序。计算型实例工作负载的一些示例包括批处理、媒体转码和专用游戏服务器。

    了解计算优化型实例

    内存优化型实例旨在提高可处理内存中大型数据集的工作负载的性能。例如,这类实例适用于内存数据库、数据分析和企业级应用程序。

    了解内存优化型实例

    存储优化型实例每秒可以向应用程序交付数以百万计的低延迟、随机 I/O 操作。该实例设计用于需要对本地存储上的大型数据集进行高速连续读写访问的工作负载。例如,它们适用于高吞吐量数据库、数据处理和数据流式传输。

    了解存储优化型实例

    高性能计算(HPC)实例为大规模运行 HPC 工作负载提供出色的性价比。HPC 实例特别适用于可从高性能处理器中受益的应用程序,如复杂模拟、深度学习和视觉效果渲染。

    了解 HPC 优化型实例

探索实例类型

正在加载
正在加载
正在加载
正在加载
正在加载

P6e - Instance

实例类型
GPU
vCPU
实例内存(GiB)
GPU 内存(GB)
网络带宽
GPUDirect RDMA
GPU 对等
实例存储(TB)
EBS 带宽(Gbps)
P6e-gb200.36xlarge*

4

144

960

740

1600

1800

22.5

60

*单实例规格仅供参考。
P6e-GB200 实例仅在超级服务器中可用,大小
从 36 个 GPU 到 72 个 GPU 不等。

由 NVIDIA GB200 NVL72 加速的 Amazon EC2 P6e-GB200 超级服务器可在 Amazon Elastic Compute Cloud(Amazon EC2)中提供极高性能的 GPU 人工智能训练和推理。

特点:

  • Grace Blackwell 超级芯片由基于 ARM 架构的 Grace CPU 提供支持,在一个 NVLink 域内配备多达 72 个 Blackwell GPU,可提供高达 360 千万亿次的 FP8 计算能力(不包含稀疏性)
  • 高达 13.4 TB 的高带宽内存(HBM3e)GPU 内存  
  • 支持 Adapter (EFAv4)和 NVIDIA GPUDirect 远程直接内存访问(RDMA)技术,可提供高达每秒 28.8 Tb 的网络带宽
  • 包含 NVIDIA NVSwitch 的 1800GB/s 的对等 GPU 通信

使用场景

  • P6e-GB200 超级服务器可加速前沿模型的训练和推理,包括万亿参数级别的混合专家模型和推理模型。
  • 代理式和生成式人工智能应用程序,包括问答、代码生成、视频和图像生成、语音识别等。

P6e - UltraServers

实例类型
GPU
vCPU
实例内存(GiB)
GPU 内存(GB)
网络带宽
GPUDirect RDMA
GPU 对等
实例存储(TB)
EBS 带宽(Gbps)
u-p6e-gb200x36

36

1296

8640

6660

14400

1800

202.5

540

u-p6e-gb200x72

72

2592

17280

13320

28800

1800

405

1080

P6

实例
GPU
vCPU
实例内存(TiB)
GPU 内存(GB)
网络带宽(Ibps))
GPUDirect RDMA
GPU 对等
实例存储(TB)
EBS 带宽(Gbps)
P6-b200.48xlarge

8

192

1432

3.2

1800

8 x 3.84

100

P6-b300.48xlarge

8

192

4

2144

6.4

1800

8 x 3.84

100

与 P5en 实例相比,由 NVIDIA Blackwell GPU 加速的 Amazon EC2 P6-B200 实例在人工智能训练和推理场景中的性能可提升高达 2 倍。

与 P6-B200 实例相比,由 NVIDIA Blackwell Ultra GPU 加速的 Amazon EC2 P6-300 实例提供高达 2 倍的网络带宽和 1.5 倍的 GPU 内存

P6-B200 特点:

  • 第 5 代 Intel Xeon 可扩展处理器(Emerald Rapids)
  • 8 个 NVIDIA Blackwell GPU
  • 高达 1440GB 的 HBM3e GPU 内存
  • 支持 Adapter (EFAv4)和 NVIDIA GPUDirect“远程直接内存访问”(RDMA)技术,可提供高达每秒 3.2 Tb 的网络带宽
  • 包含 NVIDIA NVSwitch 的 1800 GB/s 对等 GPU 通信

P6-B300 特点:

  • 第 5 代 Intel Xeon 可扩展处理器(Emerald Rapids)
  • 8 NVIDIA Blackwell Ultra GPUs
  • 高达 2144 GB 的 HBM3e GPU 内存
  • 高达 6.4 太比特/秒的网络带宽
  • 与 P6-B200 相比,有效 TFLOPS(FP4,非稀疏)提升高达 1.5 倍

P6 实例均具有如下规格:

应用场景

  • P6-B200 实例是训练和部署中大型前沿基础模型(如专家混合模型和高性能推理模型)的经济高效之选。
  • P6-B300 实例非常适合于使用复杂技术训练和部署大规模万亿级参数的基础模型(FM)和大型语言模型(LLM)。
  • 代理式和生成式人工智能应用程序,包括问答、代码生成、视频和图像生成、语音识别等
  • HPC 在药物发现、地震分析、天气预报和财务建模方面的大规模应用

P5

实例
GPU
vCPU
实例内存(TiB)
GPU 内存
网络带宽
GPUDirect RDMA
GPU 对等
实例存储(TB)
EBS 带宽(Gbps)
p5.4xlarge

1 H100

16

256 GiB

80 GB HBM3

100 Gbps EFA

否*

不适用*

3.84 NVMe SSD

10

p5.48xlarge

8 H100

192

640 GB HBM3

3200 Gbps EFAv2

900 GB/s NVSwitch

8 个 3.84 NVMe SSD

80

p5e.48xlarge
8 H200
192
2
1128 GB HBM3
3200 Gbps EFAv2
900 GB/s NVSwitch
8 个 3.84 NVMe SSD
80
p5en.48xlarge
8 H200
192
2
1128 GB HBM3
3200 Gbps EFAv3
900 GB/s NVSwitch
8 个 3.84 NVMe SSD
100

*P5.4xlarge 不支持 GPUDirect RDMA

Amazon EC2 P5 实例是基于 GPU 的实例,在 Amazon EC2 中为深度学习和高性能计算(HPC)提供最高性能支持。

特点:

  • 在 P5en 实例中,CPU 与 GPU 之间采用 Intel Sapphire Rapids CPU 和 PCIe Gen5;在 P5 和 P5e 实例中,CPU 与 GPU 之间采用第三代 AMD EPYC 处理器(AMD EPYC 7R13)和 PCIe Gen4。
  • 最多 8 个 NVIDIA H100(在 P5 中)或 H200(在 P5e 和 P5en 中)Tensor Core GPU  
  • 高达 3200 Gbps 网络带宽,支持 Elastic Fabric Adapter(EFA)和 NVIDIA GPUDirect RDMA(远程直接内存访问)
  • 包含 NVIDIA NVSwitch 的 900 GB/s 的对等 GPU 通信

P5 实例均具有如下规格:

应用场景

生成式人工智能应用程序,包括问答、代码生成、视频和图像生成、语音识别等。

HPC 在药物发现、地震分析、天气预报和财务建模方面的大规模应用。

P4

实例
GPU
vCPU
实例内存(GiB)
GPU 内存
网络带宽
GPUDirect RDMA
GPU 对等
实例存储 (GB)
EBS 带宽(Gbps)
p4d.24xlarge
8
96
1152
320 GB HBM2
400 ENA 和 EFA
600 GB/s NVSwitch
8 个 1000 NVMe SSD
19
p4de.24xlarge
8
96
1152
640 GB HBM2e
400 ENA 和 EFA
600 GB/s NVSwitch
8 个 1000 NVMe SSD
19

Amazon EC2 P4 实例为机器学习训练和云端高性能计算提供高性能。

  • 3.0 GHz 的第 2 代英特尔至强可扩展处理器(Cascade Lake P-8275CL)
  • 高达 8 NVIDIA A100 Tensor Core GPU
  • 400 Gbps 实例联网,支持 Elastic Fabric Adapter(EFA)和 NVIDIA GPUDirect RDMA(远程直接内存访问)
  • 包含 NVIDIA NVSwitch 的 600 GB/s 的对等 GPU 通信
  • 部署在由超过 4000 个 NVIDIA A100 Tensor Core GPU、PB 级网络和适用于 Lustre 的 Amazon FSx 提供的可扩展低延迟存储组成的 Amazon EC2 UltraClusters 中

P4d 实例均具有如下规格:

使用案例

机器学习、高性能计算、计算流体动力学、计算金融学、地震分析、语音识别、无人驾驶汽车和药物发现。

G7e

实例名称
GPU
vCPU
实例内存(GiB)
GPU 内存(GB)
网络带宽
GPUDirect RDMA
GPU 对等
实例存储(TB)
EBS 带宽(Gbps)
g7e.2xlarge

1

8

64

96

50


1.9 x 1

最高 5

g7e.4xlarge

1

16

128

96

50

1.9 x 1

8

g7e.8xlarge

1

32

256

96

100

1.9 x 1

16

g7e.12xlarge

2

48

512

192

400

是的,通过 PCIe

3.8 x 1

25

g7e.24xlarge

4

96

1024

384

800

是的,通过 PCIe

3.8 x 2

50

g7e.48xlarge

8

192

2048

768

1600

是的,通过 PCIe

3.8 x 4

100

Amazon EC2 G7e 实例旨在加速生成式人工智能推理和空间计算工作负载的处理。


特点

  • 最多 8 个 NVIDIA RTX PRO 6000 Blackwell 服务器版 GPU
  • 高达 768 GB 的 GPU 内存
  • 高达 1600 Gbps 的网络带宽
  • 高达 15.2 TB 的本地 NVMe 存储
  • 第 5 代 Intel Xeon 可扩展处理器(Emerald Rapids)处理器

应用场景

用于部署大型语言模型、多模态模型和物理人工智能模型的推理工作负载,以及包括 3D 模拟和数字孪生在内的空间计算工作负载。

G6e

实例名称
vCPU
内存(GiB)
NVIDIA L40S Tensor Core GPU
GPU 内存(GB)
网络带宽(Gbps)***
EBS 带宽(Gbps)
g6e.xlarge
4
32
1
48
最高 20
最高 5
g6e.2xlarge
8
64
1
48
最高 20
最高 5
g6e.4xlarge
16
128
1
48
20
8
g6e.8xlarge
32
256
1
48
25
16
g6e.16xlarge
64
512
1
48
35
20
g6e.12xlarge
48
384
4
192
100
20
g6e.24xlarge
96
768
4
192
200
30
g6e.48xlarge
192
1536
8
384
400
60

Amazon EC2 G6e 实例旨在加速深度学习推理和空间计算工作负载的处理。

特点:

  • 第 3 代 AMD EPYC 处理器(AMD EPYC 7R13)
  • 高达 8 个 NVIDIA L40S Tensor Core GPU
  • 高达 400 Gbps 的网络带宽
  • 高达 7.6TB 的本地 NVMe 存储

应用场景

用于图像、音频和视频生成的大型语言模型和传播模型的推理工作负载;中等复杂的生成式人工智能模型的单节点训练;3D 模拟、数字孪生和工业数字化。

G6 - Fractional-GPU vCPU:RAM 比率为 1:8 的 Gr6 实例

实例名称
vCPU
内存(GiB)
NVIDIA L4 Tensor Core GPU
GPU 内存(GB)
网络带宽(Gbps)***
EBS 带宽(Gbps)
gr6f.4xlarge

16

128

1/2

12

最高 25

8

G6 - Fractional-GPU G6 实例

实例名称
vCPU
内存(GiB)
NVIDIA L4 Tensor Core GPU
GPU 内存(GB)
网络带宽(Gbps)***
EBS 带宽(Gbps)
g6f.large

2

8

1/8

3

最高 10
最高 5
g6f.xlarge

4

16

1/8

3

最高 10
最高 5
g6f.2xlarge

8

32

1/4

6

最高 10

8 最高 5

g6f.4xlarge

16

64

1/2

12

最高 25

6

Amazon EC2 G6 实例旨在加速图形密集型应用程序和机器学习推理。

特点:

  • 第 3 代 AMD EPYC 处理器(AMD EPYC 7R13)
  • 高达 8 个 NVIDIA L4 Tensor Core GPU
  • 高达 100 Gbps 的网络带宽
  • 高达 7.52 TB 的本地 NVMe 存储

应用场景

部署 ML 模型,用于自然语言处理、语言翻译、视频和图像分析、语音识别、个性化以及图形工作负载,例如创建和渲染实时、电影质量的图形和游戏直播。

G6 - Single-GPU G6 实例

实例名称
vCPU
内存(GiB)
NVIDIA L4 Tensor Core GPU
GPU 内存(GB)
网络带宽(Gbps)***
EBS 带宽(Gbps)
g6.xlarge
4
16
1
24
最高 10
最高 5
g6.2xlarge
8
32
1
24
最高 10
最高 5
g6.4xlarge
16
64
1
24
最高 25
8
g6.8xlarge
32
128
1
24
25
16
g6.16xlarge
64
256
1
24
25
20

G6 - Single-GPU vCPU:RAM 比率为 1:8 的 Gr6 实例

实例名称
vCPU
内存(GiB)
NVIDIA L4 Tensor Core GPU
GPU 内存(GB)
网络带宽(Gbps)***
EBS 带宽(Gbps)
gr6.4xlarge

16

128

1
24

最高 25

8

gr6.8xlarge

32

256

1
24

25

16

G6 - Multi-GPU G6 实例

实例名称
vCPU
内存(GiB)
NVIDIA L4 Tensor Core GPU
GPU 内存(GB)
网络带宽(Gbps)***
EBS 带宽(Gbps)
g6.12xlarge
48
192
4
96
40
20
g6.24xlarge
96
384
4
96
50
30
g6.48xlarge

192

768

8

192

100

60

vCPU:RAM 比率为 1:8 的 Gr6 实例

实例名称
vCPU
内存(GiB)
NVIDIA L4 Tensor Core GPU
GPU 内存(GB)
网络带宽(Gbps)***
EBS 带宽(Gbps)
gr6.4xlarge
16
128
1
24
最高 25
8
gr6.8xlarge
32
256
1
24
25
16

Amazon EC2 G6 实例旨在加速图形密集型应用程序和机器学习推理。

特点:

  • 第 3 代 AMD EPYC 处理器(AMD EPYC 7R13)
  • 高达 8 个 NVIDIA L4 Tensor Core GPU
  • 高达 100 Gbps 的网络带宽
  • 高达 7.52 TB 的本地 NVMe 存储

应用场景

部署 ML 模型,用于自然语言处理、语言翻译、视频和图像分析、语音识别、个性化以及图形工作负载,例如创建和渲染实时、电影质量的图形和游戏直播。

G5g

实例名称
vCPU
内存(GiB)
NVIDIA T4G Tensor Core GPU
GPU 内存(GB)
网络带宽(Gbps)***
EBS 带宽(Gbps)
g5g.xlarge
4
8
1
16
最高 10
最高 3.5
g5g.2xlarge
8
16
1
16
最高 10
最高 3.5
g5g.4xlarge
16
32
1
16
最高 10
最高 3.5
g5g.8xlarge
32
64
1
16
12
9
g5g.16xlarge
64
128
2
32
25
19
g5g.metal
64
128
2
32
25
19

Amazon EC2 G5g 实例由 AWS Graviton2 处理器提供支持并搭载 NVIDIA T4G Tensor Core GPU,可为 Android 游戏流等图形工作负载提供 Amazon EC2 中的最佳性价比。它们是主要云中第一种具有 GPU 加速功能的基于 Arm 的实例。客户还可以使用 G5g 实例进行经济高效的推理。

特点:

  • 定制的 AWS Graviton2 处理器,搭载 64 位 Arm Neoverse 核心
  • 高达 2 个 NVIDIA T4G Tensor Core GPU
  • 高达 25 Gbps 联网带宽
  • 默认情况下已经过 EBS 优化
  • 由 AWS Nitro System(专用硬件和轻量级虚拟机监控程序的组合)提供支持

应用场景

Android 游戏流、机器学习推理、图形渲染、自动驾驶车辆模拟

G5

实例大小
GPU
GPU 内存(GB)
vCPU
内存(GiB)
实例存储(GB)
网络带宽(Gbps)***
EBS 带宽(Gbps)
g5.xlarge
1
24
4
16
1 个 250 NVMe SSD
最高 10
最高 3.5
g5.2xlarge
1
24
8
32
1 个 450 NVMe SSD
最高 10
最高 3.5
g5.4xlarge
1
24
16
64
1 个 600 NVMe SSD
最高 25
8
g5.8xlarge
1
24
32
128
1 个 900 NVMe SSD
25
16
g5.16xlarge
1
24
64
256
1 个 1900 NVMe SSD
25
16
g5.12xlarge
4
96
48
192
1 个 3800 NVMe SSD
40
16
g5.24xlarge
4
96
96
384
1 个 3800 NVMe SSD
50
19
g5.48xlarge
8
192
192
768
2 个 3800 NVME SSD
100
19

Amazon EC2 G5 实例旨在加速图形密集型应用程序和机器学习推理。它们还可以用于训练从简单到中等复杂程度的机器学习模型。

特点:

  • 第 2 代 AMD EPYC 处理器 (AMD EPYC 7R32)
  • 高达 8 NVIDIA A10G Tensor Core GPU
  • 高达 100 Gbps 的网络带宽
  • 高达 7.6TB 的本地 NVMe 存储

G5 实例均具有如下规格:

使用案例

图形密集型应用程序,例如远程工作站、视频渲染和云游戏,以实时生成高保真图形。机器学习应用场景(如自然语言处理、计算机视觉和推荐引擎应用场景)的训练和推理深度学习模型。

G4dn

实例
GPU
vCPU
内存(GiB)
GPU 内存(GB)
实例存储(GB)
网络性能(Gbps)***
EBS 带宽(Gbps)
g4dn.xlarge
1
4
16
16
1 个 125 NVMe SSD
最高 25
最高 3.5
g4dn.2xlarge
1
8
32
16
1 个 225 NVMe SSD
最高 25
最高 3.5
g4dn.4xlarge
1
16
64
16
1 个 225 NVMe SSD
最高 25
4.75
g4dn.8xlarge
1
32
128
16
1 个 900 NVMe SSD
50
9.5
g4dn.16xlarge
1
64
256
16
1 个 900 NVMe SSD
50
9.5
g4dn.12xlarge
4
48
192
64
1 个 900 NVMe SSD
50
9.5
g4dn.metal
8
96
384
128
2 个 900 NVMe SSD
100
19

Amazon EC2 G4dn 实例旨在帮助加速机器学习推理和图形密集型工作负载。

特点:

  • 第 2 代英特尔至强可扩展处理器(Cascade Lake P-8259CL)
  • 高达 8 NVIDIA T4 Tensor Core GPU
  • 高达 100Gbps 的联网吞吐量
  • 高达 1.8TB 的本地 NVMe 存储

所有实例均具有如下规格:

应用场景

用于将元数据添加到图像、对象检测、推荐系统、自动语音识别和语言翻译等应用程序的机器学习推理。G4 实例还为构建和运行图形密集型应用程序(例如远程图形工作站、视频转码、真实感设计和云中的游戏流媒体)提供了非常经济高效的平台。 

G4ad

实例
GPU
vCPU
内存(GiB)
GPU 内存(GB)
实例存储(GB)
网络带宽(Gbps)***
EBS 带宽(Gbps)
g4ad.xlarge
1
4
16
8
1 个 150 NVMe SSD
最高 10
最高 3
g4ad.2xlarge
1
8
32
8
1 个 300 NVMe SSD
最高 10
最高 3
g4ad.4xlarge
1
16
64
8
1 个 600 NVMe SSD
最高 10
最高 3
g4ad.8xlarge
2
32
128
16
1 个 1200 NVMe SSD
15
3
g4ad.16xlarge
4
64
256
32
1 个 2400 NVMe SSD
25
6

Amazon EC2 G4ad 实例为云中的图形密集型应用程序提供最佳性价比。

    特点:

    • 第 2 代 AMD EPYC 处理器 (AMD EPYC 7R32)
    • AMD Radeon Pro V520 GPU
    • 高达 2.4TB 的本地 NVMe 存储

    所有实例均具有如下规格:

    应用场景

    图形密集型应用程序,例如远程图形工作站、视频转码、真实感设计和云中的游戏流。

    Trn2

    实例大小
    在 EC2 UltraServer 中可用
    Trainium2 芯片
    加速器内存(TB)
    vCPU
    内存(TB)
    实例存储(TB)
    网络带宽(Tbps)***
    EBS 带宽(Gbps)
    trn2.48xlarge
    16
    1.5
    192
    2
    4 x 1.92 NVMe SSD
    3.2
    80
    trn2u.48xlarge
    (预览版)
    16
    1.5
    192
    2
    4 x 1.92 NVMe SSD
    3.2
    80

    由 AWS Trainium2 芯片提供支持的 Amazon EC2 Trn2 实例专为具有数千亿到数万亿以上参数的模型的高性能生成式人工智能训练和推理而构建。

    特点:

    • 16 个 AWS Trainium2 芯片
    • 由 AWS Neuron SDK 提供支持
    • 第 4 代英特尔至强可扩展处理器(Sapphire Rapids 8488C)
    • 高达 12.8 Tbps 的第三代 Elastic Fabric Adapter(EFA)联网带宽
    • 高达 8TB 的本地 NVMe 存储
    • 使用 NeuronLink 的高带宽、实例内和实例间连接
    • 部署在 Amazon EC2 UltraClusters 中,并可在 EC2 UltraServer(提供预览版)中使用
    • Amazon EBS 优化
    • 增强型联网

    应用场景

    训练和推理要求最严苛的基础模型,包括大型语言模型(LLM)、多模态模型、扩散转换器等,以构建广泛的下一代生成式人工智能应用程序。

    Trn1

    实例大小
    Trainium 芯片
    加速器内存(GB)
    vCPU
    内存(GiB)
    实例存储(GB)
    网络带宽(Gbps)***
    EBS 带宽(Gbps)
    trn1.2xlarge
    1
    32
    8
    32
    1 个 500 NVMe SSD
    最高 12.5
    最高 20
    trn1.32xlarge
    16
    512
    128
    512
    4 x 2000 NVMe SSD
    800
    80
    trn1n.32xlarge
    16
    512
    128
    512
    4 x 2000 NVMe SSD
    1600
    80

    Amazon EC2 Trn1 实例由 AWS Trainium 芯片提供支持,专为高性能深度学习训练打造,与 Amazon EC2 实例相比,可节省高达 50% 的训练成本。

    特点:

    • 16 个 AWS Trainium 芯片
    • 由 AWS Neuron SDK 提供支持
    • 第三代 Intel Xeon 可扩展处理器(Ice Lake SP)
    • 高达 1600 Gbps 的第二代 Elastic Fabric Adapter(EFA)联网带宽
    • 高达 8TB 的本地 NVMe 存储
    • 使用 NeuronLink 的高带宽、实例内连接
    • 部署在可扩展至多达 30,000 个 AWS Trainium 加速器、与 PB 级非阻塞网络连接,并且可使用 Amazon FSx for Lustre 实现可扩展低延迟存储的 EC2 UltraClusters 中
    • Amazon EBS 优化
    • 增强型联网

    应用场景

    适用于自然语言处理(NLP)、计算机视觉、搜索、推荐、排名等的深度学习训练

    Inf2

    实例大小
    Inferentia2 芯片
    加速器内存(GB)
    vCPU
    内存(GiB)
    本地存储
    加速器间互连
    网络带宽(Gbps)
    EBS 带宽(Gbps)
    inf2.xlarge
    1
    32
    4
    16
    仅限 EBS
    NA
    最高 15
    最高 10
    inf2.8xlarge
    1
    32
    32
    128
    仅限 EBS
    NA
    最高 25
    10
    inf2.24xlarge
    6
    192
    96
    384
    仅限 EBS
    50
    30
    inf2.48xlarge
    12
    384
    192
    768
    仅限 EBS
    100
    60

    Amazon EC2 Inf2 实例专为深度学习推理而构建。它们在 Amazon EC2 中以最低的成本为生成式人工智能模型(包括大型语言模型和视觉转换器)提供高性能。Inf2 实例由 AWS Inferentia2 提供支持。与 Inf1 实例相比,这些新实例的计算性能提高了 3 倍,加速器内存提高了 4 倍,吞吐量提高了 4 倍,延迟降低了 10 倍

    特点:

    • 多达 12 个 AWS Inferentia2 芯片
    • 由 AWS Neuron SDK 提供支持
    • 双 AMD EPYC 处理器(AMD EPYC 7R13)
    • 高达 384GB 共享加速器内存(每个加速器 32GB HBM)
    • 高达 100Gbps 的网络速度

    应用场景

    自然语言理解(高级文本分析、文档分析、会话代理)、翻译、图像和视频生成、语音识别、个性化、欺诈检测等。

    Inf1

    实例大小
    Inferentia 芯片
    vCPU
    内存 (GiB)
    实例存储
    加速器间互连
    网络带宽(Gbps)***
    EBS 带宽
    inf1.xlarge
    1
    4
    8
    仅限 EBS
    不适用
    最高 25
    最高 4.75
    inf1.2xlarge
    1
    8
    16
    仅限 EBS
    不适用
    最高 25
    最高 4.75
    inf1.6xlarge
    4
    24
    48
    仅限 EBS
    25
    4.75
    inf1.24xlarge
    16
    96
    192
    仅限 EBS
    100
    19

    Amazon EC2 Inf1 实例从构建之初就以支持机器学习推理应用程序为目标。

    特点:

    • 最多 16 个 AWS Inferentia 芯片
    • 由 AWS Neuron SDK 提供支持
    • 高频第 2 代英特尔至强可扩展处理器(Cascade Lake P-8259L)
    • 高达 100Gbps 的网络速度

    应用场景

    推荐引擎、预测、图像和视频分析、高级文本分析、文档分析、语音、对话式代理、翻译、转录和欺诈检测。

    DL1

    实例大小
    vCPU
    Gaudi 加速器
    实例内存(GiB)
    实例存储(GB)
    加速器对等双向(Gbps)
    网络带宽(Gbps)
    EBS 带宽(Gbps)
    dl1.24xlarge

    96

    8

    768

    4 个 1000 NVMe SSD

    100

    400

    19

    Amazon EC2 DL1 实例由 Habana Labs(英特尔旗下公司)的 Gaudi 加速器提供支持。与当前一代基于 GPU 的 EC2 实例相比,这些实例为训练深度学习模型提供多达 40% 的性价比。

    特点:

    • 第 2 代英特尔至强可扩展处理器 (Cascade Lake P-8275CL)
    • 多达 8 个 Gaudi 加速器,每个加速器具有 32 GB 高带宽内存 (HBM)
    • 400 Gbps 的联网吞吐量
    • 4TB 的本地 NVMe 存储

    DL1 实例具有如下规格:

    应用场景

    深度学习训练、对象检测、图像识别、自然语言处理和推荐引擎。

    DL2q

    实例大小
    Qualcomm AI 100 加速器
    加速器内存(GB)
    vCPU
    内存(GiB)
    本地存储
    加速器间互连
    网络带宽(Gbps)
    EBS 带宽(Gbps)
    dl2q.24xlarge
    8
    128
    96
    768
    仅限 EBS
    100
    19

    Amazon EC2 DL2q 实例由 Qualcomm AI 100 加速器提供支持,可用于经济高效地在云中部署深度学习(DL)工作负载,或者验证将在 Qualcomm 设备上部署的 DL 工作负载的性能和准确性。

    特点:

    • 8 台 Qualcomm AI 100 加速器
    • 由 Qualcomm Cloud AI Platform 和 Apps SDK 提供支持
    • 第 2 代英特尔至强可扩展处理器(Cascade Lake P-8259CL)
    • 高达 128GB 的共享加速器内存  
    • 高达 100Gbps 的网络速度

    应用场景

    运行人的深度学习和生成式人工智能应用程序,例如内容生成、图像分析、文本摘要和虚拟助手。在将 AI 工作负载部署到智能手机、汽车、机器人和扩展现实耳机之前对其进行验证。

    F2

    实例名称
    FPGA
    vCPU
    FPGA 内存 HBM / DDR4
    实例内存(GiB)
    本地存储(GiB)
    网络带宽(Gbps)
    EBS 带宽(Gbps)
    f2.6xlarge
    1
    24
    16 GiB/ 64 GiB
    256
    1x 940
    12.5  
    7.5  
    f2.12xlarge
    2
    48
    32 GiB / 128 GiB
    512
    2x 940
    25  
    15  
    f2.48xlarge
    8
    192
    128 GiB / 512 GiB
    2048
    8x 940
    100  
    60  

    Amazon EC2 F2 实例能够通过现场可编程门阵列(FPGA)实现定制硬件加速。

    特点:

    • 多达 8 个 AMD Virtex UltraScale+ HBM VU47P FPGA,包含 290 万个逻辑单元和 9024 个 DSP 切片
    • 第三代 AMD EPYC 处理器
    • 64 GiB 的 DDR4 ECC 保护的 FPGA 内存
    • 专用 FPGA PCI-Express x16 接口
    • 高达 100 Gbps 的网络带宽

      应用场景

      基因组学研究、金融分析、实时视频处理、大数据搜索和分析以及安全性。

      VT1

      实例大小
      U30 加速器
      vCPU
      内存(GiB)
      网络带宽(Gbps)
      EBS 带宽(Gbps)
      1080p60 流
      4Kp60 流
      vt1.3xlarge

      1

      12

      24

      3.125

      最高 4.75

      8

      2

      vt1.6xlarge

      2

      24

      48

      6.25

      4.75

      16

      4

      vt1.24xlarge

      8

      96

      192

      25

      19

      64

      16

      Amazon EC2 VT1 实例旨在提供低成本实时视频转码,最高支持 4K UHD 分辨率。

      特点:

      • 第 2 代英特尔至强可扩展处理器 (Cascade Lake P-8259CL)
      • 最多 8 个 Xilinx U30 媒体加速器卡,具有加速的 H.264/AVC 和 H.265/HEVC 编解码器
      • 最高 25Gbps 的增强联网吞吐量
      • 最高 19Gbps 的 EBS 带宽

      所有实例均具有如下规格:

      应用场景

      现场活动广播、视频会议和实时转码。

      脚注

      † AVX、AVX2、AVX-512 和增强型联网仅在用 HVM AMI 启动的实例上可用。

      * 此为默认值,是可用于该实例类型的最大 vCPU 数量。您可以在启动此实例类型时指定自定义数量的 vCPU。有关有效 vCPU 数量以及如何开始使用此功能的更多详细信息,请单击此处访问“优化 CPU”文档页面。

      *** 标有“最高”网络带宽的实例具有基线带宽,并可以使用网络 I/O 积分机制尽可能地超出其基线带宽。有关更多信息,请参阅“实例网络带宽”。