Amazon SageMaker HyperPod 现在支持 G7e 和 r5d.16xlarge 实例
Amazon SageMaker HyperPod 现在支持 G7e 和 r5d.16xlarge 实例。SageMaker HyperPod 是一款专门构建的基础设施,用于大规模开发、训练和部署基础模型。它提供一个弹性的高性能环境,具备内置容错能力、自动化集群恢复能力和经过优化的分布式训练库,从而减少了管理大规模 AI/ML 基础设施的无差别繁重工作。
G7e 实例由 NVIDIA RTX PRO 6000 Blackwell 服务器版 GPU 提供支持,与 G6e 实例相比,其推理性能提升 2.3 倍,使您每秒能够处理更多请求,同时减少延迟。G7e 实例拥有共计高达 768 GB 的 GPU 内存,可让您部署更大的语言模型或在单个终端节点上运行多个模型。您可以使用这些实例来部署 LLM、代理式 AI、多模态生成式 AI 和物理 AI 模型。G7e 实例还非常适合经济高效的单节点微调或训练 NLP、计算机视觉和小型生成式 AI 模型,与 G6e 相比,TFLOP 提升高达 1.27 倍,GPU 到 GPU 带宽提升高达 4 倍。此外,HyperPod 现在还支持 r5d.16xlarge。r5d.16xlarge 实例提供 64 个 vCPU、512 GB 内存和 5 x 600 GB NVMe SSD 实例存储,由英特尔至强铂金 8000 系列处理器提供支持,持续全核睿频频率高达 3.1 GHz。此实例非常适合分布式训练数据预处理(尤其是使用 Ray 等框架)、大规模特征工程以及在运行 GPU 计算实例的同时运行内存密集型编排服务。
G7e 实例已在美国东部(弗吉尼亚州北部)、美国东部(俄亥俄州)、亚太地区(东京)和美国西部(俄勒冈州)推出,r5d.16xlarge 已在提供 Amazon SageMaker HyperPod 的所有区域推出。