发布于: Aug 2, 2019

从今天开始,AWS Batch 支持向您的 AWS Batch 作业(包括 Elastic Fabric Adapter (EFA))公开主机设备的功能,该功能使您能够使用 AWS Batch 的托管实例预置和调度运行高性能的分布式 HPC 和机器学习工作负载。

EFA 是 Amazon EC2 实例的网络接口,使客户能够在 AWS 上大规模运行需要高级别节点间通信的应用程序。它的定制操作系统 (OS) 旁路硬件接口增强了实例间通信的性能,这对于扩展这些应用程序至关重要。借助 EFA,使用消息传递接口 (MPI) 的高性能计算 (HPC) 应用程序和使用 NVIDIA 多节点协同通信库 (NCCL) 的 Machine Learning (ML) 应用程序可以扩展到数千个 CPU 或 GPU。因此,您可以通过 AWS 云的按需弹性和灵活性获得本地 HPC 集群的应用程序性能。

AWS Batch 是一个原生云调度程序,用于管理实例预置和作业调度。AWS Batch 会根据作业规范、使用适当的置放群组、网络配置以及任何用户指定的文件系统自动预置实例。Batch 会自动设置 EFA 互连到它所启动的实例,客户可通过单个 API 参数指定这些实例。

要了解有关使用 EFA 和向 AWS Batch 公开主机设备的更多信息,请访问文档。