AWS Neuron 推出了 Flash Attention 内核,可以实现高性能和大序列长度
今天,AWS 宣布推出 Neuron 2.19,引入了对 Flash Attention 内核的支持,使大序列长度的 LLM 模型训练和推理变得高效。
AWS Neuron 是基于 AWS Inferentia 和 Trainium 的实例的 SDK,专为生成式人工智能而构建。Neuron 与 PyTorch 等热门 ML 框架集成。Neuron 包括编译器、运行时、工具和库,用于支持在 Trn1 实例和 Inf2 实例上对 AI 模型进行高性能训练和推理。
该版本针对训练和推理增加了新的功能和性能改进,并为 PyTorch 2.1 和 PyTorch 1.13 添加了新的 Ubuntu 22 Neuron DLAMI。Neuron 2.19 增加了对 Flash Attention 内核的支持,以支持大序列长度(大于或等于 8K)的训练、Llama3 模型训练和交错流水线并行,从而提高训练效率和资源利用率。在推理方面,此版本增加了 Flash Attention 内核支持,支持对高达 32k 长度的上下文进行 LLM 推理。此外,Neuron 2.19 增加了对 Llama3 模型推理的支持,还增加了对使用 Mistral-7B-v0.2 模型进行持续批处理的测试版支持。Neuron 2.19 推出了新工具:EKS 中的神经元节点问题检测与恢复插件以及 Neuron Monitor for EKS,可在 Kubernetes 中实现增强的 Neuron 指标监控。
您可以使用 AWS Neuron SDK 在 Trn1 和 Inf2 实例上训练和部署模型,这些实例在 AWS 区域以按需型实例、预留实例和竞价型实例的形式提供,或者作为节省计划的一部分提供。
要获取 Neuron 2.19 的功能列表,请访问 Neuron 发行说明。要开始使用 Neuron,请参阅:
AWS Neuron
Inf2 实例
Trn1 实例