AWS Neuron 推出了 Flash Attention 内核，可以实现高性能和大序列长度

发布于: 2024年7月11日

今天，AWS 宣布推出 Neuron 2.19，引入了对 Flash Attention 内核的支持，使大序列长度的 LLM 模型训练和推理变得高效。

AWS Neuron 是基于 AWS Inferentia 和 Trainium 的实例的 SDK，专为生成式人工智能而构建。Neuron 与 PyTorch 等热门 ML 框架集成。Neuron 包括编译器、运行时、工具和库，用于支持在 Trn1 实例和 Inf2 实例上对 AI 模型进行高性能训练和推理。

该版本针对训练和推理增加了新的功能和性能改进，并为 PyTorch 2.1 和 PyTorch 1.13 添加了新的 Ubuntu 22 Neuron DLAMI。Neuron 2.19 增加了对 Flash Attention 内核的支持，以支持大序列长度（大于或等于 8K）的训练、Llama3 模型训练和交错流水线并行，从而提高训练效率和资源利用率。在推理方面，此版本增加了 Flash Attention 内核支持，支持对高达 32k 长度的上下文进行 LLM 推理。此外，Neuron 2.19 增加了对 Llama3 模型推理的支持，还增加了对使用 Mistral-7B-v0.2 模型进行持续批处理的测试版支持。Neuron 2.19 推出了新工具：EKS 中的神经元节点问题检测与恢复插件以及 Neuron Monitor for EKS，可在 Kubernetes 中实现增强的 Neuron 指标监控。

您可以使用 AWS Neuron SDK 在 Trn1 和 Inf2 实例上训练和部署模型，这些实例在 AWS 区域以按需型实例、预留实例和竞价型实例的形式提供，或者作为节省计划的一部分提供。

要获取 Neuron 2.19 的功能列表，请访问 Neuron 发行说明。要开始使用 Neuron，请参阅：
AWS Neuron
Inf2 实例
 Trn1 实例

AWS Neuron 推出了 Flash Attention 内核，可以实现高性能和大序列长度

了解

资源

开发人员

帮助