AWS Neuron 推出 Flash Attention 核心,可實現高效能和大型序列長度
今天,AWS 宣布推出 Neuron 2.19,引入對 Flash Attention 核心的支援,以便使用大型序列長度進行高效能的 LLM 模型訓練和推論。
AWS Neuron 是 AWS Inferentia 和 Trainium 執行個體的軟體開發套件,專為生成式 AI 打造。Neuron 與 PyTorch 等流行的 ML 架構整合。Neuron 包括編譯器、執行時期、工具和程式庫,以支援在 Trn1 和 Inf2 執行個體上進行的高效能 AI 模型訓練和推論。
此版本為訓練和推論都新增了新功能和效能提升,並為 PyTorch 2.1 和 PyTorch 1.13 推出新的 Ubuntu 22 Neuron DLAMI。Neuron 2.19 新增對 Flash Attention 核心的支援,能實現大型序列長度 (大於或等於 8K) 的訓練、Llama3 模型訓練和交錯管道平行處理,以提升訓練效率和資源利用率。針對推論,此版本新增 Flash Attention 核心支援,以實現高達 32k 內容長度的 LLM 推論。Neuron 2.19 還新增對 Llama3 模型推論的支援,並新增對 Mistral-7B-v0.2 模型連續批次處理的 Beta 支援。Neuron 2.19 引入新工具:EKS 中的 Neuron 節點問題偵測器和復原外掛程式,以及適用於 EKS 的 Neuron 監控器,以增強 Kubernetes 中的 Neuron 指標監控。
您可以使用 AWS Neuron SDK 在 Trn1 和 Inf2 執行個體上訓練和部署模型,這些執行個體在 AWS 區域中以隨需執行個體、預留執行個體、Spot 執行個體或 Savings Plan 的一部分提供。
如需 Neuron 2.19 中功能的清單,請瀏覽 Neuron 版本備註。若要開始使用 Neuron,請參閱:
AWS Neuron
Inf2 執行個體
Trn1 執行個體