AWS Neuron 2.30.0 现已推出,包含 NKI 0.4.0 和 22 个新的 NKI Library 内核
今日,AWS 宣布正式发布 AWS Neuron 2.30.0,该版本推出 了NKI 0.4.0(带来全新 AWS Trainium3 专属硬件功能),新增了 22 个 NKI Library 内核,同时拓展了用于模型移植和验证的 Neuron Agentic Development 功能。此版本面向机器学习开发人员,可用于构建自定义内核、优化训练和推理工作负载或将模型移植到 AWS Trainium 和 Inferentia。
NKI 0.4.0 引入了用于 Trn3 的 activate2 标量引擎指令、针对矩阵乘法的 OCP FP8 输入支持,以及字节感知型分块大小常量,大大简化了内核开发工作。NKI Library 新增 3 个核心内核,分别用于分段注意力、KV 并行预填充和 FP8 量化,同时新增 19 个实验性内核,覆盖上下文并行、MXFP8 训练、状态空间模型和融合优化器。AWS 现已提供针对 29 个内核的 PyTorch 参考实现。
Neuron Agentic Development 于 2026 年 4 月推出了测试版,本次新增两项功能:neuron-framework-autoport,用于将 HuggingFace 模型端到端移植到 NxD Inference;neuron-framework-equivalence,用于验证移植后模型的数值等价性。默认情况下,这两项功能现已包含在所有 Neuron DLAMI 和深度学习容器中。此版本还引入了用于 Kubernetes 动态资源分配的 Neuron DRA 驱动程序,并支持 Trainium 加速器和 Elastic Fabric Adapter(EFA)接口的拓扑感知安排。Neuron Graph Compiler 现已实现显著的编译时间优化,并且 Neuron Runtime 默认启用主机-设备零拷贝数据传输。
AWS Neuron 已在提供 Amazon EC2 Trn1、Trn2、Inf2 和 Inf1 实例的所有 AWS 区域推出。有关区域可用性的更多信息,请参阅 AWS 区域表。
要开始使用,请参阅以下资源: