AWS Neuron memperkenalkan NxD Inference GA, fitur baru, dan alat yang ditingkatkan

Dikirim di: 27 Mei 2025

Hari ini, AWS mengumumkan peluncuran Neuron 2.23, yang menampilkan penyempurnaan pada inferensi, kemampuan pelatihan, dan peralatan pengembang. Rilis ini memindahkan pustaka Inferensi NxD (NxDI) ke ketersediaan umum (GA), memperkenalkan kemampuan pelatihan baru termasuk Paralelisme Konteks dan ORPO, dan menambahkan dukungan untuk PyTorch 2.6 dan JAX 0.5.3.

Pustaka Inferensi NxD berpindah dari versi beta ke ketersediaan umum, sekarang direkomendasikan untuk semua kasus penggunaan inferensi multi-chip. Peningkatan utama meliputi dukungan Persistent Cache untuk mengurangi waktu kompilasi dan mengoptimalkan waktu pemuatan model.

Untuk beban kerja pelatihan, pustaka Pelatihan NxD memperkenalkan dukungan Paralelisme Konteks (beta) untuk model Llama, yang memungkinkan panjang urutan hingga 32K. Rilis ini menambahkan dukungan untuk penyelarasan model menggunakan ORPO dengan set data bergaya DPO, dukungan yang ditingkatkan untuk pustaka pihak ketiga, khususnya: PyTorch Lightning 2.5, Transformers 4.48, dan NeMo 2.1.

Antarmuka Kernel Neuron (NKI) memperkenalkan operasi integer 32-bit baru, fitur ISA yang ditingkatkan untuk Trainium2, dan API penyetelan kinerja baru. Neuron Profiler sekarang menawarkan tampilan hasil profil 5x lebih cepat, pelacakan kesalahan berbasis garis waktu, dan visualisasi multiproses yang ditingkatkan dengan Perfetto.

AWS Neuron SDK mendukung pelatihan dan deployment model pada instans Trn1, Trn2, dan Inf2, tersedia di AWS Region sebagai Instans Sesuai Permintaan, Instans Cadangan, Instans Spot, atau bagian dari Rencana Penghematan.

Untuk daftar lengkap fitur baru dan penyempurnaan di Neuron 2.23 dan untuk memulai dengan Neuron, lihat: