Fitur baru untuk AWS Neuron 2.24 mencakup PyTorch 2.7 dan peningkatan inferensi

Dikirim di: 2 Jul 2025


Hari ini, AWS mengumumkan ketersediaan umum Neuron 2.24, yang menghadirkan fitur-fitur baru dan peningkatan kinerja bagi pelanggan yang membangun dan menerapkan model deep learning pada instans berbasis AWS Inferentia dan Trainium. Neuron 2.24 memperkenalkan dukungan untuk PyTorch 2.7, kemampuan inferensi yang ditingkatkan, dan kompatibilitas yang diperluas dengan kerangka kerja machine learning yang populer. Pembaruan ini membantu pengembang dan ilmuwan data mempercepat pelatihan model dan inferensi, meningkatkan efisiensi, dan menyederhanakan deployment model bahasa besar dan beban kerja AI lainnya.

Dengan Neuron 2.24, pelanggan dapat memanfaatkan fitur-fitur inferensi tingkat lanjut, seperti prefiks caching untuk Time-To-First-Token (TTFT) yang lebih cepat, inferensi terurai untuk mengurangi gangguan pra-pengisian-dekode, dan paralelisme konteks untuk peningkatan kinerja pada sekuens yang panjang. Rilis ini juga menghadirkan dukungan untuk model teks Qwen 2.5 dan peningkatan integrasi dengan Hugging Face Optimum Neuron dan backend NxD Core berbasis PyTorch.

Neuron 2.24 tersedia di semua AWS Region tempat instans Inferentia dan Trainium ditawarkan.

Untuk mempelajari lebih lanjut dan melihat daftar lengkap fitur dan peningkatan baru, lihat: