AWS Neuron memperkenalkan dukungan untuk Trainium2 dan NxD Inference

Dikirim di: 23 Des 2024

Hari ini, AWS mengumumkan rilis Neuron 2.21, memperkenalkan dukungan untuk chip AWS Trainium2 dan instans Amazon EC2 Trn2, termasuk jenis instans trn2.48xlarge dan Trn2 UltraServer. Rilis ini juga menambahkan dukungan untuk PyTorch 2.5 dan memperkenalkan NxD Inference dan Neuron Profiler 2.0 (beta). NxD Inference, adalah perpustakaan berbasis PyTorch baru yang terintegrasi dengan vLLM, menyederhanakan deployment model bahasa dan multimodalitas besar dan memungkinkan orientasi model PyTorch dengan perubahan kode minimal, dan Neuron Profiler 2.0 (beta), adalah profiler baru yang meningkatkan kemampuan dan kegunaan, termasuk dukungan untuk beban kerja terdistribusi.

Neuron 2.21 juga memperkenalkan dukungan inferensi model Llama 3.1 405B menggunakan NxD Inference pada satu instans trn2.48xlarge. Rilis ini memperbarui Deep Learning Containers (DLC) dan Deep Learning AMI (DLAMIS), dan menambahkan dukungan untuk berbagai arsitektur model, termasuk model Llama 3.2, Llama 3.3, dan Mixture-of-Experts (MoE). Fitur inferensi baru termasuk kuantisasi bobot FP8 dan decoding flash untuk decoding spekulatif di Transformers NeuronX (TNx). Selain itu, contoh dan fitur pelatihan baru telah ditambahkan, seperti dukungan untuk HuggingFace Llama 3/3.1 70B pada instans Trn2 dan dukungan DPO untuk penyelarasan model pascapelatihan.

AWS Neuron SDK mendukung pelatihan dan deployment model pada instans Trn1, Trn2, dan Inf2, tersedia di AWS Region sebagai Instans Sesuai Permintaan, Instans Cadangan, Instans Spot, atau bagian dari Rencana Penghematan.

Untuk daftar lengkap fitur dan penyempurnaan baru di Neuron 2.21 dan untuk memulai dengan Neuron, lihat: