AWS Neuron

SDK untuk mengoptimalkan machine learning di akselerator AWS Trainium dan AWS Inferentia

AWS Neuron adalah SDK dengan sebuah pengompilasi, runtime, dan alat pembuat profil yang memungkinkan akselerasi deep learning (DL) dengan performa tinggi dan hemat biaya. AWS Neuron mendukung pelatihan performa tinggi di instans Trn1 Amazon Elastic Compute Cloud (Amazon EC2) berbasis AWS Trainium. Untuk deployment model, AWS Neuron mendukung inferensi performa tinggi dan latensi rendah di instans Inf1 Amazon EC2 berbasis AWS Inferentia dan instans Inf2 Amazon EC2 berbasis AWS Inferentia2. Dengan Neuron, Anda dapat menggunakan kerangka kerja populer, seperti TensorFlow dan PyTorch, serta melatih dan melakukan deployment model machine learning (ML) secara optimal pada instans Trn1, Inf1, dan Inf2 Amazon EC2. Neuron juga didesain untuk meminimalkan perubahan kode dan terikat dengan solusi khusus vendor.

Manfaat

Bangun dengan dukungan native untuk kerangka kerja dan pustaka ML

SDK AWS Neuron, yang mendukung akselerator Inferentia dan Trainium, terintegrasi secara native dengan PyTorch dan TensorFlow. Integrasi ini memastikan bahwa Anda dapat terus menggunakan alur kerja yang ada dalam kerangka kerja populer ini dan mulai menggunakan hanya dengan beberapa baris perubahan kode. Untuk pelatihan model yang terdistribusi, SDK Neuron mendukung pustaka, seperti Megatron-LM dan PyTorch Fully Sharded Data Parallel (FSDP).

Optimalkan performa untuk pelatihan dan inferensi

SDK AWS Neuron memungkinkan pemrograman dan akses waktu aktif yang efisien ke akselerator Trainium dan Inferentia. SDK AWS Neuron ini mendukung beragam tipe data, mode pembulatan baru, alur kontrol, dan operator khusus, untuk membantu Anda memilih konfigurasi optimal bagi beban kerja DL Anda. Untuk pelatihan yang terdistribusi, Neuron memungkinkan penggunaan Trn1 UltraClusters yang efisien dengan dukungan kuat untuk operasi komputasi kolektif pada jaringan Elastic Fabric Adapter (EFA).

Dapatkan debugging dan pemantauan yang ditingkatkan

Neuron menawarkan kompilasi tepat waktu (JIT) untuk mempercepat alur kerja developer. Neuron menawarkan alat debugging dan pembuatan profil dengan dukungan plugin TensorBoard. Neuron mendukung mode debug yang intensif, yang dapat Anda gunakan untuk dengan mudah melangkah melewati kode dan mengevaluasi operator satu demi satu. Anda dapat menggunakan alat bantu Neuron untuk membantu Anda mengikuti praktik terbaik untuk optimasi orientasi dan performa model. Neuron juga menyertakan alat yang memberikan wawasan performa dan pemanfaatan.

Integrasikan dengan layanan AWS lainnya secara mudah

AMI Deep Learning AWS dan Kontainer Deep Learning AWS hadir dalam bentuk sudah terkonfigurasi sebelumnya dengan AWS Neuron. Jika Anda menggunakan aplikasi terkontainer, Anda dapat melakukan deployment Neuron dengan menggunakan Amazon Elastic Container Service (Amazon ECS), Amazon Elastic Kubernetes Service (Amazon EKS), atau mesin kontainer native pilihan Anda. Neuron juga mendukung Amazon SageMaker, tempat para ilmuwan data dan developer dapat membangun, melatih, dan melakukan deployment model ML.

Fitur

Partisi cerdas


Untuk meningkatkan performa secara keseluruhan, AWS Neuron secara otomatis mengoptimalkan komputasi neural-net untuk menjalankan tugas intensif komputasi pada akselerator Trainium dan Inferentia serta tugas lainnya di CPU.

Beragam tipe data ML


AWS Neuron mendukung FP32, TF32, BF16, FP16, INT8, dan FP8 baru yang dapat dikonfigurasi. Penggunaan tipe data yang tepat untuk beban kerja Anda dapat membantu mengoptimalkan performa sekaligus memenuhi target akurasi.

Autocasting FP32


AWS Neuron menggunakan model FP32 yang sangat presisi dan mengubahnya menjadi tipe data dengan tingkat presisi lebih rendah, sambil mengoptimalkan akurasi dan performa. Autocasting mengurangi waktu masuk pasar dengan menghilangkan kebutuhan untuk pelatihan ulang dengan tingkat presisi yang lebih rendah.

Dukungan native untuk pembulatan stokastik

AWS Neuron memungkinkan pembulatan stokastik yang dipercepat perangkat keras. Pembulatan stokastik memungkinkan pelatihan pada kecepatan BF16, dengan akurasi hampir FP32 saat autocasting dari FP32 ke BF16.

NeuronCore Pipeline


NeuronCore Pipeline memungkinkan paralelisme model throughput tinggi untuk aplikasi yang sensitif terhadap latensi, seperti pemrosesan bahasa alami. Pipeline tersebut melakukan tugas ini dengan membuat serpihan grafik komputasi di beberapa NeuronCores, caching parameter model di memori dalam prosesor masing-masing inti. Beban kerja pelatihan dan inferensi lalu dialirkan ke seluruh inti melalui pipeline.

Operasi komunikasi kolektif

AWS Neuron mendukung berbagai komunikasi kolektif dan operasi komputasi secara paralel pada perangkat keras khusus. Cara ini menghasilkan latensi yang lebih rendah dan performa yang lebih tinggi secara keseluruhan pada beban kerja terdistribusi.

Operator khusus


AWS Neuron mendukung operator khusus. Anda dapat menulis operator kustom baru dalam C++ dan Neuron akan menjalankannya pada inti single instruction, multiple data (SIMD) inline Trainium dan Inferentia2.

Mode debug yang intensif


AWS Neuron mendukung mode debug yang intensif, yang dapat Anda gunakan untuk menelusuri kode dengan mudah dan mengevaluasi operator satu per satu.

Cara kerja

Akselerator machine learning AWS

Akselerator AWS Trainium

AWS Trainium adalah akselerator pelatihan ML yang dibuat khusus oleh AWS untuk pelatihan DL performa tinggi dan rendah biaya. Setiap akselerator AWS Trainium memiliki dua NeuronCore generasi kedua dan mendukung tipe data FP32, TF32, BF16, FP16, dan INT8, serta FP8 yang dapat dikonfigurasi (cFP8), yang memungkinkan Anda mencapai keseimbangan sempurna antara rentang dan presisi. Untuk mendukung paralelisme data dan model yang efisien, setiap akselerator Trainium memiliki memori bandwidth tinggi sebesar 32 GB, menghasilkan daya komputasi FP16/BF16 hingga 210 TFLOPS, dan dilengkapi NeuronLink, sebuah teknologi interkoneksi intra-instans dengan kecepatan yang sangat tinggi dan tanpa blok.

Pelajari selengkapnya »

Akselerator AWS Inferentia

AWS Inferentia dan AWS Inferentia2 merupakan akselerator inferensi machine learning yang dirancang dan dibangun oleh AWS untuk menghasilkan inferensi performa tinggi dan rendah biaya. Setiap akselerator AWS Inferentia memiliki empat NeuronCore generasi pertama dan mendukung tipe data FP16, BF16, serta INT8. Setiap akselerator AWS Inferentia2 memiliki dua NeuronCore generasi kedua dan menambahkan dukungan untuk tipe data FP32, TF32, dan FP8 baru yang dapat dikonfigurasi (cFP8).

Pelajari selengkapnya »

Instans ML Amazon EC2

Instans Trn1 Amazon EC2

Instans Trn1 Amazon EC2, yang didukung oleh akselerator AWS Trainium, dibuat khusus untuk pelatihan DL performa tinggi. Instans ini menawarkan penghematan biaya pelatihan hingga 50% dibandingkan instans Amazon EC2 yang setara. Instans Trn1 dilengkapi hingga 16 akselerator AWS Trainium dan mendukung bandwidth jaringan Elastic Fabric Adapter (EFA) generasi kedua hingga 1600 Gbps (Trn1n).

Pelajari selengkapnya »

Instans Inf2 Amazon EC2

Instans Inf2 Amazon EC2 didukung oleh hingga 12 akselerator AWS Inferentia2 dan menghasilkan throughput lebih tinggi hingga 4x lipat serta latensi lebih rendah hingga 10x lipat dibandingkan dengan instans Inf1. Instans Inf2 merupakan instans teroptimalkan inferensi pertama di Amazon EC2 untuk mendukung inferensi terdistribusi keluar dengan konektivitas yang berkecepatan sangat tinggi di antara akselerator.

Pelajari selengkapnya »

Instans Inf1 Amazon EC2

Instans Inf1 Amazon EC2 didukung oleh hingga 16 akselerator AWS Inferentia. Instans ini menghasilkan throughput yang lebih tinggi hingga 2,3x lipat dan biaya per inferensi yang lebih rendah hingga 70% dibandingkan instans Amazon EC2 yang setara.

Pelajari selengkapnya »

Memulai

Lihat dokumentasi untuk tutorial, panduan praktis, catatan aplikasi, dan panduan (roadmap).

Untuk bantuan lebih lanjut, kunjungi forum developer, yang juga tersedia melalui Konsol Manajemen AWS.