Produk›
Machine Learning›
AWS Inferentia

AWS Inferentia

Dapatkan performa tinggi dengan biaya terendah di Amazon EC2 untuk inferensi AI generatif dan deep learning

Mulai menggunakan akselerator AWS Inferentia dengan AWS Neuron

Mengapa AWS Inferentia?

Akselerator AWS Inferentia didesain oleh AWS untuk memberikan performa tinggi dengan biaya terendah di Amazon EC2 untuk aplikasi inferensi deep learning (DL) dan AI generatif Anda.

Akselerator AWS Inferentia generasi pertama mendukung instans Inf1 Amazon Elastic Compute Cloud (Amazon EC2), yang menghasilkan throughput hingga 2,3x lebih tinggi dan biaya per inferensi hingga 70% lebih rendah dibandingkan instans Amazon EC2 yang sebanding. Banyak pelanggan, termasuk Airbnb, Snap, Sprinklr, Money Forward, dan Amazon Alexa, telah mengadopsi instans Inf1 serta mendapatkan manfaatnya dari sisi performa dan biaya.

Akselerator AWS Inferentia2 memberikan throughput hingga 4x lebih tinggi dan latensi hingga 10x lebih rendah dibandingkan Inferentia. Instans Inf2 Amazon EC2 berbasis Inferentia2 dioptimalkan untuk melakukan deployment model yang semakin kompleks, seperti model bahasa besar (LLM) dan model difusi laten, dalam skala besar. Instans Inf2 merupakan instans pertama yang dioptimalkan inferensi di Amazon EC2 untuk mendukung inferensi terdistribusi penskalaan ke luar dengan konektivitas berkecepatan sangat tinggi di antara akselerator. Banyak pelanggan, termasuk Leonardo.ai, Deutsche Telekom, serta Qualtrics telah mengadopsi instans Inf2 untuk aplikasi DL dan AI generatif mereka.

SDK AWS Neuron membantu developer melakukan deployment model pada akselerator AWS Inferentia (dan melatihnya di akselerator AWS Trainium). SDK AWS Neuron berintegrasi secara native dengan kerangka kerja yang populer, seperti PyTorch dan TensorFlow, sehingga Anda dapat terus menggunakan kode dan alur kerja yang ada serta berjalan di akselerator Inferentia.

Manfaat Inferentia

Dioptimalkan untuk throughput tinggi dan latensi rendah

Tiap akselerator Inferentia generasi pertama memiliki empat NeuronCore generasi pertama dengan hingga 16 akselerator Inferentia per instans Inf1 EC2. Tiap akselerator Inferentia2 memiliki dua NeuronCore generasi kedua dengan hingga 12 akselerator Inferentia2 per instans Inf2 EC2. Tiap-tiap akselerator Inferentia2 mendukung performa FP16 hingga 190 tera operasi floating per detik (TFLOPS). Inferentia generasi pertama memiliki 8 GB memori DDR4 per akselerator dan dilengkapi dengan memori dalam chip yang berukuran besar. Inferentia2 menawarkan 32 GB HBM per akselerator, yang meningkatkan total memori 4x lebih besar dan bandwidth memori 10x lebih besar dibandingkan Inferentia.

Dukungan native untuk kerangka kerja ML

AWS Neuron SDK secara native berintegrasi dengan kerangka kerja ML populer, seperti PyTorch dan TensorFlow. Dengan AWS Neuron, Anda dapat menggunakan kerangka kerja ini untuk melakukan deployment model DL secara optimal pada kedua akselerator AWS Inferentia, dan Neuron dirancang untuk meminimalkan perubahan kode serta keterkaitan dengan solusi khusus vendor. Neuron membantu Anda menjalankan aplikasi inferensi untuk pemrosesan/pemahaman bahasa alami (NLP), terjemahan bahasa, peringkasan teks, pembuatan video dan gambar, pengenalan ucapan, personalisasi, deteksi penipuan, serta banyak lagi di akselerator Inferentia.

Beragam tipe data dengan casting otomatis

Inferentia generasi pertama mendukung tipe data FP16, BF16, dan INT8. Inferentia2 memberikan dukungan tambahan untuk tipe data FP32, TF32, dan FP8 baru yang dapat dikonfigurasi (cFP8) agar developer lebih fleksibel dalam mengoptimalkan performa dan akurasi. AWS Neuron mengambil model FP32 yang memiliki presisi tinggi dan secara otomatis mengubahnya menjadi tipe data dengan presisi lebih rendah sambil mengoptimalkan akurasi dan performa. Autocasting mengurangi waktu masuk pasar dengan menghapus kebutuhan untuk pelatihan ulang presisi rendah.

Kemampuan DL yang mutakhir

Inferentia2 menambahkan optimisasi perangkat keras untuk ukuran input yang dinamis dan operator kustom yang ditulis dalam C++. Inferentia2 juga mendukung pembulatan stokastik, suatu cara pembulatan secara probabilistik yang memungkinkan performa tinggi dan akurasi yang lebih tinggi dibandingkan mode pembulatan yang lama.

Dibangun untuk keberlanjutan

Instans Inf2 menawarkan performa/watt hingga 50% lebih baik daripada instans Amazon EC2 yang sebanding karena instans Inf2 tersebut dan akselerator Inferentia2 yang mendasarinya dibuat secara khusus untuk menjalankan model DL dalam skala besar. Instans Inf2 membantu Anda mencapai tujuan keberlanjutan saat melakukan deployment model yang sangat besar.

Video

Tayangan di balik layar Infrastruktur AI Generatif di Amazon

Memperkenalkan instans Inf2 Amazon EC2 yang ditenagai oleh AWS Inferentia2

Cara empat pelanggan AWS mengurangi biaya ML dan mendorong inovasi dengan AWS Inferentia

Sumber daya

Sempurnakan dan deploy model Llama 2 secara hemat biaya di Amazon SageMaker JumpStart dengan AWS Inferentia dan AWS Trainium

Sempurnakan Llama 2 menggunakan QLoRA dan Deploy di Amazon SageMaker dengan AWS Inferentia2

Maksimalkan performa Stable Diffusion dan kurangi biaya inferensi dengan AWS Inferentia2

Capai performa tinggi dengan biaya terendah untuk inferensi AI generatif menggunakan AWS Inferentia2 dan AWS Trainium di Amazon SageMaker

ByteDance menghemat hingga 60% biaya inferensi sekaligus mengurangi latensi dan meningkatkan throughput menggunakan AWS Inferentia

Cara Amazon Search mengurangi biaya inferensi ML hingga 85% dengan AWS Inferentia

Additional resources

Gunakan AWS Neuron dan mulai gunakan AWS Inferentia dari dalam TensorFlow, PyTorch, atau MXNet

Pelajari selengkapnya

Additional resources

Peta fitur AWS Neuron

Pelajari selengkapnya

Mulai menggunakan Inferentia

Mulai membangun di konsol

Tutorial/Sampel Inferensi (Inf2/Trn1)

Pelajari selengkapnya