Lewati ke Konten Utama

Chip AI AWS

AWS Inferentia

Dapatkan performa tinggi dengan biaya terendah di Amazon EC2 untuk inferensi AI generatif dan deep learning

Mengapa Inferentia?

Chip AWS Inferentia didesain oleh AWS untuk memberikan performa tinggi dengan biaya terendah di Amazon EC2 untuk aplikasi inferensi AI generatif dan deep learning (DL) Anda. 

Chip AWS Inferentia generasi pertama mendukung instans Inf1 Amazon Elastic Compute Cloud (Amazon EC2), yang menghasilkan throughput hingga 2,3x lebih tinggi dan biaya per inferensi hingga 70% lebih rendah dibandingkan instans Amazon EC2 yang sebanding. Banyak pelanggan, termasuk Finch AI, Sprinklr, Money Forward, dan Amazon Alexa, telah mengadopsi instans Inf1 serta mendapatkan keuntungannya dari sisi performa dan biaya.

Chip AWS Inferentia2 memberikan throughput hingga 4x lebih tinggi dan latensi hingga 10x lebih rendah dibandingkan Inferentia. Instans Inf2 Amazon EC2 berbasis Inferentia2 dioptimalkan untuk melakukan deployment model yang makin kompleks, seperti model bahasa besar (LLM) dan model difusi laten, dalam skala besar. Instans Inf2 merupakan instans pertama yang dioptimalkan untuk inferensi di Amazon EC2 untuk mendukung inferensi penambahan skala terdistribusi dengan konektivitas berkecepatan sangat tinggi di antara chip. Banyak pelanggan, termasuk Leonardo.ai, Deutsche Telekom, serta Qualtrics telah mengadopsi instans Inf2 untuk aplikasi DL dan AI generatif mereka. 

AWS Neuron SDK membantu developer melakukan deployment model pada chip AWS Inferentia (dan melatihnya pada chip AWS Trainium). AWS Neuron SDK berintegrasi secara native dengan kerangka kerja yang populer, seperti PyTorch dan TensorFlow, sehingga Anda dapat terus menggunakan kode dan alur kerja yang ada serta menjalankannya di chip Inferentia.

Manfaat AWS Inferentia

Setiap chip Inferentia generasi pertama memiliki empat NeuronCores generasi pertama, dan setiap instans Inf1 EC2 memiliki hingga 16 chip Inferentia. Setiap chip Inferentia2 memiliki dua NeuronCores generasi kedua, dan setiap instans Inf2 EC2 memiliki hingga 12 chip Inferentia2. Setiap chip Inferentia2 mendukung hingga 190 tera operasi floating per detik (TFLOPS) performa FP16. Inferentia generasi pertama memiliki 8 GB memori DDR4 per chip dan dilengkapi dengan memori dalam chip yang berukuran besar. Inferentia2 menawarkan 32 GB HBM per chip, yang meningkatkan total memori 4x lebih besar dan bandwidth memori 10x lebih besar dibandingkan Inferentia.

AWS Neuron SDK secara native berintegrasi dengan kerangka kerja ML populer, seperti PyTorch dan TensorFlow. Dengan AWS Neuron, Anda dapat menggunakan kerangka kerja ini untuk melakukan deployment model DL secara optimal pada kedua chip AWS Inferentia, dan Neuron dirancang untuk meminimalkan perubahan kode serta keterkaitan dengan solusi khusus vendor. Neuron membantu Anda menjalankan aplikasi inferensi untuk pemahaman/pemrosesan bahasa alami (NLP), penerjemahan bahasa, peringkasan teks, pembuatan video dan gambar, pengenalan ucapan, personalisasi, deteksi penipuan, serta banyak lagi di chip Inferentia.

Inferentia generasi pertama mendukung tipe data FP16, BF16, dan INT8. Inferentia2 memberikan dukungan tambahan untuk tipe data FP32, TF32, dan FP8 baru yang dapat dikonfigurasi (cFP8) agar developer lebih fleksibel dalam mengoptimalkan performa dan akurasi. AWS Neuron mengambil model FP32 yang memiliki presisi tinggi dan secara otomatis mengubahnya menjadi tipe data dengan presisi lebih rendah sambil mengoptimalkan akurasi dan performa. Autocasting mengurangi waktu masuk pasar dengan menghapus kebutuhan untuk pelatihan ulang presisi rendah.

Inferentia2 menambahkan optimisasi perangkat keras untuk ukuran input yang dinamis dan operator kustom yang ditulis dalam C++. Inferentia2 juga mendukung pembulatan stokastik, yakni suatu cara pembulatan secara probabilistik yang memungkinkan performa tinggi dan akurasi yang lebih tinggi dibandingkan mode pembulatan yang lama.

Instans Inf2 menawarkan performa/watt hingga 50% lebih baik daripada instans Amazon EC2 yang sebanding karena instans tersebut dan chip Inferentia2 yang mendasarinya dibuat secara khusus untuk menjalankan model DL dalam skala besar. Instans Inf2 membantu Anda mencapai tujuan keberlanjutan saat melakukan deployment model yang sangat besar.

Karakuri

Pelajari cara Karakuri menghadirkan AI berperforma tinggi sekaligus mengendalikan biaya menggunakan AWS Inferentia


Missing alt text value

Metagenomi



Pelajari cara Metagenomi mengurangi biaya desain protein skala besar hingga 56% menggunakan AWS Inferentia

Baca blog

NetoAI

Pelajari cara NetoAI mencapai latensi inferensi 300–600 ms menggunakan AWS Inferentia2

Missing alt text value

Tomofun

Pelajari cara Tomofun memangkas biaya deployment inferensi BLIP sebesar 83% dengan bermigrasi ke AWS Inferentia

Baca testimoni

SplashMusic



Pelajari cara SplashMusic mengurangi latensi inferensi
hingga 10x menggunakan AWS Inferentia

Missing alt text value

Leonardo.ai

Tim kami di Leonardo memanfaatkan AI generatif untuk memungkinkan para profesional dan penggemar kreatif menghasilkan aset visual dengan kualitas, kecepatan, dan konsistensi gaya yang tak tertandingi. Dengan memanfaatkan AWS Inferentia2, kami dapat mengurangi biaya sebesar 80%, tanpa mengorbankan performa, sehingga menyebabkan perubahan mendasar pada proposisi nilai yang dapat kami tawarkan kepada pelanggan, sehingga fitur-fitur tercanggih kami dapat tersedia dengan harga yang lebih terjangkau. Hal ini juga mengurangi kekhawatiran seputar biaya dan ketersediaan kapasitas untuk layanan AI tambahan kami, yang makin penting seiring dengan pertumbuhan dan peningkatan skala kami. Solusi ini adalah teknologi kunci yang memungkinkan kami untuk terus melampaui batasan hal-hal yang mungkin dicapai dengan AI generatif, sehingga membuka era baru kreativitas dan kekuatan ekspresif bagi pengguna kami.

Pete Werner, Head of AI, Leonardo.ai

Logo for Leonardo AI featuring a stylized portrait resembling Leonardo da Vinci with geometric accents and vibrant colors next to the text 'Leonardo AI'.

Qualtrics

Qualtrics mendesain dan mengembangkan perangkat lunak manajemen pengalaman.

Fokus kami di Qualtrics adalah membangun teknologi yang akan mengatasi kesenjangan pengalaman bagi pelanggan, karyawan, merek, dan produk. Untuk mencapainya, kami mengembangkan model DL multitugas dan multimodal yang kompleks untuk meluncurkan berbagai fitur baru, seperti klasifikasi teks, penandaan urutan, analisis diskursus, ekstraksi frasa kunci, ekstraksi topik, pembuatan klaster, dan pemahaman percakapan dari awal hingga akhir. Saat kami menggunakan model yang lebih kompleks ini dalam lebih banyak aplikasi, volume data tidak terstruktur akan meningkat, dan kami membutuhkan solusi yang dioptimalkan untuk inferensi dengan performa lebih baik yang dapat memenuhi tuntutan ini, seperti instans Inf2, untuk menghadirkan pengalaman terbaik bagi pelanggan kami. Kami sangat antusias dengan instans Inf2 yang baru karena selain memungkinkan kami mencapai throughput yang lebih tinggi sekaligus memangkas latensi secara signifikan, instans ini juga menghadirkan berbagai fitur seperti inferensi terdistribusi dan dukungan bentuk input dinamis yang disempurnakan, yang akan membantu kami menskalakan guna memenuhi kebutuhan deployment seiring dengan makin besar dan kompleksnya model kami.

Aaron Colak, Head of Core Machine Learning, Qualtrics

Qualtrics XM logo with stylized 'XM' in blue gradient on a white background.

Finch Computing

Finch Computing adalah perusahaan teknologi bahasa alami yang menyediakan aplikasi kecerdasan buatan untuk klien pemerintah, layanan keuangan, dan integrator data.

Untuk memenuhi kebutuhan pelanggan akan NLP waktu nyata, kami mengembangkan model DL mutakhir yang dapat melakukan penskalaan untuk beban kerja produksi besar. Kami harus menyediakan transaksi berlatensi rendah dan mencapai throughput tinggi untuk memproses umpan data global. Kami telah memigrasikan banyak beban kerja produksi ke instans Inf1 dan mampu memangkas biaya sebesar 80% melebihi GPU. Saat ini, kami sedang mengembangkan model yang lebih besar dan lebih kompleks yang memungkinkan pengartian yang lebih berwawasan dan lebih mendalam dari teks tertulis. Banyak pelanggan kami yang memerlukan akses ke wawasan ini secara waktu nyata, dan performa pada instans Inf2 akan membantu kami memberikan latensi yang lebih rendah serta throughput yang lebih tinggi daripada instans Inf1. Dengan peningkatan performa Inf2 dan fitur-fitur Inf2 baru, seperti dukungan untuk ukuran input dinamis, kami meningkatkan efisiensi biaya, meningkatkan pengalaman pelanggan dalam waktu nyata, dan membantu pelanggan mendapatkan wawasan baru dari data mereka.

Franz Weckesser, Chief Architect, Finch Computing

Logo of Finch AI featuring a stylized origami bird and the text 'FinchAI'.

Dataminr

Kami memberikan peringatan tentang berbagai jenis peristiwa di seluruh dunia dalam banyak bahasa, dalam berbagai format (gambar, video, audio, sensor teks, kombinasi dari semuanya) dari ratusan ribu sumber. Mengoptimalkan kecepatan dan biaya dengan skala sebesar itu merupakan hal yang krusial bagi bisnis kami. Dengan AWS Inferentia, kami telah menurunkan latensi model dan mencapai throughput hingga 9x lebih baik per dolar. Solusi ini membuat kami dapat meningkatkan akurasi model dan mengembangkan kemampuan platform kami dengan melakukan deployment model DL yang lebih canggih serta memproses volume data 5x lebih banyak, sekaligus menjaga biaya kami tetap terkendali.

Alex Jaimes, Chief Scientist dan Senior Vice President of AI, Dataminr

The logo for Dataminr, featuring the company name and a distinctive icon in blue.

Snap Inc.

Kami menggabungkan ML ke dalam banyak aspek Snapchat, dan mengeksplorasi inovasi di bidang ini merupakan prioritas utama. Setelah mendengar tentang Inferentia, kami mulai berkolaborasi dengan AWS untuk mengadopsi instans Inf1/Inferentia untuk membantu dalam deployment ML, termasuk dalam hal performa dan biaya. Kami memulai dengan model rekomendasi dan ingin mengadopsi lebih banyak model dengan instans Inf1 di masa mendatang.

Nima Khajehnouri, VP Engineering, Snap Inc.

The Snapchat logo, featuring a white ghost icon on a black background.

Sprinklr

Platform manajemen pengalaman pelanggan terpadu (Unified-CXM) berbasis AI milik Sprinklr memungkinkan perusahaan dapat mengumpulkan dan menerjemahkan umpan balik pelanggan waktu nyata di berbagai saluran menjadi wawasan yang dapat ditindaklanjuti—sehingga penyelesaian masalah lebih proaktif, pengembangan produk meningkat, pemasaran konten membaik, layanan pelanggan lebih baik, dan lebih banyak lagi. Dengan Inf1 Amazon EC2, kami dapat meningkatkan performa salah satu model NLP secara signifikan dan meningkatkan performa salah satu model penglihatan komputer kami. Kami ingin terus menggunakan Inf1 Amazon EC2 untuk melayani pelanggan global dengan lebih baik.

Vasant Srinivasan, Senior Vice President of Product Engineering, Sprinklr

The logo of Sprinklr, featuring a multicolored icon and text. Used for branding and visual identification.

Autodesk

Autodesk memajukan teknologi kognitif asisten virtual yang didukung oleh AI kami, Autodesk Virtual Agent (AVA), dengan menggunakan Inferentia. AVA menjawab lebih dari 100.000 pertanyaan pelanggan per bulan dengan menerapkan teknik pemahaman bahasa alami (NLU) dan DL untuk mengekstraksi konteks, tujuan, dan makna di balik setiap pertanyaan. Saat mencoba Inferentia, kami mampu meraih throughput 4,9x lebih tinggi daripada G4dn untuk model NLU, dan kami berharap dapat menjalankan lebih banyak beban kerja pada instans Inf1 berbasis Inferentia.

Binghui Ouyang, Sr. Data Scientist, Autodesk

The Autodesk logo in black text on a white background.

Screening Eagle Technologies

Penggunaan radar penembus tanah dan deteksi cacat visual biasanya menjadi wewenang surveyor ahli. Arsitektur berbasis layanan mikro AWS memungkinkan kami memproses video yang diambil oleh kendaraan inspeksi otomatis dan inspektur. Dengan memigrasikan model buatan kami dari instans berbasis GPU tradisional ke Inferentia, kami dapat mengurangi biaya sebesar 50%. Selain itu, kami dapat melihat peningkatan performa saat membandingkan waktu yang dibutuhkan instans ini dibandingkan instans GPU G4dn. Tim kami berharap dapat menjalankan lebih banyak beban kerja pada instans Inf1 berbasis Inferentia.

Jesús Hormigo, Chief of Cloud dan AI Officer, Screening Eagle Technologies

The Screening Eagle logo featuring a stylized eagle head with the words 'Screening Eagle' in teal.

NTT PC Communications Inc.

NTT PC Communications, penyedia layanan jaringan dan solusi komunikasi di Jepang, merupakan pemimpin telekomunikasi dalam hal produk inovatif baru di pasar teknologi informasi dan komunikasi.

NTT PC mengembangkan AnyMotion, sebuah layanan platform API analisis gerakan berdasarkan model ML estimasi postur yang canggih. Kami melakukan deployment platform AnyMotion di instans Inf1 Amazon EC2 menggunakan Amazon ECS untuk layanan orkestrasi kontainer yang terkelola sepenuhnya. Dengan melakukan deployment kontainer AnyMotion kami di Inf1 Amazon EC2, kami mendapatkan throughput 4,5x lebih tinggi, latensi inferensi 25% lebih rendah, dan biaya 90% lebih rendah dibandingkan instans EC2 berbasis GPU generasi saat ini. Hasil yang luar biasa ini akan membantu meningkatkan kualitas layanan AnyMotion dalam skala besar.

Toshiki Yanagisawa, Software Engineer, NTT PC Communications Inc.

The logo of NTTPC Communications, featuring stylized text and a circular emblem.

Anthem

Anthem adalah salah satu perusahaan penyedia jaminan kesehatan terkemuka di dalam negeri yang melayani kebutuhan layanan kesehatan lebih dari 40 juta anggota di puluhan negara bagian.

Pasar platform kesehatan digital berkembang sangat pesat. Mengumpulkan wawasan di pasar ini menjadi pekerjaan yang cukup berat karena banyaknya data opini pelanggan dan sifatnya yang tidak terstruktur. Aplikasi kami mengotomatiskan pembuatan wawasan yang dapat ditindaklanjuti dari opini pelanggan melalui model bahasa alami DL (Transformer). Aplikasi kami secara komputasional bersifat intensif dan perlu dilakukan deployment tingkat tinggi. Kami melakukan deployment beban kerja inferensi DL ke instans Inf1 Amazon EC2 yang didukung prosesor AWS Inferentia secara lancar. Instans Inf1 baru memberikan throughput 2x lebih tinggi dibandingkan instans berbasis GPU sehingga kami dapat menyederhanakan beban kerja inferensi.

Numan Laanait dan Miro Mihaylov, PhD, Principal AI/Data Scientist, Anthem

The Anthem logo featuring the word 'Anthem' alongside stylized blue cross and blue shield symbols.

Video