AWS Inferentia

Performa tinggi dengan biaya terendah di Amazon EC2 untuk inferensi deep learning

Akselerator AWS Inferentia didesain oleh AWS untuk memberikan performa tinggi dengan biaya terendah untuk aplikasi inferensi deep learning (DL) Anda. 

Akselerator AWS Inferentia generasi pertama mendukung instans Inf1 Amazon Elastic Compute Cloud (Amazon EC2), yang memberikan throughput hingga 2,3x lebih tinggi dan biaya per inferensi hingga 70% lebih rendah daripada instans Amazon EC2 yang sebanding. Banyak pelanggan, termasuk Airbnb, Snap, Sprinklr, Money Forward, dan Amazon Alexa, telah mengadopsi instans Inf1 serta mendapatkan manfaatnya dari sisi performa dan biaya.

Akselerator AWS Inferentia2 menghasilkan peningkatan besar pada performa dan kemampuan melebihi AWS Inferentia generasi pertama. Inferentia2 memberikan throughput hingga 4x lebih tinggi dan latensi hingga 10x lebih rendah dibandingkan Inferentia. Instans Inf2 Amazon EC2 berbasis Inferentia2 didesain untuk memberikan performa tinggi dengan harga terendah di Amazon EC2 untuk aplikasi inferensi DL dan kecerdasan buatan (AI) generatif Anda. Instans ini dioptimalkan untuk melakukan deployment model yang kian hari makin kompleks, seperti model bahasa besar (LLM) dan transformator visi, dalam skala besar. Instans Inf2 merupakan instans pertama yang dioptimalkan inferensi di Amazon EC2 untuk mendukung inferensi terdistribusi penskalaan ke luar dengan konektivitas berkecepatan sangat tinggi di antara akselerator. Anda kini dapat melakukan deployment model secara efisien dan hemat biaya dengan ratusan miliar parameter di beberapa akselerator pada instans Inf2.

AWS Neuron merupakan SDK yang membantu developer melakukan deployment model pada kedua akselerator AWS Inferentia dan menjalankan aplikasi inferensi Anda untuk pemahaman bahasa alami (NLU)/pemrosesan bahasa alami (NLP), penerjemahan bahasa, peringkasan teks, pembuatan video dan gambar, pengenalan suara, personalisasi, deteksi kecurangan, serta masih banyak lagi. AWS Neuron secara native berintegrasi dengan kerangka kerja machine learning (ML) populer, seperti PyTorch dan TensorFlow, sehingga Anda dapat terus menggunakan kode dan alur kerja yang ada serta beroperasi di akselerator Inferentia.

Amazon Alexa mengadopsi AWS Inferentia untuk menghemat biaya Inferensi ML

Keuntungan

Performa dan throughput tinggi

Tiap-tiap akselerator Inferentia generasi pertama memiliki empat NeuronCore generasi pertama dengan hingga 16 akselerator Inferentia per instans Inf1 EC2. Tiap-tiap akselerator Inferentia2 memiliki dua NeuronCore generasi kedua dengan hingga 12 akselerator Inferentia2 per instans Inf2 EC2. Inferentia2 menawarkan throughput hingga 4x lebih tinggi dan performa komputasi 3x lebih tinggi daripada Inferentia. Tiap-tiap akselerator Inferentia2 mendukung performa FP16 hingga 190 tera operasi floating per detik (TFLOPS).

Latensi rendah dengan memori bandwidth yang tinggi

Inferentia generasi pertama memiliki 8 GB memori DDR4 per akselerator dan dilengkapi dengan memori dalam chip yang berukuran besar. Inferentia2 menawarkan 32 GB HBM per akselerator, yang meningkatkan total memori 4x lebih besar dan bandwidth memori 10x lebih besar dibandingkan Inferentia.

Dukungan native untuk kerangka kerja ML

AWS Neuron SDK secara native berintegrasi dengan kerangka kerja ML populer, seperti PyTorch dan TensorFlow. Dengan AWS Neuron, Anda dapat menggunakan kerangka kerja ini untuk melakukan deployment model DL secara optimal pada kedua akselerator AWS Inferentia dengan sedikit perubahan kode dan tanpa harus terikat dengan solusi khusus vendor.

Beragam tipe data dengan casting otomatis

Inferentia generasi pertama mendukung tipe data FP16, BF16, dan INT8. Inferentia2 memberikan dukungan tambahan untuk tipe data FP32, TF32, dan FP8 baru yang dapat dikonfigurasi (cFP8) agar developer lebih fleksibel dalam mengoptimalkan performa dan akurasi. AWS Neuron mengambil model FP32 yang memiliki presisi tinggi dan secara otomatis mengubahnya menjadi tipe data dengan presisi lebih rendah sambil mengoptimalkan akurasi dan performa. Autocasting mengurangi waktu masuk pasar dengan menghapus kebutuhan untuk pelatihan ulang presisi rendah.

Kemampuan DL yang mutakhir


Inferentia2 menambahkan optimisasi perangkat keras untuk ukuran input yang dinamis dan operator kustom yang ditulis dalam C++. Inferentia2 juga mendukung pembulatan stokastik, suatu cara pembulatan secara probabilistik yang memungkinkan performa tinggi dan akurasi yang lebih tinggi dibandingkan mode pembulatan yang lama.

Dibangun untuk keberlanjutan


Instans Inf2 menawarkan performa/watt hingga 50% lebih baik daripada instans Amazon EC2 yang sebanding karena instans Inf2 tersebut dan akselerator Inferentia2 yang mendasarinya dibuat secara khusus untuk menjalankan model DL dalam skala besar. Instans Inf2 membantu Anda mencapai tujuan keberlanjutan saat melakukan deployment model yang sangat besar.

SDK AWS Neuron

AWS Neuron merupakan SDK yang membantu developer melakukan deployment model pada kedua akselerator AWS Inferentia dan melatihnya pada akselerator AWS Trainium. AWS Neuron secara native berintegrasi dengan kerangka kerja ML populer, seperti PyTorch dan TensorFlow, sehingga Anda dapat terus menggunakan alur kerja yang ada serta beroperasi di akselerator Inferentia dengan hanya beberapa baris kode.

Pelajari selengkapnya » 

AWS Trainium

AWS Trainium merupakan akselerator pelatihan DL yang didesain oleh AWS, yang memberikan pelatihan DL performa tinggi dan hemat biaya di AWS. Instans Trn1 Amazon EC2 yang didukung oleh AWS Trainium memberikan performa tertinggi pada pelatihan DL untuk NLP yang populer di AWS. Instans Trn1 menawarkan penghematan biaya pelatihan hingga 50% dibandingkan instans Amazon EC2 lainnya yang sebanding.

Pelajari selengkapnya » 

Testimoni pelanggan

Qualtrics

Qualtrics mendesain dan mengembangkan perangkat lunak manajemen pengalaman.

“Fokus kami di Qualtrics adalah membangun teknologi yang akan mengatasi kesenjangan pengalaman bagi pelanggan, karyawan, merek, dan produk. Untuk mencapainya, kami mengembangkan model DL multitugas dan multimodal yang kompleks untuk meluncurkan berbagai fitur baru, seperti klasifikasi teks, penandaan urutan, analisis diskursus, ekstraksi frasa kunci, ekstraksi topik, pembuatan klaster, dan pemahaman percakapan ujung ke ujung. Saat kami menggunakan model yang lebih kompleks ini dalam lebih banyak aplikasi, volume data tidak terstruktur akan meningkat, dan kami membutuhkan lebih banyak solusi yang dioptimalkan dengan inferensi yang dapat memenuhi tuntutan ini, seperti instans Inf2, untuk menghadirkan pengalaman terbaik bagi pelanggan kami. Kami sangat senang dengan instans Inf2 yang baru karena selain memungkinkan kami mencapai throughput yang lebih tinggi sekaligus memangkas latensi secara signifikan, instans ini juga menghadirkan berbagai fitur seperti inferensi terdistribusi dan dukungan bentuk input dinamis yang disempurnakan yang akan membantu kami menskalakan guna memenuhi kebutuhan deployment seiring dengan makin besar dan kompleksnya model kami.”

Aaron Colak, Head of Core Machine Learning, Qualtrics
Print

Finch Computing adalah perusahaan teknologi bahasa alami yang menyediakan aplikasi kecerdasan buatan untuk klien pemerintah, layanan keuangan, dan integrator data.

“Untuk memenuhi kebutuhan pelanggan akan NLP waktu nyata, kami mengembangkan model DL mutakhir yang dapat melakukan penskalaan untuk beban kerja produksi besar. Kami harus menyediakan transaksi berlatensi rendah dan mencapai throughput tinggi untuk memproses umpan data global. Kami telah memigrasikan banyak beban kerja produksi ke instans Inf1 dan mampu memangkas biaya sebesar 80% melebihi GPU. Saat ini, kami sedang mengembangkan model yang lebih besar dan lebih kompleks yang memungkinkan pengartian yang lebih berwawasan dan lebih mendalam dari teks tertulis. Banyak pelanggan kami yang memerlukan akses ke wawasan ini secara waktu nyata, dan performa pada instans Inf2 akan membantu kami memberikan latensi yang lebih rendah serta throughput yang lebih tinggi daripada instans Inf1. Dengan peningkatan performa Inf2 dan fitur Inf2 yang baru, seperti dukungan untuk ukuran input dinamis, kami berhasil mengoptimalkan efisiensi biaya, meningkatkan pengalaman pelanggan waktu nyata, dan membantu pelanggan mendapatkan wawasan baru dari data mereka.”

Franz Weckesser, Chief Architect, Finch Computing
Finch Computing
“Kami menangkap berbagai jenis peristiwa di seluruh dunia dalam banyak bahasa, dalam berbagai format (gambar, video, audio, sensor teks, kombinasi dari semuanya) dari ratusan ribu sumber. Mengoptimalkan kecepatan dan biaya dengan skala sebesar itu merupakan hal yang krusial bagi bisnis kami. Dengan AWS Inferentia, kami telah menurunkan latensi model dan mencapai throughput hingga 9x lebih baik per dolar. Hal tersebut membuat kami dapat meningkatkan akurasi model dan mengembangkan kemampuan platform kami dengan melakukan deployment model DL yang lebih canggih serta memproses volume data 5x lebih banyak sekaligus menjaga biaya kami tetap terkendali.”

Alex Jaimes, Chief Scientist dan Senior Vice President of AI, Dataminr
airbnb-case-study

Didirikan pada tahun 2008, Airbnb yang berbasis di San Francisco adalah marketplace komunitas dengan lebih dari 4 juta tuan rumah yang telah melayani lebih dari 900 juta tamu di hampir setiap negara di seluruh dunia.

“Platform Dukungan Komunitas Airbnb memungkinkan pengalaman layanan yang cerdas, dapat diskalakan, dan luar biasa bagi komunitas kami yang terdiri dari jutaan tamu serta tuan rumah di seluruh dunia. Kami terus mencari cara untuk meningkatkan performa model NLP yang digunakan oleh aplikasi chatbot dukungan kami. Dengan instans Inf1 Amazon EC2 yang didukung oleh AWS Inferentia, kami langsung memperoleh peningkatan throughput sebesar 2x lipat dibandingkan instans berbasis GPU untuk model BERT berbasis PyTorch. Kami berharap dapat memanfaatkan instans Inf1 untuk model dan kasus penggunaan lainnya di masa mendatang.”

Bo Zeng, Engineering Manager, Airbnb
Snap Inc
“Kami menggabungkan ML ke dalam banyak aspek Snapchat, dan eksplorasi inovasi di bidang ini merupakan prioritas utama. Setelah mendengar tentang Inferentia, kami mulai berkolaborasi dengan AWS untuk mengadopsi instans Inf1/Inferentia untuk membantu dalam deployment ML, termasuk dalam hal performa dan biaya. Kami memulai dengan model rekomendasi dan ingin mengadopsi lebih banyak model dengan instans Inf1 di masa mendatang.”

Nima Khajehnouri, VP Engineering, Snap Inc.
Sprinklr
“Platform unified customer experience management (Unified-CXM) yang didorong AI milik Sprinklr memungkinkan perusahaan mengumpulkan dan menerjemahkan umpan balik pelanggan waktu nyata di berbagai saluran menjadi wawasan yang dapat ditindaklanjuti—yang kemudian menghasilkan resolusi masalah yang proaktif, pengembangan produk yang ditingkatkan, pemasaran konten yang lebih baik, layanan pelanggan yang lebih baik, dan lebih banyak lagi. Dengan Inf1 Amazon EC2, kami dapat meningkatkan performa salah satu model NLP secara signifikan dan meningkatkan performa salah satu model penglihatan komputer kami. Kami ingin terus menggunakan Inf1 Amazon EC2 untuk melayani pelanggan global dengan lebih baik.”

Vasant Srinivasan, Senior Vice President of Product Engineering, Sprinklr
Autodesk
“Autodesk memajukan teknologi kognitif asisten virtual yang didukung AI milik kami, Autodesk Virtual Agent (AVA), menggunakan Inferentia. AVA menjawab lebih dari 100.000 pertanyaan pelanggan per bulan dengan menerapkan teknik pemahaman bahasa alami (NLU) dan DL untuk mengekstraksi konteks, tujuan, dan makna di balik setiap pertanyaan. Saat mencoba Inferentia, kami mampu meraih throughput 4,9x lebih tinggi daripada G4dn untuk model NLU, dan kami berharap dapat menjalankan lebih banyak beban kerja pada instans Inf1 berbasis Inferentia.”

Binghui Ouyang, Sr. Data Scientist, Autodesk
Screening Eagle
“Penggunaan radar penembus tanah dan deteksi cacat visual biasanya menjadi wewenang surveyor ahli. Arsitektur berbasis layanan mikro AWS memungkinkan kami memproses video yang diambil oleh kendaraan inspeksi dan pemeriksa otomatis. Dengan memigrasikan model buatan kami dari instans berbasis GPU tradisional ke Inferentia, kami dapat mengurangi biaya sebesar 50%. Selain itu, kami dapat melihat peningkatan performa saat membandingkan waktu yang dibutuhkan instans ini dibandingkan instans GPU G4dn. Tim kami berharap dapat menjalankan lebih banyak beban kerja pada instans Inf1 berbasis Inferentia.”

Jesús Hormigo, Chief of Cloud dan AI Officer, Screening Eagle Technologies
NTT PC

NTT PC Communications, penyedia solusi layanan jaringan dan komunikasi di Jepang, merupakan pemimpin telekomunikasi dalam hal produk inovatif baru di pasar informasi dan teknologi komunikasi.

“NTT PC mengembangkan AnyMotion, sebuah layanan platform API analisis gerakan yang didasarkan pada model ML estimasi postur lanjutan. Kami melakukan deployment platform AnyMotion di instans Inf1 Amazon EC2 menggunakan Amazon ECS untuk layanan orkestrasi kontainer yang terkelola sepenuhnya. Dengan melakukan deployment kontainer AnyMotion kami di Inf1 Amazon EC2, kami mendapatkan throughput 4,5x lebih tinggi, latensi inferensi 25% lebih rendah, dan biaya 90% lebih rendah dibandingkan instans EC2 berbasis GPU generasi saat ini. Hasil yang luar biasa ini akan membantu meningkatkan kualitas layanan AnyMotion dalam skala besar.”

Toshiki Yanagisawa, Software Engineer, NTT PC Communications Inc.
Anthem

Anthem adalah salah satu perusahaan penyedia jaminan kesehatan yang terkemuka dalam negeri yang melayani kebutuhan layanan kesehatan lebih dari 40 juta anggota di puluhan negara bagian. 

“Pasar platform kesehatan digital berkembang sangat pesat. Mengumpulkan inteligensi di pasar ini menjadi tugas yang menantang karena banyaknya data opini pelanggan dan sifatnya yang tidak terstruktur. Aplikasi kami mengotomatiskan pembuatan wawasan yang dapat ditindaklanjuti dari opini pelanggan melalui model bahasa alami DL (Transformer). Aplikasi kami secara komputasional bersifat intensif dan perlu dilakukan deployment tingkat tinggi. Kami melakukan deployment beban kerja inferensi DL ke instans Inf1 Amazon EC2 yang didukung prosesor AWS Inferentia secara lancar. Instans Inf1 yang baru memberikan throughput 2x lebih tinggi dibandingkan instans berbasis GPU sehingga kami dapat menyederhanakan beban kerja inferensi.”

Numan Laanait dan Miro Mihaylov, PhD, Principal AI/Data Scientists, Anthem

 

Condé Nast
“Portofolio global Condé Nast mencakup lebih dari 20 merek media ternama, termasuk Wired, Vogue, dan Vanity Fair. Dalam beberapa minggu, tim kami dapat mengintegrasikan mesin rekomendasi dengan chip AWS Inferentia. Penggabungan ini memungkinkan beberapa optimalisasi runtima untuk model bahasa natural tercanggih di instans SageMaker Inf1. Karenanya, kami bisa menghemat biaya sebesar 72% jika dibandingkan dengan instans GPU yang sebelumnya dilakukan deployment.”

Paul Fryzel, Principal Engineer, AI Infrastructure, Condé Nast
Ciao
“Ciao tengah mengembangkan kamera keamanan konvensional menjadi kamera analisis kinerja tinggi yang setara dengan kemampuan mata manusia. Aplikasi kami mengedepankan pencegahan bencana, memantau kondisi lingkungan dengan solusi kamera kecerdasan buatan (AI) berbasis cloud untuk memperingatkan sebelum bencana terjadi. Peringatan ini memungkinkan reaksi awal terhadap situasi. Berdasarkan deteksi objek, kami juga dapat memberikan pengamatan dengan memperkirakan jumlah tamu yang masuk tanpa staf dari video di toko fisik. Ciao Camera secara komersial mengadopsi instans Inf1 berbasis AWS Inferentia dengan performa harga 40% lebih baik daripada G4dn dengan YOLOv4. Kami berharap akan ada lebih banyak dari layanan kami yang menggunakan Inf1 sehingga dapat memanfaatkan efisiensi biayanya yang signifikan.”

Shinji Matsumoto, Software Engineer, Ciao Inc.
欧文ベーシックロゴ(The Asahi Shimbun)
“Asahi Shimbun adalah salah satu surat kabar harian paling populer di Jepang. Media Lab, yang didirikan sebagai salah satu departemen perusahaan kami, memiliki misi untuk meneliti teknologi terkini, khususnya AI, dan menghubungkan teknologi-teknologi mutakhir untuk bisnis baru. Dengan peluncuran instans Inf1 Amazon EC2 berbasis AWS Inferentia di Tokyo, kami menguji aplikasi AI peringkasan teks berbasis PyTorch kami pada instans ini. Aplikasi ini memproses teks dalam jumlah besar dan menghasilkan berita utama dan kalimat ringkasan yang dilatih tentang artikel dari 30 tahun terakhir. Dengan Inferentia, kami berhasil menurunkan biaya menurut tingkat besaran dibandingkan instans berbasis CPU. Penghematan biaya yang signifikan ini memungkinkan kami melakukan deployment model paling kompleks dalam skala besar, yang sebelumnya tidak dapat kami lakukan karena kendala biaya yang besar.”

Hideaki Tamori, PhD, Senior Administrator, Media Lab, The Asahi Shimbun Company
CS Disco
“CS Disco menciptakan kembali teknologi hukum sebagai penyedia solusi AI yang terkemuka untuk penemuan elektronik yang dikembangkan oleh dan untuk para praktisi hukum. AI Disco mempercepat pekerjaan penyisiran data berukuran terabita yang begitu rumit, mempercepat waktu peninjauan, dan meningkatkan akurasi peninjauan dengan memanfaatkan model NLP kompleks, yang secara komputasional sangat mahal dan membutuhkan banyak biaya. Disco mendapati fakta bahwa instans Inf1 berbasis AWS Inferentia dapat mengurangi biaya inferensi AI Disco sekurang-kurangnya 35% dibandingkan instans GPU yang ada saat ini. Berkat pengalaman positif dengan instans Inf1 ini, CS Disco akan mempertimbangkan kemungkinan untuk bermigrasi ke Inferentia.”

Alan Lockett, Sr. Director of Research, CS Disco
Talroo
“Di Talroo, kami memberi para pelanggan sebuah platform yang didorong data yang memungkinkan mereka menarik banyak kandidat karyawan yang unik untuk kemudian dapat direkrut. Kami selalu menjajaki teknologi baru untuk memastikan bahwa kami menawarkan produk dan layanan yang terbaik kepada pelanggan. Dengan Inferentia, kami mengekstraksi wawasan dari korpus data teks untuk menyempurnakan teknologi cari-dan-cocokkan milik kami yang didukung oleh AI. Talroo memanfaatkan instans Inf1 Amazon EC2 untuk membuat model NLU throughput tinggi dengan SageMaker. Pengujian awal Talroo menunjukkan bahwa instans Inf1 Amazon EC2 memberikan latensi inferensi 40% lebih rendah dan throughput 2x lebih tinggi dibandingkan instans berbasis GPU G4dn. Berdasarkan hasil ini, Talroo ingin menggunakan instans Inf1 Amazon EC2 sebagai bagian dari infrastruktur AWS mereka.”

Janet Hu, Software Engineer, Talroo
DMP
“Digital Media Professionals (DMP) memvisualisasikan masa depan dengan platform ZIA™ berbasis AI. Teknologi klasifikasi penglihatan komputer efisien milik DMP digunakan untuk membangun wawasan mengenai data citra waktu nyata dalam jumlah besar, seperti observasi kondisi, pencegahan kejahatan, dan pencegahan kecelakaan. Kami mengetahui bahwa model segmentasi citra kami berjalan empat kali lebih cepat pada instans Inf1 berbasis AWS Inferentia dibandingkan instans G4 berbasis GPU. Karena throughput yang lebih tinggi dan biaya yang lebih rendah, Inferentia memungkinkan deployment beban kerja AI, seperti aplikasi untuk kamera dasbor mobil, dalam skala besar.”

Hiroyuki Umeda, Director & General Manager, Sales & Marketing Group, Digital Media Professionals
Hotpot.ai

Hotpot.ai memberdayakan non-desainer untuk membuat grafik yang menarik dan membantu desainer profesional mengotomatiskan tugas repetitif. 

“Kami begitu antusias untuk mencoba instans Inf1 berbasis AWS Inferentia karena ML adalah inti strategi kami. Kami mendapati bahwa instans Inf1 dapat dengan mudah diintegrasikan ke dalam pipeline penelitian dan pengembangan kami. Yang terpenting, kami amati peningkatan kinerjanya yang mengesankan dibandingkan dengan instans berbasis GPU G4dn. Dengan model pertama kami, instans Inf1 menghasilkan throughput sekitar 45% lebih tinggi dan menurunkan biaya per inferensi sebesar hampir 50%. Kami ingin bekerja sama dengan tim AWS guna memindahkan model lain dan mengalihkan sebagian besar infrastruktur inferensi ML ke AWS Inferentia.”

Clarence Hu, Founder, Hotpot.ai
SkyWatch
“SkyWatch memproses ratusan triliun piksel data observasi Bumi, yang diambil dari luar angkasa setiap harinya. Mengadopsi instans Inf1 baru berbasis AWS Inferentia menggunakan Amazon SageMaker untuk deteksi cloud secara waktu nyata dan menjadikan penilaian kualitas gambar cepat dan mudah. Semua itu hanya masalah mengganti jenis instans dalam konfigurasi penerapan kami. Dengan mengalihkan jenis instans ke Inf1 berbasis Inferentia, kami meningkatkan kinerja sebesar 40% dan menurunkan biaya sebesar 23% secara keseluruhan. Ini merupakan capaian yang luar biasa. Karena hal tersebut, kami berhasil menurunkan keseluruhan biaya operasional sambil terus memberikan citra satelit berkualitas tinggi kepada pelanggan, dengan overhead rekayasa minimal. Kami berharap dapat mengalihkan semua titik akhir inferensi dan proses ML batch untuk menggunakan instans Inf1 agar dapat lebih meningkatkan keandalan data dan pengalaman pelanggan kami.”

Adler Santos, Engineering Manager, SkyWatch
Money Forward, Inc.

Money Forward, Inc. melayani bisnis dan perorangan dengan platform keuangan yang terbuka dan adil. Sebagai bagian dari platform ini, HiTTO Inc., perusahaan dari grup Money Forward, menawarkan layanan chatbot AI yang menggunakan model NLP yang disesuaikan untuk menjawab beragam kebutuhan pelanggan korporat mereka.

“Memigrasikan layanan chatbot AI kami ke instans Inf1 Amazon EC2 sangatlah praktis. Kami menyelesaikan migrasi dalam waktu dua bulan dan meluncurkan layanan berskala besar pada instans Inf1 menggunakan Amazon ECS. Kami dapat mengurangi latensi inferensi sebesar 97% dan biaya inferensi lebih dari 50% (daripada instans berbasis GPU yang sebanding) dengan memberikan beberapa model per instans Inf1. Kami berharap dapat menjalankan lebih banyak beban kerja pada instans Inf1 berbasis Inferentia.”

Kento Adachi, Technical lead, CTO office, Money Forward Inc.

Layanan Amazon menggunakan AWS Inferentia

Amazon Advertising

Amazon Advertising membantu bisnis dari semua ukuran agar dapat terhubung dengan pelanggan di setiap tahap perjalanan belanja mereka. Jutaan iklan, termasuk teks dan citra, dimoderasi, diklasifikasikan, dan ditayangkan untuk pengalaman pelanggan yang optimal setiap hari.

“Untuk pemrosesan iklan teks, kami men-deploy model BERT berbasis PyTorch secara global pada instans Inf1 berbasis AWS Inferentia. Dengan pindah ke Inferentia dari GPU, kami dapat menurunkan biaya sebesar 69% dengan performa yang sebanding. Mengompilasi dan menguji model kami untuk AWS Inferentia membutuhkan waktu kurang dari tiga minggu. Dengan menggunakan Amazon SageMaker untuk men-deploy model kami ke instans Inf1 memastikan deployment kami dapat diskalakan dan mudah dikelola. Ketika saya pertama kali menganalisis model yang dikompilasi, performa dengan AWS Inferentia sangatlah mengesankan sampai-sampai saya harus menjalankan kembali tolok ukur untuk memastikan bahwa tidak ada kesalahan. Ke depannya, kami berencana untuk memigrasikan model pemrosesan iklan citra kami ke Inferentia. Kami mendapati bahwa tolok ukur menunjukkan latensi 30% lebih rendah dan penghematan biaya 71% daripada instans berbasis GPU yang sebanding untuk model ini.”

Yashal Kanungo, Applied Scientist, Amazon Advertising

Baca blog berita »
Alexa 8up logo
“Kecerdasan berbasis AI dan ML Amazon Alexa, yang didukung oleh AWS, saat ini tersedia di lebih dari 100 juta perangkat—dan kami berjanji untuk memastikan bahwa Alexa akan terus berkembang menjadi layanan yang lebih cerdas, lebih komunikatif, lebih proaktif, serta lebih menyenangkan. Untuk memenuhi janji itu, perlu penyempurnaan berkelanjutan dalam hal waktu respons dan biaya infrastruktur ML. Karena itulah kami sangat senang menggunakan Inf1 Amazon EC2 untuk menurunkan latensi inferensi dan biaya per inferensi pada teks-ke-ucapan Alexa. Dengan Inf1 Amazon EC2, kami akan mampu membuat layanan menjadi lebih baik bagi puluhan juta pelanggan yang menggunakan Alexa setiap bulannya.”

Tom Taylor, Senior Vice President, Amazon Alexa
 
“Kami terus berinovasi untuk lebih meningkatkan pengalaman pelanggan dan untuk menekan biaya infrastruktur. Memindahkan beban kerja penjawab pertanyaan (WBQA) berbasis web kami dari instans P3 berbasis GPU ke instans Inf1 berbasis AWS Inferentia tidak hanya membantu kami mengurangi biaya inferensi sebesar 60%, tetapi juga meningkatkan latensi ujung ke ujung sebesar lebih dari 40%, yang membantu meningkatkan pengalaman Tanya Jawab pelanggan dengan Alexa. Penggunaan Amazon SageMaker untuk model berbasis TensorFlow kami membuat proses peralihan ke instans Inf1 menjadi lebih praktis dan mudah dikelola. Kami kini menggunakan instans Inf1 secara global untuk menjalankan beban kerja WBQA ini dan mengoptimalkan performanya untuk AWS Inferentia guna menekan biaya dan mengurangi latensi secara maksimal.”

Eric Lind, Software Development Engineer, Alexa AI
Amazon Alexa
“Amazon Prime Video menggunakan model ML penglihatan komputer untuk menganalisis kualitas video peristiwa langsung guna memastikan pengalaman penonton yang optimal bagi anggota Prime Video. Kami melakukan deployment model ML klasifikasi gambar di instans Inf1 EC2 dan memperoleh 4x peningkatan dalam hal performa serta penghematan biaya hingga 40%. Kami kini ingin memanfaatkan penghematan biaya ini untuk berinovasi dan membangun model lanjutan yang dapat mendeteksi kecacatan yang lebih kompleks, seperti kesenjangan sinkronisasi antara file audio dan video, untuk menghadirkan pengalaman menonton yang lebih baik bagi anggota Prime Video.”

Victor Antonino, Solutions Architect, Amazon Prime Video
Amazon Alexa
“Amazon Rekognition adalah aplikasi analisis gambar dan video yang sederhana serta mudah, yang membantu pelanggan mengidentifikasi objek, manusia, teks, dan aktivitas. Amazon Rekognition memerlukan infrastruktur DL performa tinggi yang dapat menganalisis miliaran gambar dan video setiap harinya untuk pelanggan kami. Dengan instans Inf1 berbasis AWS Inferentia, pengoperasian model Amazon Rekognition, seperti klasifikasi objek, menghasilkan latensi 8x lebih rendah dan throughput 2x lipat jika dibandingkan dengan menjalankan model ini pada GPU. Berdasarkan hasil ini, kami memindahkan Amazon Rekognition ke Inf1 agar pelanggan kami dapat memperoleh hasil yang akurat dengan lebih cepat.”

Rajneesh Singh, Director, SW Engineering, Amazon Rekognition and Video

Video

AWS re:Invent 2019: Tonton Andy Jassy membahas tentang investasi silikon dan Inf1
AWS re:Invent 2019: Inferensi ML dengan Instans Inf1 Amazon EC2 baru, menampilkan Amazon Alexa
Turunkan Biaya Pengoperasian Aplikasi ML dengan Instans Inf1 Amazon EC2 Baru - AWS Online Tech Talks
Daftar akun gratis

Dapatkan akses instan ke AWS Tingkat Gratis. 

Daftar 
Mulai membangun di konsol

Mulai menggunakan ML di Konsol Manajemen AWS.

Masuk