Instans Inf1 Amazon EC2

Inferensi machine learning performa tinggi dan berbiaya rendah

Bisnis di berbagai industri mencari transformasi yang didukung kecerdasan buatan (AI) untuk mendorong inovasi bisnis dan meningkatkan pengalaman pelanggan serta peningkatan proses. Model machine learning (ML) yang mendukung aplikasi AI menjadi makin kompleks, sehingga biaya infrastruktur komputasi dasar juga meningkat. Hingga 90% pengeluaran infrastruktur untuk mengembangkan dan menjalankan aplikasi ML sering kali dialokasikan pada inferensi. Pelanggan mencari solusi infrastruktur yang hemat biaya untuk melakukan deployment aplikasi ML mereka dalam produksi.

Instans Inf1 Amazon EC2 menghasilkan inferensi ML dengan performa tinggi dan biaya rendah. Instans ini menghasilkan throughput yang lebih tinggi hingga 2,3x lipat dan biaya per inferensi yang lebih rendah hingga 70% dibandingkan instans Amazon EC2 yang setara. Instans Inf1 dibangun dari awal untuk mendukung aplikasi inferensi ML. Instans ini menghadirkan hingga 16 chip AWS Inferentia, chip inferensi ML berperforma tinggi yang didesain dan dibuat oleh AWS. Selain itu, instans Inf1 menyertakan prosesor Intel Xeon Scalable Generasi Ke-2 dan jaringan hingga 100 Gbps untuk menghasilkan inferensi throughput yang tinggi.

Pelanggan dapat menggunakan instans Inf1 untuk menjalankan aplikasi inferensi ML skala besar seperti pencarian, mesin rekomendasi, penglihatan komputer, pengenalan ucapan, pemrosesan bahasa alami (NLP), personalisasi, dan deteksi kecurangan.

Developer dapat melakukan deployment model ML pada instans Inf1 menggunakan AWS Neuron SDK, yang terintegrasi dengan kerangka kerja ML populer seperti TensorFlow, PyTorch, dan Apache MXNet. Mereka dapat terus menggunakan alur kerja ML yang sama dan memigrasikan aplikasi ke instans Inf1 secara lancar dengan perubahan kode minimal serta tanpa terikat dengan solusi khusus vendor.

Mulai instans Inf1 secara mudah menggunakan Amazon SageMaker, AWS Deep Learning AMI (DLAMI) yang telah dikonfigurasikan sebelumnya dengan Neuron SDK, atau Amazon Elastic Container Service (Amazon ECS) atau Amazon Elastic Kubernetes Service (Amazon EKS) untuk aplikasi ML terkontainer.

Instans Inf1 Amazon EC2 (1:23)

Manfaat

Biaya per inferensi yang lebih rendah hingga 70%

Dengan Inf1, developer dapat mengurangi biaya deployment produksi ML mereka secara signifikan. Kombinasi biaya instans yang rendah dan throughput tinggi dari instans Inf1 menghasilkan biaya per inferensi yang lebih rendah hingga 70% dibandingkan instans Amazon EC2 yang setara.

Kemudahan penggunaan dan portabilitas kode

Neuron SDK terintegrasi dengan kerangka kerja ML umum seperti TensorFlow, PyTorch, dan MXNet. Developer dapat terus menggunakan alur kerja ML yang sama dan memigrasikan aplikasi mereka ke instans Inf1 secara lancar dengan perubahan kode minimal. Hal ini memberi mereka kebebasan untuk menggunakan kerangka kerja ML pilihan, platform komputasi yang paling memenuhi persyaratan, dan teknologi terbaru tanpa terikat dengan solusi khusus vendor.

Throughput yang lebih tinggi hingga 2,3x

Instans Inf1 menghasilkan throughput yang lebih tinggi hingga 2,3x dibandingkan instans Amazon EC2 yang setara. Chip AWS Inferentia yang mendukung instans Inf1 dioptimalkan untuk performa inferensi pada ukuran batch kecil, sehingga memungkinkan aplikasi waktu nyata memaksimalkan throughput dan memenuhi persyaratan latensi.

Latensi yang luar biasa rendah

Chip AWS Inferentia dilengkapi dengan memori dalam chip ukuran besar yang memungkinkan cache model ML secara langsung di chip tersebut. Anda dapat melakukan deployment model menggunakan kemampuan seperti NeuronCore Pipeline yang menghilangkan kebutuhan untuk mengakses sumber daya yang ada di luar memori. Dengan Instans Inf1, Anda dapat melakukan deployment aplikasi inferensi waktu nyata pada latensi hampir secara waktu nyata tanpa memengaruhi bandwidth.

Dukungan untuk berbagai model dan tipe data ML

Instans Inf1 mendukung berbagai arsitektur model ML yang umum digunakan seperti SSD, VGG, dan ResNext untuk pengenalan/klasifikasi gambar serta Transformer dan BERT untuk NLP. Selain itu, dukungan untuk repositori model HuggingFace di Neuron memberi pelanggan kemampuan untuk dengan mudah mengompilasi dan menjalankan inferensi menggunakan model yang dilatih sebelumnya atau model yang disetel hanya dengan mengubah satu baris kode. Beberapa tipe data termasuk BF16 dan FP16 dengan presisi campuran juga didukung untuk berbagai model serta kebutuhan performa.

Fitur

Didukung oleh AWS Inferentia

AWS Inferentia adalah chip ML yang dibuat oleh AWS untuk memberikan inferensi performa tinggi dengan biaya rendah. Setiap chip AWS Inferentia memiliki empat NeuronCore generasi pertama dan memberikan performa hingga 128 tera operasi per detik (TOPS), serta mendukung tipe data FP16, BF16, dan INT8. Chip AWS Inferentia juga memiliki sejumlah besar memori pada chip yang dapat digunakan untuk membuat cache model besar, yang khususnya bermanfaat bagi model yang sering memerlukan akses memori.

AWS Neuron SDK terdiri dari compiler, driver runtime, dan alat pembuatan profil. Hal ini memungkinkan deployment model jaringan neural kompleks, yang dibuat dan dilatih di kerangka kerja populer seperti TensorFlow, PyTorch, serta MXNet, yang akan dijalankan menggunakan instans Inf1. Dengan NeuronCore Pipeline, Anda dapat memecah model besar untuk dijalankan di beberapa chip Inferentia menggunakan interkoneksi chip ke chip fisik berkecepatan tinggi, sehingga memberikan throughput inferensi yang tinggi dan biaya inferensi yang lebih rendah.

Jaringan dan penyimpanan performa tinggi

Instans Inf1 menawarkan throughput jaringan hingga 100 Gbps untuk aplikasi yang memerlukan akses ke jaringan berkecepatan tinggi. Teknologi Adaptor Jaringan Elastis (ENA) dan NVM Express (NVMe) generasi berikutnya menyediakan instans Inf1 dengan antarmuka throughput tinggi dan latensi rendah untuk jaringan serta Amazon Elastic Block Store (Amazon EBS).

Dibangun di AWS Nitro System

AWS Nitro System adalah kumpulan komponen dasar yang melepaskan beban berbagai fungsi virtualisasi konvensional ke perangkat keras dan perangkat lunak khusus untuk memberikan performa tinggi, ketersediaan tinggi, dan keamanan tinggi sekaligus juga mengurangi biaya overhead virtualisasi.

Cara kerjanya

Cara menggunakan Inf1 dan AWS Inferentia

Testimoni pelanggan

airbnb-case-study

Didirikan pada tahun 2008, Airbnb yang berbasis di San Francisco adalah marketplace komunitas dengan lebih dari 4 juta tuan rumah yang telah melayani lebih dari 900 juta tamu di hampir setiap negara di seluruh dunia.

“Platform Dukungan Komunitas Airbnb memungkinkan pengalaman layanan yang cerdas, dapat diskalakan, dan luar biasa bagi komunitas kami yang terdiri dari jutaan tamu serta tuan rumah di seluruh dunia. Kami terus mencari cara untuk meningkatkan performa model NLP yang digunakan oleh aplikasi chatbot dukungan kami. Dengan instans Inf1 Amazon EC2 yang didukung oleh AWS Inferentia, kami langsung memperoleh peningkatan throughput sebesar 2x lipat dibandingkan instans berbasis GPU untuk model BERT berbasis PyTorch. Kami berharap dapat memanfaatkan instans Inf1 untuk model dan kasus penggunaan lainnya di masa mendatang.”

Bo Zeng, Engineering Manager, Airbnb
Snap Inc
“Kami menggabungkan ML ke dalam banyak aspek Snapchat, dan eksplorasi inovasi di bidang ini merupakan prioritas utama. Setelah mendengar tentang Inferentia, kami mulai berkolaborasi dengan AWS untuk mengadopsi instans Inf1/Inferentia untuk membantu dalam deployment ML, termasuk dalam hal performa dan biaya. Kami memulai dengan model rekomendasi dan ingin mengadopsi lebih banyak model dengan instans Inf1 di masa mendatang.”

Nima Khajehnouri, VP Engineering, Snap Inc.
Sprinklr
“Platform unified customer experience management (Unified-CXM) yang didorong AI milik Sprinklr memungkinkan perusahaan mengumpulkan dan menerjemahkan umpan balik pelanggan waktu nyata di berbagai saluran menjadi wawasan yang dapat ditindaklanjuti—yang kemudian menghasilkan resolusi masalah yang proaktif, pengembangan produk yang ditingkatkan, pemasaran konten yang lebih baik, layanan pelanggan yang lebih baik, dan lebih banyak lagi. Dengan Inf1 Amazon EC2, kami dapat meningkatkan performa salah satu model NLP secara signifikan dan meningkatkan performa salah satu model penglihatan komputer kami. Kami ingin terus menggunakan Inf1 Amazon EC2 untuk melayani pelanggan global dengan lebih baik.”

Vasant Srinivasan, Senior Vice President of Product Engineering, Sprinklr
Print
“Produk NLP kami yang canggih, Finch for Text, menawarkan kemampuan untuk mengekstraksi, membedakan, dan memperkaya berbagai tipe entitas dalam volume teks yang besar kepada pengguna. Finch for Text memerlukan sumber daya komputasi yang signifikan untuk menyediakan pengayaan latensi rendah pada umpan data global kepada klien kami. Kami saat ini menggunakan instans Inf1 AWS dalam model NLP PyTorch, penerjemahan, dan disambiguasi entitas. Kami dapat mengurangi biaya inferensi hingga lebih dari 80% (dibandingkan GPU) dengan optimisasi minimal sekaligus mempertahankan kecepatan dan performa inferensi. Peningkatan ini memungkinkan pelanggan kami untuk memperkaya teks bahasa Prancis, Spanyol, Jerman, dan Belanda mereka secara waktu nyata pada umpan data streaming serta dalam skala global—sesuatu yang penting bagi layanan keuangan, agregator data, dan pelanggan sektor publik kami.”

Scott Lightner, Chief Technology Officer, Finch Computing
Finch Computing
“Kami menangkap berbagai jenis peristiwa di seluruh dunia dalam banyak bahasa, dalam berbagai format (gambar, video, audio, sensor teks, kombinasi dari semuanya) dari ratusan ribu sumber. Mengoptimalkan kecepatan dan biaya dengan skala sebesar itu merupakan hal yang krusial bagi bisnis kami. Dengan AWS Inferentia, kami telah menurunkan latensi model dan mencapai throughput hingga 9x lebih baik per dolar. Hal tersebut membuat kami dapat meningkatkan akurasi model dan mengembangkan kemampuan platform kami dengan melakukan deployment model DL yang lebih canggih serta memproses volume data 5x lebih banyak sekaligus menjaga biaya kami tetap terkendali.”

Alex Jaimes, Chief Scientist dan Senior Vice President of AI, Dataminr
Autodesk
“Autodesk memajukan teknologi kognitif asisten virtual yang didukung AI milik kami, Autodesk Virtual Agent (AVA), menggunakan Inferentia. AVA menjawab lebih dari 100.000 pertanyaan pelanggan per bulan dengan menerapkan teknik pemahaman bahasa alami (NLU) dan deep learning (DL) untuk mengekstraksi konteks, tujuan, serta makna di balik pertanyaan. Saat mencoba Inferentia, kami mampu meraih throughput 4,9x lebih tinggi daripada G4dn untuk model NLU, dan kami berharap dapat menjalankan lebih banyak beban kerja pada instans Inf1 berbasis Inferentia.”

Binghui Ouyang, Sr. Data Scientist, Autodesk
Screening Eagle
“Penggunaan radar penembus tanah dan deteksi cacat visual biasanya menjadi wewenang surveyor ahli. Arsitektur berbasis layanan mikro AWS memungkinkan kami memproses video yang diambil oleh kendaraan inspeksi dan pemeriksa otomatis. Dengan memigrasikan model buatan kami dari instans berbasis GPU tradisional ke Inferentia, kami dapat mengurangi biaya sebesar 50%. Selain itu, kami dapat melihat peningkatan performa saat membandingkan waktu yang dibutuhkan instans ini dibandingkan instans GPU G4dn. Tim kami berharap dapat menjalankan lebih banyak beban kerja pada instans Inf1 berbasis Inferentia.”

Jesús Hormigo, Chief of Cloud dan AI Officer, Screening Eagle Technologies
NTT PC

NTT PC Communications, penyedia solusi layanan jaringan dan komunikasi di Jepang, merupakan pemimpin telekomunikasi dalam hal produk inovatif baru di pasar informasi dan teknologi komunikasi.

“NTT PC mengembangkan AnyMotion, sebuah layanan platform API analisis gerakan yang didasarkan pada model ML estimasi postur lanjutan. Kami melakukan deployment platform AnyMotion di instans Inf1 Amazon EC2 menggunakan Amazon ECS untuk layanan orkestrasi kontainer yang terkelola sepenuhnya. Dengan melakukan deployment kontainer AnyMotion kami di Inf1 Amazon EC2, kami mendapatkan throughput 4,5x lebih tinggi, latensi inferensi 25% lebih rendah, dan biaya 90% lebih rendah dibandingkan instans EC2 berbasis GPU generasi saat ini. Hasil yang luar biasa ini akan membantu meningkatkan kualitas layanan AnyMotion dalam skala besar.”

Toshiki Yanagisawa, Software Engineer, NTT PC Communications Inc.
Anthem

Anthem adalah salah satu perusahaan penyedia jaminan kesehatan yang terkemuka dalam negeri yang melayani kebutuhan layanan kesehatan lebih dari 40 juta anggota di puluhan negara bagian. 

“Pasar platform kesehatan digital berkembang sangat pesat. Mengumpulkan inteligensi di pasar ini menjadi tugas yang menantang karena banyaknya data opini pelanggan dan sifatnya yang tidak terstruktur. Aplikasi kami mengotomatiskan pembuatan wawasan yang dapat ditindaklanjuti dari opini pelanggan melalui model bahasa alami DL (Transformer). Aplikasi kami secara komputasional bersifat intensif dan perlu dilakukan deployment tingkat tinggi. Kami melakukan deployment beban kerja inferensi DL ke instans Inf1 Amazon EC2 yang didukung prosesor AWS Inferentia secara lancar. Instans Inf1 yang baru memberikan throughput 2x lebih tinggi dibandingkan instans berbasis GPU sehingga kami dapat menyederhanakan beban kerja inferensi.”

Numan Laanait dan Miro Mihaylov, PhD, Principal AI/Data Scientists, Anthem

 

Condé Nast
“Portofolio global Condé Nast mencakup lebih dari 20 merek media ternama, termasuk Wired, Vogue, dan Vanity Fair. Dalam beberapa minggu, tim kami dapat mengintegrasikan mesin rekomendasi dengan chip AWS Inferentia. Penggabungan ini memungkinkan beberapa optimalisasi runtima untuk model bahasa natural tercanggih di instans SageMaker Inf1. Karenanya, kami bisa menghemat biaya sebesar 72% jika dibandingkan dengan instans GPU yang sebelumnya dilakukan deployment.”

Paul Fryzel, Principal Engineer, AI Infrastructure, Condé Nast
Ciao
“Ciao tengah mengembangkan kamera keamanan konvensional menjadi kamera analisis kinerja tinggi yang setara dengan kemampuan mata manusia. Aplikasi kami mengedepankan pencegahan bencana, memantau kondisi lingkungan dengan solusi kamera kecerdasan buatan (AI) berbasis cloud untuk memperingatkan sebelum bencana terjadi. Peringatan ini memungkinkan reaksi awal terhadap situasi. Berdasarkan deteksi objek, kami juga dapat memberikan pengamatan dengan memperkirakan jumlah tamu yang masuk tanpa staf dari video di toko fisik. Ciao Camera secara komersial mengadopsi instans Inf1 berbasis AWS Inferentia dengan performa harga 40% lebih baik daripada G4dn dengan YOLOv4. Kami berharap akan ada lebih banyak dari layanan kami yang menggunakan Inf1 sehingga dapat memanfaatkan efisiensi biayanya yang signifikan.”

Shinji Matsumoto, Software Engineer, Ciao Inc.
欧文ベーシックロゴ(The Asahi Shimbun)
“Asahi Shimbun adalah salah satu surat kabar harian paling populer di Jepang. Media Lab, yang didirikan sebagai salah satu departemen perusahaan kami, memiliki misi untuk meneliti teknologi terkini, khususnya AI, dan menghubungkan teknologi-teknologi mutakhir untuk bisnis baru. Dengan peluncuran instans Inf1 Amazon EC2 berbasis AWS Inferentia di Tokyo, kami menguji aplikasi AI peringkasan teks berbasis PyTorch kami pada instans ini. Aplikasi ini memproses teks dalam jumlah besar dan menghasilkan berita utama dan kalimat ringkasan yang dilatih tentang artikel dari 30 tahun terakhir. Dengan Inferentia, kami berhasil menurunkan biaya menurut tingkat besaran dibandingkan instans berbasis CPU. Penghematan biaya yang signifikan ini memungkinkan kami melakukan deployment model paling kompleks dalam skala besar, yang sebelumnya tidak dapat kami lakukan karena kendala biaya yang besar.”

Hideaki Tamori, PhD, Senior Administrator, Media Lab, The Asahi Shimbun Company
CS Disco
“CS Disco menciptakan kembali teknologi hukum sebagai penyedia solusi AI yang terkemuka untuk penemuan elektronik yang dikembangkan oleh dan untuk para praktisi hukum. AI Disco mempercepat pekerjaan penyisiran data berukuran terabita yang begitu rumit, mempercepat waktu peninjauan, dan meningkatkan akurasi peninjauan dengan memanfaatkan model NLP kompleks, yang secara komputasional sangat mahal dan membutuhkan banyak biaya. Disco mendapati fakta bahwa instans Inf1 berbasis AWS Inferentia dapat mengurangi biaya inferensi AI Disco sekurang-kurangnya 35% dibandingkan instans GPU yang ada saat ini. Berkat pengalaman positif dengan instans Inf1 ini, CS Disco akan mempertimbangkan kemungkinan untuk bermigrasi ke Inferentia.”

Alan Lockett, Sr. Director of Research, CS Disco
Talroo
“Di Talroo, kami memberi para pelanggan sebuah platform yang didorong data yang memungkinkan mereka menarik banyak kandidat karyawan yang unik untuk kemudian dapat direkrut. Kami selalu menjajaki teknologi baru untuk memastikan bahwa kami menawarkan produk dan layanan yang terbaik kepada pelanggan. Dengan Inferentia, kami mengekstraksi wawasan dari korpus data teks untuk menyempurnakan teknologi cari-dan-cocokkan milik kami yang didukung oleh AI. Talroo memanfaatkan instans Inf1 Amazon EC2 untuk membuat model NLU throughput tinggi dengan SageMaker. Pengujian awal Talroo menunjukkan bahwa instans Inf1 Amazon EC2 memberikan latensi inferensi 40% lebih rendah dan throughput 2x lebih tinggi dibandingkan instans berbasis GPU G4dn. Berdasarkan hasil ini, Talroo ingin menggunakan instans Inf1 Amazon EC2 sebagai bagian dari infrastruktur AWS mereka.”

Janet Hu, Software Engineer, Talroo
DMP
“Digital Media Professionals (DMP) memvisualisasikan masa depan dengan platform ZIA™ berbasis AI. Teknologi klasifikasi penglihatan komputer efisien milik DMP digunakan untuk membangun wawasan mengenai data citra waktu nyata dalam jumlah besar, seperti observasi kondisi, pencegahan kejahatan, dan pencegahan kecelakaan. Kami mengetahui bahwa model segmentasi citra kami berjalan empat kali lebih cepat pada instans Inf1 berbasis AWS Inferentia dibandingkan instans G4 berbasis GPU. Karena throughput yang lebih tinggi dan biaya yang lebih rendah, Inferentia memungkinkan deployment beban kerja AI, seperti aplikasi untuk kamera dasbor mobil, dalam skala besar.”

Hiroyuki Umeda, Director & General Manager, Sales & Marketing Group, Digital Media Professionals
Hotpot.ai

Hotpot.ai memberdayakan non-desainer untuk membuat grafik yang menarik dan membantu desainer profesional mengotomatiskan tugas repetitif. 

“Kami begitu antusias untuk mencoba instans Inf1 berbasis AWS Inferentia karena ML adalah inti strategi kami. Kami mendapati bahwa instans Inf1 dapat dengan mudah diintegrasikan ke dalam pipeline penelitian dan pengembangan kami. Yang terpenting, kami amati peningkatan kinerjanya yang mengesankan dibandingkan dengan instans berbasis GPU G4dn. Dengan model pertama kami, instans Inf1 menghasilkan throughput sekitar 45% lebih tinggi dan menurunkan biaya per inferensi sebesar hampir 50%. Kami ingin bekerja sama dengan tim AWS guna memindahkan model lain dan mengalihkan sebagian besar infrastruktur inferensi ML ke AWS Inferentia.”

Clarence Hu, Founder, Hotpot.ai
SkyWatch
“SkyWatch memproses ratusan triliun piksel data observasi Bumi, yang diambil dari luar angkasa setiap harinya. Mengadopsi instans Inf1 baru berbasis AWS Inferentia menggunakan Amazon SageMaker untuk deteksi cloud secara waktu nyata dan menjadikan penilaian kualitas gambar cepat dan mudah. Semua itu hanya masalah mengganti jenis instans dalam konfigurasi penerapan kami. Dengan mengalihkan jenis instans ke Inf1 berbasis Inferentia, kami meningkatkan kinerja sebesar 40% dan menurunkan biaya sebesar 23% secara keseluruhan. Ini merupakan capaian yang luar biasa. Karena hal tersebut, kami berhasil menurunkan keseluruhan biaya operasional sambil terus memberikan citra satelit berkualitas tinggi kepada pelanggan, dengan overhead rekayasa minimal. Kami berharap dapat mengalihkan semua titik akhir inferensi dan proses ML batch untuk menggunakan instans Inf1 agar dapat lebih meningkatkan keandalan data dan pengalaman pelanggan kami.”

Adler Santos, Engineering Manager, SkyWatch
Money Forward, Inc.

Money Forward, Inc. melayani bisnis dan perorangan dengan platform keuangan yang terbuka dan adil. Sebagai bagian dari platform ini, HiTTO Inc., perusahaan dari grup Money Forward, menawarkan layanan chatbot AI yang menggunakan model NLP yang disesuaikan untuk menjawab beragam kebutuhan pelanggan korporat mereka.

“Memigrasikan layanan chatbot AI kami ke instans Inf1 Amazon EC2 sangatlah praktis. Kami menyelesaikan migrasi dalam waktu dua bulan dan meluncurkan layanan berskala besar pada instans Inf1 menggunakan Amazon ECS. Kami dapat mengurangi latensi inferensi sebesar 97% dan biaya inferensi lebih dari 50% (daripada instans berbasis GPU yang sebanding) dengan memberikan beberapa model per instans Inf1. Kami berharap dapat menjalankan lebih banyak beban kerja pada instans Inf1 berbasis Inferentia.”

Kento Adachi, Technical lead, CTO office, Money Forward Inc.

Layanan Amazon menggunakan Instans Inf1 Amazon EC2

Amazon Advertising

Amazon Advertising membantu bisnis dari semua ukuran terhubung dengan pelanggan di setiap tahap perjalanan belanja mereka. Jutaan iklan, termasuk teks dan citra, dimoderasi, diklasifikasikan, dan ditayangkan untuk pengalaman pelanggan yang optimal setiap hari.

“Untuk pemrosesan iklan teks, kami men-deploy model BERT berbasis PyTorch secara global pada instans Inf1 berbasis AWS Inferentia. Dengan pindah ke Inferentia dari GPU, kami dapat menurunkan biaya sebesar 69% dengan performa yang sebanding. Mengompilasi dan menguji model kami untuk AWS Inferentia membutuhkan waktu kurang dari tiga minggu. Dengan menggunakan Amazon SageMaker untuk men-deploy model kami ke instans Inf1 memastikan deployment kami dapat diskalakan dan mudah dikelola. Ketika saya pertama kali menganalisis model yang dikompilasi, performa dengan AWS Inferentia sangatlah mengesankan sampai-sampai saya harus menjalankan kembali tolok ukur untuk memastikan bahwa tidak ada kesalahan. Ke depannya, kami berencana untuk memigrasikan model pemrosesan iklan citra kami ke Inferentia. Kami mendapati bahwa tolok ukur menunjukkan latensi 30% lebih rendah dan penghematan biaya 71% daripada instans berbasis GPU yang sebanding untuk model ini.”

Yashal Kanungo, Applied Scientist, Amazon Advertising

Baca blog berita »
Alexa 8up logo
“Kecerdasan berbasis AI dan ML Amazon Alexa, yang didukung oleh AWS, saat ini tersedia di lebih dari 100 juta perangkat—dan kami berjanji untuk memastikan bahwa Alexa akan terus berkembang menjadi layanan yang lebih cerdas, lebih komunikatif, lebih proaktif, serta lebih menyenangkan. Untuk memenuhi janji itu, perlu penyempurnaan berkelanjutan dalam hal waktu respons dan biaya infrastruktur ML. Karena itulah kami sangat senang menggunakan Inf1 Amazon EC2 untuk menurunkan latensi inferensi dan biaya per inferensi pada teks-ke-ucapan Alexa. Dengan Inf1 Amazon EC2, kami akan mampu membuat layanan menjadi lebih baik bagi puluhan juta pelanggan yang menggunakan Alexa setiap bulannya.”

Tom Taylor, Senior Vice President, Amazon Alexa
 
“Kami terus berinovasi untuk lebih meningkatkan pengalaman pelanggan dan untuk menekan biaya infrastruktur. Memindahkan beban kerja penjawab pertanyaan (WBQA) berbasis web kami dari instans P3 berbasis GPU ke instans Inf1 berbasis AWS Inferentia tidak hanya membantu kami mengurangi biaya inferensi sebesar 60%, tetapi juga meningkatkan latensi ujung ke ujung sebesar lebih dari 40%, yang membantu meningkatkan pengalaman Tanya Jawab pelanggan dengan Alexa. Penggunaan Amazon SageMaker untuk model berbasis TensorFlow kami membuat proses peralihan ke instans Inf1 menjadi lebih praktis dan mudah dikelola. Kami kini menggunakan instans Inf1 secara global untuk menjalankan beban kerja WBQA ini dan mengoptimalkan performanya untuk AWS Inferentia guna menekan biaya dan mengurangi latensi secara maksimal.”

Eric Lind, Software Development Engineer, Alexa AI
Amazon Alexa
“Amazon Prime Video menggunakan model ML penglihatan komputer untuk menganalisis kualitas video peristiwa langsung guna memastikan pengalaman penonton yang optimal bagi anggota Prime Video. Kami melakukan deployment model ML klasifikasi gambar di instans Inf1 EC2 dan memperoleh 4x peningkatan dalam hal performa serta penghematan biaya hingga 40%. Kami kini ingin memanfaatkan penghematan biaya ini untuk berinovasi dan membangun model lanjutan yang dapat mendeteksi kecacatan yang lebih kompleks, seperti kesenjangan sinkronisasi antara file audio dan video, untuk menghadirkan pengalaman menonton yang lebih baik bagi anggota Prime Video.”

Victor Antonino, Solutions Architect, Amazon Prime Video
Amazon Alexa
“Amazon Rekognition adalah aplikasi analisis gambar dan video yang sederhana serta mudah, yang membantu pelanggan mengidentifikasi objek, manusia, teks, dan aktivitas. Amazon Rekognition memerlukan infrastruktur DL performa tinggi yang dapat menganalisis miliaran gambar dan video setiap harinya untuk pelanggan kami. Dengan instans Inf1 berbasis AWS Inferentia, pengoperasian model Amazon Rekognition, seperti klasifikasi objek, menghasilkan latensi 8x lebih rendah dan throughput 2x lipat jika dibandingkan dengan menjalankan model ini pada GPU. Berdasarkan hasil ini, kami memindahkan Amazon Rekognition ke Inf1 agar pelanggan kami dapat memperoleh hasil yang akurat dengan lebih cepat.”

Rajneesh Singh, Director, SW Engineering, Amazon Rekognition and Video

Harga

* Harga yang ditunjukkan adalah untuk Wilayah AWS US East (Northern Virginia). Harga untuk instans cadangan 1 tahun dan 3 tahun adalah untuk opsi pembayaran "Sebagian di Muka" atau "Tanpa Biaya di Muka" untuk instans tanpa opsi Sebagian di Muka.

Instans Inf1 Amazon EC2 tersedia di Wilayah AWS AS Timur (Virginia U.), AS Barat (Oregon) sebagai Instans Sesuai Permintaan, Terpesan, atau Spot.

Memulai

Menggunakan Amazon SageMaker

SageMaker memudahkan kompilasi dan deployment model ML yang Anda latih dalam produksi pada instans Inf1 Amazon sehingga Anda dapat mulai membuat prediksi secara waktu nyata dengan latensi rendah. AWS Neuron, compiler untuk AWS Inferentia, terintegrasi dengan Amazon SageMaker Neo, sehingga Anda dapat mengompilasi model ML terlatih untuk berjalan secara optimal pada instans Inf1. Dengan SageMaker, Anda dapat menjalankan model dengan mudah di klaster penskalaan otomatis instans Inf1 yang tersebar di beberapa Zona Ketersediaan untuk menghasilkan performa tinggi dan inferensi waktu nyata dengan ketersediaan tinggi. Pelajari cara melakukan deployment ke Inf1 menggunakan SageMaker dengan contoh di GitHub.

Menggunakan DLAMI

DLAMI menyediakan infrastruktur dan alat bagi praktisi serta peneliti ML untuk mempercepat DL di cloud pada semua skala. AWS Neuron SDK sudah diinstal sebelumnya di DLAMI untuk mengompilasi dan menjalankan model ML Anda secara optimal pada instans Inf1. Untuk membantu Anda melalui proses memulai, kunjungi panduan pemilihan AMI dan sumber daya DL lainnya. Lihat panduan Memulai AWS DLAMI untuk mempelajari cara menggunakan DLAMI dengan Neuron.

Menggunakan Kontainer Deep Learning

Developer saat ini dapat melakukan deployment instans Inf1 di Amazon EKS, yang merupakan layanan Kubernetes terkelola penuh, dan di Amazon ECS, yang merupakan layanan orkestrasi kontainer terkelola penuh dari Amazon. Pelajari selengkapnya tentang memulai dengan Inf1 di Amazon EKS atau dengan Amazon ECS. Detail selengkapnya tentang menjalankan kontainer di instans Inf1 tersedia di halaman tutorial alat kontainer Neuron. Neuron juga tersedia pra-instal di Kontainer AWS Deep Learning.

Blog dan artikel

Cara Amazon Search mengurangi biaya inferensi ML hingga 85% dengan AWS Inferentia

oleh Joao Moura, Jason Carlson, Jaspreet Singh, Shaohui Xi, Shruti Koparkar, Haowei Sun, Weiqi Zhang, dan Zhuoqi Zhangs, 9/22/2022

Machine learning di cloud bisnis untuk berinovasi

berdasarkan Wawasan Peninjauan Teknologi MIT, 15/10/2021

Memberikan 3.000 model deep learning di Amazon EKS dengan AWS Inferentia dengan harga di bawah 50 USD per jam

oleh Alex Iankoulski, Joshua Correa, Mahadevan Balasubramaniam, dan Sundar Ranganatha, 30/09/2021

Sumber daya tambahan