Instans Inf1 Amazon EC2
Bisnis di berbagai rangkaian industri mencari transformasi yang didukung kecerdasan buatan (AI) untuk mendorong inovasi bisnis, meningkatkan pengalaman pelanggan, dan memproses peningkatan. Model machine learning yang mendukung aplikasi kecerdasan buatan (AI) menjadi makin kompleks, yang berakibat meningkatnya biaya infrastruktur komputasi dasar. Hingga 90% pengeluaran infrastruktur untuk mengembangkan dan menjalankan aplikasi ML sering di inferensi. Pelanggan mencari solusi infrastruktur yang hemat biaya untuk melakukan deployment aplikasi ML mereka dalam produksi.
Instans Inf1 Amazon EC2 menghasilkan inferensi ML berkinerja tinggi dan berbiaya rendah. Instans tersebut menghasilkan throughput yang lebih tinggi hingga 2,3x dan biaya yang lebih rendah hingga 70% per inferensi dibandingkan instans Amazon EC2 berbasis GPU generasi terbaru yang setara. Instans Inf1 dibangun dari nol untuk mendukung aplikasi inferensi pembelajaran mesin. Instans tersebut menghadirkan hingga 16 chip AWS Inferentia, chip machine learning berkinerja tinggi yang dirancang dan dibuat oleh AWS. Selain itu, instans Inf1 menyertakan prosesor Intel® Xeon® Scalable generasi ke-2 dan jaringan hingga 100 Gbps untuk menghasilkan inferensi throughput tinggi.
Pelanggan bisa menggunakan instans Inf1 untuk menjalankan aplikasi inferensi machine learning skala besar seperti pencarian, mesin rekomendasi, visi komputer, pengenalan ucapan, pemrosesan bahasa alami, personalisasi, dan deteksi penipuan.
Developer bisa melakukan deployment model machine learning pada instans Inf1 menggunakan AWS Neuron SDK, yang terintegrasi dengan kerangka kerja machine learning populer seperti TensorFlow, PyTorch, dan MXNet. Mereka bisa terus menggunakan alur kerja ML yang sama dan dengan lancar memigrasikan aplikasi ke instans Inf1 dengan perubahan kode minimal dan tanpa terikat ke solusi khusus vendor.
Mulai instans Inf1 dengan menggunakan Amazon SageMaker, AMI AWS Deep Learning yang dikonfigurasi sebelumnya dengan Neuron SDK, atau menggunakan Amazon ECS atau Amazon EKS untuk aplikasi ML terkontainer secara mudah.
Manfaat
Biaya per inferensi yang lebih rendah hingga 70%
Dengan menggunakan Inf1, developer bisa mengurangi biaya deployment produksi machine learning mereka secara signifikan. Kombinasi biaya instans yang rendah dan throughput tinggi pada instans Inf1 menghasilkan biaya per inferensi yang lebih rendah hingga 70% dibandingkan instans EC2 berbasis GPU generasi terbaru yang setara.
Kemudahan penggunaan dan portabilitas kode
Neuron SDK terintegrasi dengan kerangka kerja machine learning umum seperti TensorFlow, PyTorch, dan MXNet. Developer bisa terus menggunakan alur kerja ML yang sama dan dengan lancar memigrasikan aplikasi mereka ke instans Inf1 dengan perubahan kode minimal. Hal ini memberi mereka kebebasan untuk menggunakan kerangka kerja machine learning pilihan, platform komputasi yang paling memenuhi persyaratan mereka, dan memanfaatkan teknologi terbaru tanpa terikat dengan solusi khusus vendor.
Throughput yang lebih tinggi hingga 2,3x
Instans Inf1 mengirimkan throughput yang lebih tinggi hingga 2,3x dibandingkan instans Amazon EC2 berbasis GPU generasi saat ini yang sebanding. Chip AWS Inferentia yang mendukung instans Inf1 dioptimalkan untuk kinerja inferensi untuk ukuran batch kecil, memungkinkan aplikasi waktu nyata memaksimalkan throughput dan memenuhi persyaratan latensi.
Latensi yang luar biasa rendah
Chip AWS Inferentia dilengkapi dengan memori on-chip besar yang memungkinkan cache model machine learning langsung di chip. Anda bisa menerapkan model Anda menggunakan kemampuan seperti NeuronCore Pipeline yang menghilangkan kebutuhan untuk mengakses sumber daya memori luar. Dengan Instans Inf1, Anda bisa menerapkan aplikasi inferensi waktu nyata pada latensi hampir secara waktu nyata tanpa memengaruhi bandwidth.
Dukungan untuk berbagai model dan jenis data machine learning
Instans Inf1 mendukung banyak arsitektur model machine learning yang umum digunakan seperti SSD, VGG, dan ResNext untuk pengenalan/klasifikasi gambar serta Transformer dan BERT untuk pemrosesan bahasa alami. Selain itu, dukungan untuk repositori model HuggingFace di Neuron memberi pelanggan kemampuan untuk menyusun dan menjalankan inferensi menggunakan model yang dilatih sebelumnya – atau bahkan yang disetel, dengan mudah, cukup dengan mengubah satu baris kode. Beberapa jenis data termasuk BF16 dan FP16 dengan presisi campuran juga didukung untuk berbagai model dan kebutuhan kinerja.
Fitur
Didukung oleh AWS Inferentia
AWS Inferentia adalah chip machine learning yang dibuat oleh AWS untuk memberikan inferensi performa tinggi dengan biaya rendah. Setiap chip AWS Inferentia memiliki empat NeuronCore generasi pertama dan memberikan performa hingga 128 tera operasi per detik (TOPS), serta dukungan untuk tipe data FP16, BF16, dan INT8. Chip AWS Inferentia juga memiliki sejumlah besar memori pada chip yang dapat digunakan untuk membuat cache model besar, yang khususnya bermanfaat bagi model yang sering memerlukan akses memori.
Lakukan deployment dengan kerangka kerja ML populer menggunakan AWS Neuron
Kit pengembangan perangkat lunak (SDK) AWS Neuron terdiri dari compiler, driver run-time, dan alat pembuatan profil. Hal ini memungkinkan penerapan model jaringan neural kompleks, yang dibuat dan dilatih di kerangka kerja populer seperti TensorFlow, PyTorch, dan MXNet, bisa dieksekusi menggunakan instans Inf1. Dengan NeuronCore Pipeline dari Neuron, Anda bisa memecah model besar untuk eksekusi di beberapa chip Inferentia menggunakan interkoneksi chip ke chip fisik kecepatan tinggi, yang memberikan throughput inferensi tinggi, tetapi biaya inferensi yang lebih rendah.
Jaringan dan penyimpanan performa tinggi
Instans Inf1 menawarkan throughput jaringan hingga 100 Gbps untuk aplikasi yang memerlukan akses ke jaringan berkecepatan tinggi. Teknologi Elastic Network Adapter (ENA) dan NVM Express (NVMe) generasi berikutnya menyediakan instans Inf1 dengan antarmuka throughput tinggi dan latensi rendah untuk jaringan dan Amazon Elastic Block Store (Amazon EBS).
Dibangun di AWS Nitro System
AWS Nitro System adalah kumpulan komponen dasar yang melepaskan beban berbagai fungsi virtualisasi konvensional ke perangkat keras dan perangkat lunak khusus untuk memberikan performa tinggi, ketersediaan tinggi, dan keamanan tinggi sekaligus juga mengurangi biaya overhead virtualisasi.
Cara kerjanya

Testimoni Pelanggan

Didirikan pada tahun 2008, Airbnb yang berpusat di San Francisco adalah marketplace komunitas dengan lebih dari 4 juta Host yang telah menyambut lebih dari 900 juta kedatangan tamu di hampir setiap negara di seluruh dunia.
"Platform Dukungan Komunitas Airbnb memungkinkan pengalaman layanan yang cerdas, dapat diskalakan, dan luar biasa bagi komunitas kami yang terdiri dari jutaan tamu dan host di seluruh dunia. Kami secara konstan mencari cara untuk meningkatkan performa model Pemrosesan Bahasa Alami kami yang digunakan oleh aplikasi chatbot dukungan kami. Dengan instans Inf1 Amazon EC2 yang didukung oleh AWS Inferentia, kami melihat peningkatan 2x lipat dalam throughput secara langsung, dibandingkan instans berbasis GPU untuk model BERT berbasis PyTorch kami. Kami berharap dapat memanfaatkan instans Inf1 untuk model dan kasus penggunaan lainnya di masa mendatang.”
Bo Zeng, Engineering Manager - AirBnB

"Kami menggabungkan machine learning (ML) ke dalam banyak aspek Snapchat, dan menjelajahi inovasi di bidang ini menjadi prioritas utama. Setelah mendengar tentang Inferentia, kami mulai berkolaborasi dengan AWS untuk mengadopsi instans Inf1/Inferentia untuk membantu kami dengan penerapan ML, termasuk dalam hal kinerja dan biaya. Kami memulai dengan model rekomendasi kami, dan berharap dapat mengadopsi lebih banyak model dengan instans Inf1 di masa mendatang.”
Nima Khajehnouri, VP Engineering - Snap Inc.

"Platform unified customer experience management (Unified-CXM) yang didorong AI dari Sprinklr memungkinkan perusahaan untuk mengumpulkan dan menerjemahkan umpan balik pelanggan secara waktu nyata di berbagai saluran menjadi wawasan yang dapat ditindaklanjuti – menghasilkan resolusi masalah yang proaktif, pengembangan produk yang ditingkatkan, pemasaran konten yang lebih baik, layanan pelanggan yang lebih baik, dan banyak lagi. Dengan menggunakan Inf1 Amazon EC2, kami dapat meningkatkan performa salah satu model pemrosesan bahasa alami (NLP) secara signifikan dan meningkatkan performa salah satu model penglihatan komputer kami. Kami berharap dapat terus menggunakan Inf1 Amazon EC2 untuk melayani pelanggan global kami dengan lebih baik."
Vasant Srinivasan, Senior Vice President of Product Engineering - Sprinklr

“Produk Pemrosesan Bahasa Alami (NLP) kami yang canggih, Finch for Text, menawarkan kemampuan untuk mengekstraksi, membedakan, dan memperkaya berbagai tipe entitas dalam volume teks yang besar kepada pengguna. Finch for Text memerlukan sumber daya komputasi yang signifikan untuk menyediakan pengayaan latensi rendah pada umpan data global kepada klien kami. Kami saat ini menggunakan instans Inf1 AWS dalam model PyTorch NLP, penerjemahan, dan disambiguasi entitas kami. Kami dapat mengurangi biaya inferensi hingga lebih dari 80% (di atas GPU) dengan pengoptimalan minimal sekaligus mempertahankan kecepatan dan performa inferensi kami. Peningkatan ini memungkinkan pelanggan kami untuk memperkaya teks bahasa Prancis, Spanyol, Jerman, dan Belanda mereka secara waktu nyata pada umpan data streaming dan dalam skala global – sesuatu yang penting bagi layanan keuangan, agregator data, dan pelanggan sektor publik kami.”
Scott Lightner, Chief Technology Officer - Finch Computing

"Autodesk memajukan teknologi kognitif asisten virtual yang didukung AI kami, Autodesk Virtual Agent (AVA) dengan menggunakan Inferentia. AVA menjawab lebih dari 100.000 pertanyaan pelanggan per bulan dengan menerapkan teknik natural language understanding (NLU) dan pembelajaran mendalam untuk mengekstrak konteks, tujuan, dan makna di balik pertanyaan. Dengan memelopori Inferentia, kami mampu mendapatkan throughput yang 4,9x lebih tinggi daripada G4dn untuk model NLU kami, dan tidak sabar ingin menjalankan lebih banyak beban kerja di instans Inf1 berbasis Inferentia.”
Binghui Ouyang, Sr Data Scientist - Autodesk
Layanan Amazon Menggunakan Instans Inf1 Amazon EC2

Amazon Advertising membantu bisnis dari semua ukuran terhubung dengan pelanggan di setiap tahap perjalanan belanja mereka. Jutaan iklan, termasuk teks dan citra, dimoderasi, diklasifikasikan, dan ditayangkan untuk pengalaman pelanggan yang optimal setiap hari.
“Untuk pemrosesan iklan teks, kami men-deploy model BERT berbasis PyTorch secara global pada instans Inf1 berbasis AWS Inferentia. Dengan pindah ke Inferentia dari GPU, kami dapat menurunkan biaya sebesar 69% dengan performa yang sebanding. Mengompilasi dan menguji model kami untuk AWS Inferentia membutuhkan waktu kurang dari tiga minggu. Dengan menggunakan Amazon SageMaker untuk men-deploy model kami ke instans Inf1 memastikan deployment kami dapat diskalakan dan mudah dikelola. Ketika saya pertama kali menganalisis model yang dikompilasi, performa dengan AWS Inferentia sangat mengesankan sehingga saya benar-benar harus menjalankan kembali tolok ukur untuk memastikan mereka benar! Ke depannya, kami berencana untuk memigrasikan model pemrosesan iklan citra kami ke Inferentia. Kami telah membuat tolok ukur latensi 30% lebih rendah dan penghematan biaya 71% dibandingkan instans berbasis GPU yang sebanding untuk model ini.”
Yashal Kanungo, Ilmuwan Terapan, Amazon Advertising

“Kecerdasan berbasis AI dan ML Amazon Alexa, yang didukung Layanan Web Amazon, tersedia di lebih dari 100 juta perangkat saat ini - dan janji kami kepada pelanggan adalah bahwa Alexa selalu menjadi lebih cerdas, lebih komunikatif, lebih proaktif, dan bahkan lebih menyenangkan. Untuk memenuhi janji itu, perlu penyempurnaan berkelanjutan dalam hal waktu respons dan biaya infrastruktur pembelajaran mesin, karena itulah kami sangat senang menggunakan Amazon EC2 Inf1 untuk menurunkan latensi inferensi dan biaya per inferensi pada teks-ke-ucapan Alexa. Dengan Amazon EC2 Inf1, kami akan mampu membuat layanan menjadi lebih baik bagi puluhan juta pelanggan yang menggunakan Alexa setiap bulan.”
Tom Taylor, Wakil Presiden Senior, Amazon Alexa
"Kami terus berinovasi untuk lebih meningkatkan pengalaman pelanggan dan untuk menekan biaya infrastruktur kami. Memindahkan beban kerja penjawab pertanyaan (WBQA) berbasiskan web kami dari instans P3 berbasis GPU ke instans Inf1 berbasis AWS Inferentia tidak hanya membantu kami mengurangi biaya inferensi sebesar 60%, tetapi juga meningkatkan latensi ujung ke ujung sebesar lebih dari 40%, membantu meningkatkan pengalaman Tanya Jawab pelanggan dengan Alexa. Dengan menggunakan Amazon SageMaker untuk model berbasis Tensorflow kami, proses peralihan ke instans Inf1 menjadi lebih cepat dan mudah untuk dikelola. Kami kini menggunakan instans Inf1 secara global untuk menjalankan beban kerja WBQA ini dan mengoptimalkan performanya untuk AWS Inferentia, guna menekan biaya dan latensi lebih jauh lagi.”
Eric Lind, Teknisi Pengembangan Perangkat Lunak, Alexa AI

“Amazon Prime Video menggunakan model ML penglihatan komputer untuk menganalisis kualitas video peristiwa langsung guna memastikan pengalaman penonton yang optimal bagi anggota Prime Video. Kami melakukan deployment pada model ML klasifikasi gambar di instans EC2 Inf1 dan dapat melihat peningkatan performa 4x serta penghematan biaya hingga 40%. Kami kini ingin memanfaatkan penghematan biaya ini untuk berinovasi dan membangun model canggih yang dapat mendeteksi cacat yang lebih kompleks, seperti kesenjangan sinkronisasi antara file audio dan video untuk memberikan pengalaman menonton yang lebih baik bagi anggota Prime Video.”

“Amazon Rekognition adalah aplikasi analisis gambar dan video yang sederhana dan mudah, yang membantu pelanggan mengidentifikasi objek, manusia, teks, dan aktivitas. Amazon Rekognition memerlukan infrastruktur pembelajaran mendalam dengan kinerja tinggi yang dapat menganalisis miliaran gambar dan video setiap harinya untuk pelanggan kami. Dengan instans Inf1 berbasis AWS Inferentia, menjalankan model Rekognition seperti klasifikasi objek, menghasilkan latensi 8X lebih rendah, dan throughput 2X lipat jika dibandingkan menjalankan model ini di GPU. Berdasarkan hasil ini, kami memindahkan Rekognition ke Inf1, memungkinkan pelanggan kami untuk mendapatkan hasil yang akurat lebih cepat.”
Harga
* Harga yang ditunjukkan adalah untuk Wilayah AWS US East (Northern Virginia). Harga untuk instans cadangan 1 tahun dan 3 tahun adalah untuk opsi pembayaran "Sebagian di Muka" atau "Tanpa Biaya di Muka" untuk instans tanpa opsi Sebagian di Muka.
Instans Inf1 Amazon EC2 tersedia di Wilayah AWS AS Timur (Virginia U.), AS Barat (Oregon) sebagai Instans Sesuai Permintaan, Terpesan, atau Spot.
Memulai
Menggunakan Amazon SageMaker
Amazon SageMaker memudahkan kompilasi dan penerapan model machine learning yang Anda latih dalam produksi pada instans Inf1 Amazon sehingga Anda dapat mulai membuat prediksi real-time dengan latensi rendah. AWS Neuron, kompilator untuk AWS Inferentia, terintegrasi dengan Amazon SageMaker Neo sehingga Anda dapat mengompilasi model pembelajaran mesin terlatih Anda untuk bekerja optimal pada instans Inf1. Dengan Amazon SageMaker, Anda akan mudah memilih untuk menjalankan model Anda di klaster auto scaling instans Inf1 yang tersebar di beberapa availability zone untuk menghasilkan kinerja dan interferensi waktu nyata dengan ketersediaan tinggi. Pelajari cara men-deploy ke Inf1 menggunakan Amazon SageMaker dengan contoh di Github.
Menggunakan AMI AWS Deep Learning
AMI AWS Deep Learning (DLAMI) menjadi infrastruktur dan peralatan bagi praktisi dan peneliti pembelajaran mesin guna mempercepat proses pembelajaran mendalam dalam cloud, dalam skala apa pun. AWS Neuron SDK telah diinstal sebelumnya di AMI AWS Deep Learning untuk mengompilasi dan menjalankan model pembelajaran mesin Anda secara optimal pada instans Inf1. Untuk membantu Anda melalui proses persiapan, kunjungi panduan pemilihan AMI dan sumber daya pembelajaran mendalam lainnya. Lihat panduan Memulai AWS DLAMI untuk mempelajari cara menggunakan DLAMI dengan Neuron.
Menggunakan Deep Learning Containers
Pengembang sekarang dapat menerapkan instans Inf1 di Amazon Elastic Kubernetes Service(EKS), yang merupakan layanan Kubernetes terkelola penuh, dan juga di Amazon Elastic Container Service (ECS), yang merupakan layanan orkestrasi kontainer terkelola penuh dari Amazon. Pelajari lebih lanjut tentang memulai dengan Inf1 diAmazon EKSatau denganAmazon ECS. Detail lebih lanjut tentang menjalankan kontainer di instans Inf1 tersedia di halaman tutorial alat kontainer Neuron. Neuron juga tersedia pra-instal di AWS DL Containers.
Blog dan Artikel
Cara Amazon Search mengurangi biaya inferensi hingga 85% dengan AWS Inferentia
oleh Joao Moura, Jason Carlson, Jaspreet Singh, Shaohui Xi, Shruti Koparkar, Haowei Sun, Weiqi Zhang, dan Zhuoqi Zhangs, 9/22/2022
Infrastruktur machine learning dengan performa tinggi dan biaya rendah mempercepat inovasi di cloud
berdasarkan Wawasan Peninjauan Teknologi MIT, 01/11/2021
oleh Davide Galliteli dan Hasan Poonawala, 19/10/2021
Machine learning di cloud bisnis untuk berinovasi
berdasarkan Wawasan Peninjauan Teknologi MIT, 15/10/2021
oleh Alex Iankoulski, Joshua Correa, Mahadevan Balasubramaniam, dan Sundar Ranganatha, 30/09/2021
oleh Fabio Nonato de Paula dan Mahadevan Balasubramaniam, 04/05/2021
oleh Binghui Ouyang, 07/04/2021
oleh Sébastien Stormacq, 12/11/2020
Amazon ECS kini mendukung instans Inf1 EC2
oleh Julien Simon, 14/08/2020
Oleh Fabio Nonato De Paula dan Haichen Li, 07/22/2020
Amazon EKS kini mendukung instans Inf1 EC2
oleh Julien Simon, 15/06/2020
oleh Jeff Barr, 03/12/2019