Bagaimana startup menurunkan biaya AI/ML dan berinovasi dengan AWS Inferentia

Bagaimana konten ini?

Sebagai startup machine learning (ML), Anda mungkin menyadari tantangan yang muncul saat melatih dan melakukan deployment model ML dalam aplikasi Anda ("productization ML"). Productization ML menjadi tantangan karena startup secara bersamaan berupaya mencapai performa aplikasi yang tinggi, membuat pengalaman pengguna yang menyenangkan, dan mengelola biaya secara efisien. Semua dilakukan sembari membangun startup yang kompetitif dan berkelanjutan.

Saat memilih infrastruktur untuk beban kerja ML mereka, startup harus mempertimbangkan cara terbaik untuk melakukan pelatihan dan inferensi. Pelatihan adalah proses di mana sebuah model dibangun dan disetel untuk tugas tertentu dengan belajar dari data yang ada. Inferensi adalah proses menggunakan model tersebut untuk membuat prediksi berdasarkan data input baru. Selama lima tahun terakhir, AWS telah berinvestasi pada akselerator yang dibuat khusus untuk meningkatkan performa dan biaya komputasi untuk beban kerja ML. Akselerator AWS Trainium dan AWS Inferentia memungkinkan biaya terendah untuk melatih model dan menjalankan inferensi di cloud.

Instans Inf1 Amazon EC2 berbasis AWS Inferentia cocok untuk startup yang ingin menjalankan aplikasi inferensi ML, seperti:

  • Pencarian
  • Mesin rekomendasi
  • Penglihatan komputer
  • Pengenalan suara
  • Pemrosesan bahasa alami (NLP)
  • Personalisasi
  • Deteksi penipuan

Untuk melatih dan melakukan deployment model yang lebih kompleks, seperti model AI generatif (model bahasa besar dan model difusi), startup Anda mungkin ingin memeriksa instans Trn1 Amazon EC2 berbasis AWS Trainium dan instans Inf2 Amazon EC2 berbasis AWS Inferentia2 yang baru.

Dalam posting ini, kami akan membahas kasus penggunaan dari dua startup, yaitu Actuate dan Finch Computing, dan kesuksesan yang telah mereka saksikan dengan instans Inf1 yang ditenagai Inferentia.

Actuate | Deteksi ancaman menggunakan analitik video AI waktu nyata | Penghematan 91% pada biaya inferensi

Kasus penggunaan: Actuate menyediakan platform perangkat lunak sebagai layanan (SaaS) yang dimaksudkan untuk mengonversi kamera apa pun menjadi kamera pintar pendeteksi ancaman waktu nyata untuk mendeteksi senjata, penyusup, kerumunan orang, dan orang yang berkeliaran secara instan dan akurat. Platform perangkat lunak Actuate terintegrasi ke dalam sistem kamera video yang sudah ada untuk membuat sistem keamanan yang canggih. Dengan perangkat lunak deteksi ancaman kecerdasan buatan (AI) Actuate, pelanggan menerima peringatan secara waktu nyata dalam hitungan detik, dan dapat bertindak cepat untuk mengamankan lokasi mereka.

Peluang: Actuate diperlukan untuk memastikan akurasi deteksi yang tinggi. Hal ini berarti mereka harus terus melatih ulang model menggunakan lebih banyak data, yang menyita waktu developer yang berharga. Selain itu, karena butuh waktu respons yang cepat, mereka bergantung pada infrastruktur berbasis GPU yang mahal dalam skala besar. Sebagai startup dengan sumber daya terbatas, meminimalkan biaya inferensi dan waktu developer dapat membantu Actuate menggunakan sumber daya tersebut untuk membangun kemampuan yang lebih baik dan memberikan nilai lebih kepada pengguna akhir.

Solusi dan dampak: Pertama, Actuate menerapkan Amazon SageMaker untuk melatih dan melakukan deployment model mereka. Hal ini mengurangi waktu deployment, yang diukur dari data berlabel hingga model yang dilakukan deployment, dari 4 minggu menjadi 4 menit. Pada fase berikutnya, mereka memigrasikan model ML di seluruh rangkaian produk mereka dari instans berbasis GPU ke instans Inf1 berbasis AWS Inferentia. Migrasi ini hanya membutuhkan sedikit keterlibatan developer karena kode aplikasi tidak perlu ditulis ulang dan hanya membutuhkan beberapa baris perubahan kode. Actuate melihat penghematan biaya yang luar biasa hingga 70% saat menggunakan AWS Inferentia. Pada optimisasi lebih lanjut, mereka mengurangi biaya inferensi hingga 91% sehingga sumber daya mereka dapat digunakan untuk fokus pada peningkatan pengalaman pengguna dan penelitian AI yang mendasar.

Sumber daya: Untuk mempelajari selengkapnya mengenai kasus penggunaan Actuate, Anda dapat menonton presentasi mereka di reInvent. Untuk memulai model penglihatan komputer pada instans Inf1, kunjungi halaman dokumentasi Neuron dan jelajahi notebook mengenai model Yolov5 di GitHub ini.

Finch Computing | Wawasan waktu nyata menggunakan NLP pada aset informasi | Penghematan 80% pada biaya inferensi

Kasus penggunaan: Finch merupakan kombinasi dari kata “find” dan “search”, Computing melayani perusahaan media dan agregator data, organisasi intelijen dan pemerintah AS, serta perusahaan jasa keuangan. Produknya menggunakan algoritma pemrosesan bahasa alami (NLP) untuk memberikan wawasan yang dapat ditindaklanjuti ke dalam volume besar data teks di berbagai aset informasi. Contohnya, penetapan sentimen, yang melibatkan identifikasi sebagian konten sebagai positif, negatif, atau netral dan mengembalikan skor numerik yang menunjukkan tingkat dan tipe sentimen.

Peluang: Setelah menambahkan dukungan ke produk mereka untuk bahasa Belanda, Finch Computing ingin menskalakan lebih lanjut agar mendukung bahasa Prancis, Jerman, Spanyol, dan lainnya. Hal ini akan membantu klien yang sudah ada dengan konten dalam bahasa-bahasa ini, dan juga menarik pelanggan baru di seluruh Eropa. Finch Computing telah membangun dan melakukan deployment model terjemahan deep learning mereka sendiri pada GPU, yang memerlukan biaya mahal untuk mendukung bahasa tambahan. Perusahaan ini mencari solusi alternatif yang memungkinkan mereka membangun dan menjalankan model bahasa baru dengan cepat dan hemat biaya.

Solusi dan Dampak: Hanya dalam beberapa bulan, Finch Computing memigrasikan model terjemahan komputasi berat mereka dari instans berbasis GPU ke instans Inf1 Amazon EC2 yang ditenagai AWS Inferentia. Instans Inf1 mengaktifkan throughput yang sama dengan GPU, tetapi membantu Finch menghemat biaya lebih dari 80%. Finch Computing mendukung tiga bahasa tambahan dan menarik pelanggan baru. Saat ini semua model terjemahan mereka berjalan di Inf1 dan mereka berencana untuk menjelajahi instans Inf2 untuk kasus penggunaan AI generatif baru, seperti ringkasan teks dan pembuatan judul.

Sumber Daya: Untuk mempelajari selengkapnya mengenai kasus penggunaan Finch Computing, Anda dapat membaca studi kasus ini. Untuk memulai model terjemahan, kunjungi halaman dokumentasi Neuron dan lihat notebook untuk model MarianMT di GitHub ini.

AWS Inferentia untuk inferensi ML beperforma tinggi yang hemat biaya

Di blog ini, kami melihat dua startup yang melakukan deployment model ML secara hemat biaya dalam produksi di AWS Inferentia, sekaligus mencapai throughput tinggi dan latensi rendah.

Apakah Anda siap untuk memulai instans Inf1? Anda dapat menggunakan SDK AWS Neuron, yang terintegrasi secara native dengan kerangka kerja ML populer, seperti PyTorch dan TensorFlow. Untuk mempelajari caranya, silakan kunjungi halaman dokumentasi Neuron dan jelajahi contoh repositori model di GitHub ini.

Lihat cara startup AIML lainnya membangun dan menskalakan di AWS 🚀:

Shruti Koparkar

Shruti Koparkar

Shruti Koparkar adalah Senior Product Marketing Manager di AWS. Dia membantu pelanggan mengeksplorasi, mengevaluasi, dan mengadopsi infrastruktur komputasi yang dipercepat oleh Amazon EC2 untuk kebutuhan machine learning mereka.

Bagaimana konten ini?