Apa itu Amazon SageMaker Model Deployment?
Amazon SageMaker mempermudah melakukan deployment model ML termasuk model fondasi (FM) untuk membuat permintaan inferensi dengan performa harga terbaik untuk setiap kasus penggunaan. Dari latensi rendah (beberapa milidetik) dan throughput tinggi (jutaan transaksi per detik) hingga inferensi yang berjalan lama untuk kasus penggunaan, seperti pemrosesan bahasa alami dan penglihatan komputer, Anda dapat menggunakan SageMaker untuk semua kebutuhan inferensi Anda. SageMaker adalah layanan yang terkelola penuh dan terintegrasi dengan alat MLOps, agar Anda dapat menskalakan deployment model, mengurangi biaya inferensi, mengelola model dengan lebih efektif dalam produksi, serta mengurangi beban operasional.
Keuntungan Deployment Model SageMaker
Berbagai opsi untuk setiap kasus penggunaan
Berbagai opsi inferensi
Dari latensi rendah (beberapa milidetik) dan throughput tinggi (jutaan transaksi per detik) hingga inferensi yang berjalan lama untuk kasus penggunaan seperti pemrosesan bahasa alami dan penglihatan komputer, Anda dapat menggunakan SageMaker untuk semua kebutuhan inferensi Anda.
Inferensi Waktu Nyata
Latensi rendah dan throughput ultratinggi untuk kasus penggunaan dengan pola lalu lintas stabil.
Inferensi Nirserver
Latensi rendah dan throughput tinggi untuk kasus penggunaan dengan pola lalu lintas intermiten.
Inferensi Asinkron
Latensi rendah untuk kasus penggunaan dengan muatan besar (hingga 1 GB) atau waktu pemrosesan yang lama (hingga 15 menit).
Batch Transform
Inferensi offline pada batch data untuk kasus penggunaan dengan set data besar.
Opsi deployment yang dapat diskalakan dan hemat biaya
Amazon SageMaker menyediakan cara yang dapat diskalakan dan hemat biaya untuk melakukan deployment sejumlah besar model ML. Dengan beberapa model SageMaker pada titik akhir tunggal, Anda dapat melakukan deployment ribuan model pada infrastruktur bersama, yang meningkatkan efektivitas biaya sekaligus memberikan fleksibilitas untuk menggunakan model sesering yang Anda butuhkan. Beberapa model pada titik akhir tunggal mendukung tipe instans CPU dan GPU, yang dapat membantu Anda mengurangi biaya inferensi hingga 50%
Titik akhir model tunggal
Satu model pada konteiner yang di-hosting pada instans khusus atau nirserver untuk latensi rendah dan throughput tinggi.
Banyak model di satu titik akhir
Host beberapa model ke instans yang sama untuk memanfaatkan akselerator yang mendasarinya dengan lebih baik, sehingga mengurangi biaya deployment hingga 50%. Anda dapat mengontrol kebijakan penskalaan untuk setiap FM secara terpisah, sehingga lebih mudah untuk beradaptasi dengan pola penggunaan model sekaligus mengoptimalkan biaya infrastruktur.
Alur inferensi serial
Beberapa kontainer berbagi instans khusus dan melakukan eksekusi secara berurutan. Anda dapat menggunakan alur inferensi untuk menggabungkan tugas ilmu data prapemrosesan, prediksi, dan pascapemrosesan.
Dukungan untuk sebagian besar kerangka kerja machine learning dan server model
Inferensi Amazon SageMaker mendukung algoritma bawaan dan citra Docker bawaan untuk beberapa kerangka kerja machine learning yang paling umum, seperti TensorFlow, PyTorch, ONNX, dan XGBoost. Jika tidak ada citra Docker bawaan yang memenuhi kebutuhan Anda, Anda dapat membuat kontainer Anda sendiri untuk digunakan dengan titik akhir multimodel yang didukung CPU. Inferensi SageMaker juga mendukung server model paling populer, seperti TensorFlow Serving, TorchServe, NVIDIA Triton, dan server multimodel AWS.
Amazon SageMaker menawarkan kontainer deep learning (DLC) khusus, pustaka, dan alat untuk paralelisme model serta inferensi model besar (LMI), untuk membantu Anda meningkatkan performa model fondasi. Dengan opsi ini, Anda dapat melakukan deployment model termasuk model fondasi (FM) dengan cepat untuk hampir semua kasus penggunaan.