Deployment Model Amazon SageMaker

Lakukan deployment dan kelola model machine learning (ML) dengan mudah untuk inferensi

Apa itu Amazon SageMaker Model Deployment?

Amazon SageMaker mempermudah melakukan deployment model ML termasuk model fondasi (FM) untuk membuat permintaan inferensi dengan performa harga terbaik untuk setiap kasus penggunaan. Dari latensi rendah (beberapa milidetik) dan throughput tinggi (jutaan transaksi per detik) hingga inferensi yang berjalan lama untuk kasus penggunaan, seperti pemrosesan bahasa alami dan penglihatan komputer, Anda dapat menggunakan SageMaker untuk semua kebutuhan inferensi Anda. SageMaker adalah layanan yang terkelola penuh dan terintegrasi dengan alat MLOps, agar Anda dapat menskalakan deployment model, mengurangi biaya inferensi, mengelola model dengan lebih efektif dalam produksi, serta mengurangi beban operasional.

Keuntungan Deployment Model SageMaker

Dari latensi rendah (beberapa milidetik) dan throughput tinggi (jutaan transaksi per detik) hingga inferensi yang berjalan lama untuk kasus penggunaan, seperti pemrosesan bahasa alami dan penglihatan komputer, Anda dapat menggunakan SageMaker untuk semua kebutuhan inferensi Anda.
Amazon SageMaker menawarkan lebih dari 100 tipe instans dengan berbagai tingkat komputasi dan memori pada infrastruktur berperforma paling tinggi atau pilih Inferensi Nirserver Amazon SageMaker untuk menskalakan ke ribuan model per titik akhir dengan mudah. Anda dapat menggunakan penskalaan otomatis untuk menonaktifkan instans ketika tidak digunakan agar dapat mencegah kapasitas diam dan mengurangi biaya inferensi.
Sebagai layanan yang terkelola penuh, Amazon SageMaker menangani penyiapan dan pengelolaan instans, kompatibilitas versi perangkat lunak, dan versi tambalan. Melalui integrasi bawaan dengan fitur MLOps, Amazon SageMaker ini membantu mengurangi overhead operasional dari deployment, penskalaan, dan pengelolaan model ML sekaligus mempercepat waktu ke produksi dari model tersebut.

Berbagai opsi untuk setiap kasus penggunaan

Berbagai opsi inferensi

Dari latensi rendah (beberapa milidetik) dan throughput tinggi (jutaan transaksi per detik) hingga inferensi yang berjalan lama untuk kasus penggunaan seperti pemrosesan bahasa alami dan penglihatan komputer, Anda dapat menggunakan SageMaker untuk semua kebutuhan inferensi Anda.

Inferensi Waktu Nyata

Latensi rendah dan throughput ultratinggi untuk kasus penggunaan dengan pola lalu lintas stabil.

Inferensi Waktu Nyata

Inferensi Nirserver

Latensi rendah dan throughput tinggi untuk kasus penggunaan dengan pola lalu lintas intermiten.

Inferensi Nirserver

Inferensi Asinkron

Latensi rendah untuk kasus penggunaan dengan muatan besar (hingga 1 GB) atau waktu pemrosesan yang lama (hingga 15 menit).

Inferensi Asinkron

Batch Transform

Inferensi offline pada batch data untuk kasus penggunaan dengan set data besar.

Batch Transform

Opsi deployment yang dapat diskalakan dan hemat biaya

Amazon SageMaker menyediakan cara yang dapat diskalakan dan hemat biaya untuk melakukan deployment sejumlah besar model ML. Dengan beberapa model SageMaker pada titik akhir tunggal, Anda dapat melakukan deployment ribuan model pada infrastruktur bersama, yang meningkatkan efektivitas biaya sekaligus memberikan fleksibilitas untuk menggunakan model sesering yang Anda butuhkan. Beberapa model pada titik akhir tunggal mendukung tipe instans CPU dan GPU, yang dapat membantu Anda mengurangi biaya inferensi hingga 50%

Titik akhir model tunggal

Satu model pada konteiner yang di-hosting pada instans khusus atau nirserver untuk latensi rendah dan throughput tinggi.

Titik akhir model tunggal

Banyak model di satu titik akhir

Host beberapa model ke instans yang sama untuk memanfaatkan akselerator yang mendasarinya dengan lebih baik, sehingga mengurangi biaya deployment hingga 50%. Anda dapat mengontrol kebijakan penskalaan untuk setiap FM secara terpisah, sehingga lebih mudah untuk beradaptasi dengan pola penggunaan model sekaligus mengoptimalkan biaya infrastruktur.

Titik akhir multimodel

Alur inferensi serial

Beberapa kontainer berbagi instans khusus dan melakukan eksekusi secara berurutan. Anda dapat menggunakan alur inferensi untuk menggabungkan tugas ilmu data prapemrosesan, prediksi, dan pascapemrosesan.

Alur inferensi serial

Dukungan untuk sebagian besar kerangka kerja machine learning dan server model

Inferensi Amazon SageMaker mendukung algoritma bawaan dan citra Docker bawaan untuk beberapa kerangka kerja machine learning yang paling umum, seperti TensorFlow, PyTorch, ONNX, dan XGBoost. Jika tidak ada citra Docker bawaan yang memenuhi kebutuhan Anda, Anda dapat membuat kontainer Anda sendiri untuk digunakan dengan titik akhir multimodel yang didukung CPU. Inferensi SageMaker juga mendukung server model paling populer, seperti TensorFlow Serving, TorchServe, NVIDIA Triton, dan server multimodel AWS.

Amazon SageMaker menawarkan kontainer deep learning (DLC) khusus, pustaka, dan alat untuk paralelisme model serta inferensi model besar (LMI), untuk membantu Anda meningkatkan performa model fondasi. Dengan opsi ini, Anda dapat melakukan deployment model termasuk model fondasi (FM) dengan cepat untuk hampir semua kasus penggunaan.


Pelajari Selengkapnya
 

TensorFlow
PyTorch
mxnet
Logo Hugging Face
TensorFlow