Deployment Model Amazon SageMaker

Lakukan deployment dan kelola model machine learning (ML) dengan mudah untuk inferensi

Mulai SageMaker Inference

Masuk ke konsol SageMaker.

Lakukan deployment model dalam produksi untuk inferensi untuk kasus penggunaan apa pun

Capai performa dan biaya inferensi yang optimal

Gunakan deployment siap MLOps untuk mengurangi beban operasional

Amazon SageMaker memudahkan dalam melakukan deployment model ML, termasuk model fondasi (FM) untuk membuat prediksi (juga dikenal sebagai inferensi) dengan performa harga terbaik untuk kasus penggunaan apa pun. Dari latensi rendah (beberapa milidetik) dan throughput tinggi (jutaan transaksi per detik) hingga inferensi yang berjalan lama untuk kasus penggunaan, seperti pemrosesan bahasa alami dan penglihatan komputer, Anda dapat menggunakan SageMaker untuk semua kebutuhan inferensinya. SageMaker adalah layanan terkelola penuh dan terintegrasi dengan alat MLOps sehingga Anda dapat menskalakan deployment model Anda, mengurangi biaya inferensi, mengelola model secara lebih efektif dalam produksi, dan mengurangi beban operasional.

Lakukan deployment model ML untuk inferensi (01:59)

Cara kerjanya

Cara kerja: Amazon SageMaker Inference

Berbagai opsi untuk setiap kasus penggunaan

Berbagai opsi inferensi

Dari latensi rendah (beberapa milidetik) dan throughput tinggi (ratusan ribu permintaan per detik) hingga inferensi yang berjalan lama untuk kasus penggunaan, seperti pemrosesan bahasa alami dan penglihatan komputer, Anda dapat menggunakan Amazon SageMaker untuk semua kebutuhan inferensi Anda.

Inferensi Waktu Nyata

Latensi rendah dan throughput ultratinggi untuk kasus penggunaan dengan pola lalu lintas stabil.

Pelajari selengkapnya »

Inferensi Nirserver

Latensi rendah dan throughput tinggi untuk kasus penggunaan dengan pola lalu lintas intermiten.

Pelajari selengkapnya »

Inferensi Asinkron

Latensi rendah untuk kasus penggunaan dengan muatan besar (hingga 1 GB) atau waktu pemrosesan yang lama (hingga 15 menit).

Pelajari selengkapnya »

Batch Transform

Inferensi offline pada batch data untuk kasus penggunaan dengan set data besar.

Pelajari selengkapnya »

Opsi titik akhir deployment yang fleksibel

Amazon SageMaker menyediakan cara yang dapat diskalakan dan hemat biaya untuk melakukan deployment sejumlah besar model ML. Dengan titik akhir multimodel SageMaker dan titik akhir multikontainer, Anda dapat melakukan deployment ribuan model pada infrastruktur bersama, yang meningkatkan efektivitas biaya sekaligus memberikan fleksibilitas untuk menggunakan model sesering yang Anda butuhkan. Titik akhir multimodel mendukung tipe instans CPU dan GPU sehingga dapat membantu Anda mengurangi biaya inferensi hingga 90%.

Titik akhir model tunggal

Satu model pada konteiner yang di-hosting pada instans khusus atau nirserver untuk latensi rendah dan throughput tinggi.

Pelajari selengkapnya »

Titik akhir multimodel

Beberapa model berbagi satu kontainer yang dilakukan hosting pada infrastruktur bersama untuk efektivitas biaya. Hal ini mengurangi biaya hosting dengan meningkatkan pemanfaatan titik akhir dibandingkan menggunakan titik akhir model tunggal.

Pelajari selengkapnya »

Titik akhir multikontainer

Beberapa kontainer berbagi instans khusus untuk model yang menggunakan kerangka kerja berbeda.

Pelajari selengkapnya »

Alur inferensi serial

Beberapa kontainer berbagi instans khusus dan melakukan eksekusi secara berurutan. Anda dapat menggunakan alur inferensi untuk menggabungkan tugas ilmu data prapemrosesan, prediksi, dan pascapemrosesan.

Pelajari selengkapnya »

Dukung sebagian besar kerangka kerja machine learning dan server model

Inferensi Amazon SageMaker mendukung algoritma bawaan dan citra Docker bawaan untuk beberapa kerangka kerja machine learning yang paling umum, seperti TensorFlow, PyTorch, ONNX, dan XGBoost. Jika tidak ada citra Docker bawaan yang memenuhi kebutuhan Anda, Anda dapat membuat kontainer Anda sendiri untuk digunakan dengan titik akhir multimodel yang didukung CPU. Inferensi SageMaker juga mendukung server model paling populer, seperti TensorFlow Serving, TorchServe, NVIDIA Triton, dan server multimodel AWS. Anda juga dapat mendukung model besar dengan penyajian DJL menggunakan kerangka kerja paralelisasi model DeepSpeed dan Hugging Face Accelerate. Dengan opsi ini, Anda dapat melakukan deployment model termasuk model fondasi (FM) dengan cepat untuk hampir semua kasus penggunaan.

TensorFlow

PyTorch

mxnet

TensorFlow

Capai performa inferensi tinggi dengan biaya rendah

Lakukan deployment model pada infrastruktur beperforma paling tinggi atau beroperasilah secara nirserver

Amazon SageMaker menawarkan lebih dari 70 tipe instans dengan berbagai tingkat komputasi dan memori, termasuk instans Inf1 Amazon EC2 berbasis AWS Inferentia, chip inferensi ML beperforma tinggi yang dirancang dan dibuat oleh AWS, dan instans GPU, seperti G4dn Amazon EC2. Atau, pilih Inferensi Nirserver Amazon SageMaker untuk dengan mudah menskalakan ke ribuan model per titik akhir, jutaan throughput transaksi per detik (TPS), dan latensi biaya tambahan sub10 milidetik.

Pelajari selengkapnya »

Infrastruktur Inferensi SageMaker

Uji bayangan untuk memvalidasi performa model ML

Amazon SageMaker membantu Anda mengevaluasi model baru dengan pengujian bayangan pada performanya terhadap model yang saat ini dilakukan deployment menggunakan permintaan inferensi langsung. Pengujian bayangan dapat membantu Anda menangkap potensi kesalahan konfigurasi dan masalah performa sebelum berdampak pada pengguna akhir. Dengan SageMaker, Anda tidak perlu menginvestasikan waktu berminggu-minggu untuk membangun infrastruktur pengujian bayangan Anda sendiri, yang berarti Anda dapat merilis model agar lebih cepat diproduksi. Cukup pilih model produksi yang ingin Anda uji dan SageMaker secara otomatis melakukan deployment model baru dalam mode bayangan dan merutekan salinan permintaan inferensi yang diterima oleh model produksi ke model baru secara langsung. SageMaker lalu membuat dasbor langsung yang menunjukkan metrik performa, seperti latensi dan tingkat kesalahan, model baru dan model produksi dengan perbandingan berdampingan. Setelah Anda meninjau hasil pengujian dan memvalidasi model, Anda dapat mempromosikannya ke produksi.

Dukungan SageMaker untuk pengujian bayangan

Pemilihan instans inferensi otomatis dan pengujian beban

Amazon SageMaker Inference Recommender membantu Anda memilih instans dan konfigurasi komputasi terbaik yang tersedia untuk melakukan deployment model machine learning demi performa dan biaya inferensi yang optimal. SageMaker Inference Recommender secara otomatis memilih tipe instans komputasi, jumlah instans, parameter kontainer, dan optimisasi model untuk inferensi guna memaksimalkan performa dan meminimalkan biaya.

Pelajari selengkapnya »

SageMaker Inference Recommender

Penskalaan otomatis untuk elastisitas

Anda dapat menggunakan kebijakan penskalaan untuk secara otomatis menskalakan sumber daya komputasi yang mendasarinya guna mengakomodasi fluktuasi permintaan inferensi. Dengan penskalaan otomatis, Anda dapat menonaktifkan instans ketika tidak digunakan untuk mencegah kapasitas diam dan mengurangi biaya inferensi.

Pelajari selengkapnya »

Kurangi beban operasional dan percepat waktu untuk menilai

Hosting dan manajemen model yang terkelola penuh

Sebagai layanan yang terkelola penuh, Amazon SageMaker menangani penyiapan dan pengelolaan instans, kompatibilitas versi perangkat lunak, dan versi tambalan. Amazon SageMaker juga menyediakan metrik dan log bawaan untuk titik akhir yang dapat Anda gunakan guna memantau dan menerima peringatan.

Pelajari selengkapnya »

Integrasi bawaan dengan fitur MLOps

Fitur deployment model Amazon SageMaker terintegrasi secara native dengan kemampuan MLOps, termasuk SageMaker Pipelines (otomatisasi dan orkestrasi alur kerja), Proyek SageMaker (CI/CD untuk ML), SageMaker Feature Store (manajemen fitur), SageMaker Model Registry (model dan katalog artefak untuk melacak silsilah dan mendukung alur kerja persetujuan otomatis), SageMaker Clarify (deteksi bias), dan Model SageMaker Monitor (deteksi penyimpangan model dan konsep). Akibatnya, meskipun Anda melakukan depolyment satu atau puluhan ribu model, SageMaker membantu mengurangi biaya tambahan operasional pelaksanaan untuk melakukan deployment, menskalakan, dan mengelola model ML sekaligus membuatnya lebih cepat berproduksi.

Pelajari selengkapnya »

SageMaker MLOps

Keberhasilan pelanggan

AT&T

AT&T Cybersecurity meningkatkan deteksi ancaman yang membutuhkan prediksi hampir waktu nyata menggunakan titik akhir multimodel Amazon SageMaker. “Titik akhir multimodel Amazon SageMaker tidak hanya hemat biaya, tetapi juga memberi kami sedikit peningkatan performa yang bagus yang dimulai dari penyederhanaan cara menyimpan model kami.”

Matthew Schneid Chief Architect - AT&T

Baca selengkapnya »

Forethought

Forethought Technologies, penyedia solusi AI generatif untuk layanan pelanggan, mengurangi biaya hingga 80 persen menggunakan Amazon SageMaker. “Dengan bermigrasi ke titik akhir multimodel Amazon SageMaker, kami mengurangi biaya hingga 66% sekaligus memberikan latensi yang lebih baik dan waktu respons yang lebih baik bagi pelanggan.”

Jad Chamoun, Director of Core Engineering - Forethought Technologies

Baca selengkapnya »

Bazaarvoice mengurangi biaya inferensi ML sebesar 82% menggunakan Inferensi Nirserver SageMaker. “Dengan Inferensi Nirserver SageMaker, kami dapat melakukan ML secara efisien dalam skala besar, dengan cepat mengeluarkan banyak model dengan biaya yang wajar dan dengan biaya tambahan operasional yang rendah.”

Lou Kratz, Rekayasawan Riset Utama (Principal Research Engineer), Bazaarvoice

Baca selengkapnya »

Tapjoy

Tapjoy menggunakan Amazon SageMaker untuk melakukan deployment Model ML dalam hitungan hari, alih-alih bulan. “Kami telah beralih dari proses yang memakan waktu sekitar tiga hingga enam bulan untuk melatih, membangun, dan melakukan deployment model. Sekarang dengan SageMaker, kami bisa melakukannya hanya dalam waktu satu minggu, atau bahkan mungkin lebih cepat.”

Nick Reffitt, Vice President of Data Science and Engineering - Tapjoy

Baca selengkapnya »

Hugging Face

Amazon SageMaker dan Hugging Face telah berkolaborasi untuk menyederhanakan dan mempercepat adopsi model transformator dengan Hugging Face DLC, integrasi dengan SageMaker Training Compiler, dan pustaka terdistribusi SageMaker.

Baca selengkapnya »

Zendesk melakukan hosting ribuan model ML di titik akhir multimodal Amazon SageMaker (MME) untuk fitur Makro yang Direkomendasikan dan mencapai penghematan biaya sebesar 90% dalam hal inferensi jika dibandingkan dengan titik akhir khusus. “Kami melakukan deployment ribuan model ML yang disesuaikan untuk lebih dari 100 rb pelanggan kami menggunakan titik akhir multimodel Amazon SageMaker (MME). Dengan SageMaker MME, kami membangun kemampuan inferensi multipenghuni dan ramah SaaS untuk meng-host beberapa model per titik akhir sehingga mengurangi biaya inferensi hingga 90% dibandingkan dengan titik akhir khusus.”

Chris Hausler, Kepala AI/ML (Head of AI/ML), Zendesk

Baca selengkapnya »

Sumber daya

Apa yang baru

Tetap ikuti pengumuman inferensi SageMaker terbaru

Baca selengkapnya »

Blog

Memperkenalkan dukungan untuk pengujian bayangan

Baca selengkapnya »

Video

AWS re:Invent 2022 - Lakukan deployment model ML untuk inferensi dengan performa tinggi & biaya rendah, ft AT&T (AIM302)

Tonton sekarang »

Mulai tutorial

Ikuti tutorial langkah demi langkah ini untuk melakukan deployment model untuk inferensi menggunakan Amazon SageMaker.

Pelajari selengkapnya

Tutorial memulai Amazon Pinpoint

Cobalah lokakarya mandiri

Di lab praktis ini, pelajari cara menggunakan Amazon SageMaker untuk membangun, melatih, dan melakukan deployment model ML.

Pelajari selengkapnya

Mulai membangun di konsol

Mulai membangun dengan Amazon SageMaker di Konsol Manajemen AWS.

Masuk

Apa yang baru

Hasil tidak ditemukan

1 …

…