Tutup
Semua Fitur
Autopilot
Clarify
Data Wrangler
Deploy
Edge Manager
Experiments
Feature Store
HyperPod
Tata Kelola ML
MLOps
Notebook
Ground Truth
JumpStart
Pipelines
Studio Lab
Pelatihan
Apa itu Amazon SageMaker Clarify?
Keuntungan SageMaker Clarify
Evaluasi model fondasi
Wizard evaluasi dan laporan
Untuk meluncurkan evaluasi, pilih model, tugas, dan tipe evaluasi — pelaporan berbasis manusia atau otomatis. Manfaatkan hasil evaluasi untuk memilih model terbaik untuk kasus penggunaan Anda, dan untuk mengukur dampak teknik penyesuaian model Anda, seperti rekayasa perintah, pembelajaran penguatan dari umpan balik manusia (RLHF), pembuatan dengan peningkatan temuan (RAG), dan penyempurnaan yang diawasi (SFT). Laporan evaluasi meringkas skor di berbagai dimensi, memungkinkan perbandingan dan pengambilan keputusan dengan cepat. Laporan yang lebih terperinci memberikan contoh output model dengan skor tertinggi dan terendah, sehingga Anda dapat fokus pada bagian mana yang perlu dioptimalkan lebih lanjut.
Kustomisasi
Mulailah dengan cepat menggunakan set data yang dikurasi, seperti CrowS-Pairs, TriviaQA, dan WikiText, serta algoritma yang dikurasi, seperti Bert-Score, Rouge, dan F1. Anda dapat menyesuaikan set data perintah dan algoritma penilaian khusus untuk aplikasi AI generatif Anda. Evaluasi otomatis juga tersedia sebagai pustaka sumber terbuka di GitHub agar Anda dapat menjalankannya di mana saja. Sampel notebook menunjukkan kepada Anda cara menjalankan evaluasi secara terprogram untuk FM apa pun, termasuk model yang tidak di-hosting di AWS, dan cara mengintegrasikan evaluasi FM dengan SageMaker MLOps dan alat tata kelola, seperti SageMaker Pipelines, SageMaker Model Registry, dan SageMaker Model Cards.
Evaluasi berbasis manusia
Beberapa kriteria evaluasi bersifat subjektif dan memerlukan pendapat manusia untuk menilainya. Selain evaluasi otomatis berbasis metrik, Anda dapat meminta manusia (baik karyawan Anda sendiri maupun tim evaluasi yang dikelola AWS), untuk mengevaluasi output model pada dimensi seperti kegunaan, nada, dan kepatuhan terhadap suara merek. Evaluator manusia juga dapat memeriksa konsistensi dengan pedoman, nomenklatur, dan suara merek khusus perusahaan. Siapkan instruksi khusus untuk memberikan instruksi kepada tim evaluasi Anda tentang cara mengevaluasi perintah, misalnya dengan memberi peringkat atau menunjukkan jempol ke atas/bawah.
Evaluasi kualitas model
Evaluasi FM Anda untuk menentukan apakah FM memberikan respons berkualitas tinggi untuk tugas AI generatif spesifik Anda menggunakan evaluasi otomatis dan/atau berbasis manusia. Evaluasi akurasi model dengan algoritma evaluasi spesifik, seperti Bert Score, Rouge, dan F1, yang disesuaikan untuk tugas AI generatif tertentu, seperti ringkasan, menjawab pertanyaan (Tanya Jawab), dan klasifikasi. Periksa ketahanan semantik output FM Anda saat diuji dengan gangguan yang mempertahankan semantik pada input, seperti ButterFingers, huruf besar acak, dan penambahan penghapusan spasi.
Evaluasi tanggung jawab model
Evaluasi risiko FM Anda mengodekan stereotipe berdasarkan kategori ras/warna kulit, jenis kelamin/identitas jenis kelamin, orientasi seksual, agama, usia, kebangsaan, disabilitas, penampilan fisik, dan status sosial ekonomi menggunakan evaluasi otomatis dan/atau berbasis manusia. Anda juga dapat mengevaluasi risiko konten beracun. Evaluasi ini dapat diterapkan pada tugas apa pun yang melibatkan pembuatan konten, termasuk pembuatan jawaban terbuka, ringkasan, dan menjawab pertanyaan.
Prediksi model
Jelaskan prediksi model
SageMaker Clarify terintegrasi dengan SageMaker Experiments untuk memberikan skor yang menjelaskan fitur mana yang paling berkontribusi pada prediksi model Anda di input tertentu untuk model tabular, pemrosesan bahasa alami (NLP), dan penglihatan komputer. Untuk set data tabular, SageMaker Clarify juga dapat menghasilkan bagan kepentingan fitur gabungan yang memberikan wawasan tentang keseluruhan proses prediksi model. Detail ini dapat membantu menentukan apakah input model tertentu memiliki pengaruh lebih besar dari yang diharapkan pada perilaku model secara keseluruhan.
Pantau apakah model Anda memiliki perubahan perilaku
Perubahan pada data langsung dapat mengekspos perilaku baru model Anda. Misalnya, model prediksi risiko kredit yang dilatih pada data dari satu wilayah geografis dapat mengubah kepentingan yang diberikannya ke berbagai fitur ketika diterapkan ke data dari wilayah lain. SageMaker Clarify terintegrasi dengan SageMaker Model Monitor untuk memberi tahu Anda menggunakan sistem peringatan seperti CloudWatch jika kepentingan fitur input berubah, yang menyebabkan perilaku model berubah.