Amazon SageMaker Clarify

Evaluasi model dan jelaskan prediksi model

Apa itu Amazon SageMaker Clarify?

Keuntungan SageMaker Clarify

Evaluasi FM untuk kasus penggunaan AI generatif secara otomatis dengan berbagai metrik, seperti akurasi, ketahanan, dan toksisitas, untuk mendukung inisiatif AI yang bertanggung jawab. Untuk kriteria atau konten samar yang membutuhkan penilaian manusia yang canggih, Anda dapat memilih untuk memanfaatkan tenaga kerja Anda sendiri atau menggunakan tenaga kerja terkelola yang disediakan AWS untuk meninjau respons model.
Jelaskan cara fitur input berkontribusi pada prediksi model Anda selama pengembangan model dan inferensi. Evaluasi FM Anda selama penyesuaian menggunakan evaluasi otomatis dan berbasis manusia.
Hasilkan metrik, laporan, dan contoh yang mudah dipahami di seluruh kustomisasi FM dan alur kerja MLOps.
Deteksi potensi bias dan risiko lainnya, seperti yang ditentukan oleh pedoman seperti ISO 42001, selama persiapan data, penyesuaian model, dan dalam model yang Anda deploy.

Evaluasi model fondasi

Wizard evaluasi dan laporan

Untuk meluncurkan evaluasi, pilih model, tugas, dan tipe evaluasi — pelaporan berbasis manusia atau otomatis. Manfaatkan hasil evaluasi untuk memilih model terbaik untuk kasus penggunaan Anda, dan untuk mengukur dampak teknik penyesuaian model Anda, seperti rekayasa perintah, pembelajaran penguatan dari umpan balik manusia (RLHF), pembuatan dengan peningkatan temuan (RAG), dan penyempurnaan yang diawasi (SFT). Laporan evaluasi meringkas skor di berbagai dimensi, memungkinkan perbandingan dan pengambilan keputusan dengan cepat. Laporan yang lebih terperinci memberikan contoh output model dengan skor tertinggi dan terendah, sehingga Anda dapat fokus pada bagian mana yang perlu dioptimalkan lebih lanjut.
Wizard evaluasi dan laporan

Kustomisasi

Mulailah dengan cepat menggunakan set data yang dikurasi, seperti CrowS-Pairs, TriviaQA, dan WikiText, serta algoritma yang dikurasi, seperti Bert-Score, Rouge, dan F1. Anda dapat menyesuaikan set data perintah dan algoritma penilaian khusus untuk aplikasi AI generatif Anda. Evaluasi otomatis juga tersedia sebagai pustaka sumber terbuka di GitHub agar Anda dapat menjalankannya di mana saja. Sampel notebook menunjukkan kepada Anda cara menjalankan evaluasi secara terprogram untuk FM apa pun, termasuk model yang tidak di-hosting di AWS, dan cara mengintegrasikan evaluasi FM dengan SageMaker MLOps dan alat tata kelola, seperti SageMaker Pipelines, SageMaker Model Registry, dan SageMaker Model Cards.
Kustomisasi

Evaluasi berbasis manusia

Beberapa kriteria evaluasi bersifat subjektif dan memerlukan pendapat manusia untuk menilainya. Selain evaluasi otomatis berbasis metrik, Anda dapat meminta manusia (baik karyawan Anda sendiri maupun tim evaluasi yang dikelola AWS), untuk mengevaluasi output model pada dimensi seperti kegunaan, nada, dan kepatuhan terhadap suara merek. Evaluator manusia juga dapat memeriksa konsistensi dengan pedoman, nomenklatur, dan suara merek khusus perusahaan. Siapkan instruksi khusus untuk memberikan instruksi kepada tim evaluasi Anda tentang cara mengevaluasi perintah, misalnya dengan memberi peringkat atau menunjukkan jempol ke atas/bawah.
Evaluasi berbasis manusia

Evaluasi kualitas model

Evaluasi FM Anda untuk menentukan apakah FM memberikan respons berkualitas tinggi untuk tugas AI generatif spesifik Anda menggunakan evaluasi otomatis dan/atau berbasis manusia. Evaluasi akurasi model dengan algoritma evaluasi spesifik, seperti Bert Score, Rouge, dan F1, yang disesuaikan untuk tugas AI generatif tertentu, seperti ringkasan, menjawab pertanyaan (Tanya Jawab), dan klasifikasi. Periksa ketahanan semantik output FM Anda saat diuji dengan gangguan yang mempertahankan semantik pada input, seperti ButterFingers, huruf besar acak, dan penambahan penghapusan spasi.
Evaluasi kualitas model

Evaluasi tanggung jawab model

Evaluasi risiko FM Anda mengodekan stereotipe berdasarkan kategori ras/warna kulit, jenis kelamin/identitas jenis kelamin, orientasi seksual, agama, usia, kebangsaan, disabilitas, penampilan fisik, dan status sosial ekonomi menggunakan evaluasi otomatis dan/atau berbasis manusia. Anda juga dapat mengevaluasi risiko konten beracun. Evaluasi ini dapat diterapkan pada tugas apa pun yang melibatkan pembuatan konten, termasuk pembuatan jawaban terbuka, ringkasan, dan menjawab pertanyaan.

Evaluasi tanggung jawab model

Prediksi model

Jelaskan prediksi model

SageMaker Clarify terintegrasi dengan SageMaker Experiments untuk memberikan skor yang menjelaskan fitur mana yang paling berkontribusi pada prediksi model Anda di input tertentu untuk model tabular, pemrosesan bahasa alami (NLP), dan penglihatan komputer. Untuk set data tabular, SageMaker Clarify juga dapat menghasilkan bagan kepentingan fitur gabungan yang memberikan wawasan tentang keseluruhan proses prediksi model. Detail ini dapat membantu menentukan apakah input model tertentu memiliki pengaruh lebih besar dari yang diharapkan pada perilaku model secara keseluruhan.
Tangkapan layar grafik pentingnya fitur untuk model terlatih dalam Eksperimen SageMaker

Pantau apakah model Anda memiliki perubahan perilaku

Perubahan pada data langsung dapat mengekspos perilaku baru model Anda. Misalnya, model prediksi risiko kredit yang dilatih pada data dari satu wilayah geografis dapat mengubah kepentingan yang diberikannya ke berbagai fitur ketika diterapkan ke data dari wilayah lain. SageMaker Clarify terintegrasi dengan SageMaker Model Monitor untuk memberi tahu Anda menggunakan sistem peringatan seperti CloudWatch jika kepentingan fitur input berubah, yang menyebabkan perilaku model berubah.
Tangkapan layar pemantauan kepentingan fitur di SageMaker Model Monitor