Kapat
Amazon SageMaker Birleşik Stüdyosu
Amazon SageMaker Lakehouse
Amazon SageMaker Veri ve Yapay Zeka Yönetişimi
Amazon SageMaker Yapay Zeka
Amazon Bedrock IDE
SQL Analizi
Amazon SageMaker Veri İşleme
Amazon SageMaker Clarify nedir?
SageMaker Clarify'ın Avantajları
Temel modellerini değerlendirin
Değerlendirme sihirbazı ve raporlar
Bir değerlendirme başlatmak için model, görev ve değerlendirme türü (insan temelli veya otomatik raporlama) seçin. Kullanım durumunuz için en iyi modeli seçmek ve istem mühendisliği, insan geri bildiriminden pekiştirmeli öğrenme (RLHF), retrieval-augmented generation (RAG) ve denetimli ince ayarlama (SFT) gibi model özelleştirme tekniklerinizin etkisini ölçmek üzere değerlendirme sonuçlarından yararlanın. Değerlendirme raporları, birden fazla boyutta puanları özetleyerek hızlı karşılaştırmalar ve kararlar sağlar. Daha ayrıntılı raporlar, en yüksek ve en düşük puanlı model çıktılarının örneklerini sağlayarak daha fazla optimize edilecek yerlere odaklanmanıza olanak tanır.
Özelleştirme
CrowS-Pairs, TriviaQA ve WikiText gibi seçilmiş veri kümeleri ve Bert-Score, Rouge ve F1 gibi seçilmiş algoritmalar ile hızlı bir şekilde başlayın. Üretici yapay zeka uygulamanıza özel kendi istem veri kümelerinizi ve puanlama algoritmalarınızı özelleştirebilirsiniz. Otomatik değerlendirme, herhangi bir yerde çalıştırabilmeniz için GitHub'da açık kaynaklı bir kütüphane olarak da mevcuttur. Örnek not defterleri, AWS'de barındırılmayan modeller de dahil olmak üzere herhangi bir altyapı modeli için programlı olarak değerlendirmeyi nasıl çalıştıracağınızı ve altyapı modeli değerlendirmelerini SageMaker MLOps ve SageMaker İşlem Hatları, SageMaker Model Kayıt Defteri ve SageMaker Model Kartları gibi yönetişim araçlarıyla nasıl entegre edeceğinizi gösterir.
İnsan temelli değerlendirmeler
Bazı değerlendirme kriterleri incelikli veya özneldir ve değerlendirmek için insan yargısını gerektirir. Otomatik, ölçüme dayalı değerlendirmelere ek olarak, insanlardan (kendi çalışanlarınızdan veya AWS tarafından yönetilen bir değerlendirme ekibinden) model çıktılarını faydalılık, ton ve marka sesine uyumluluk gibi yönlerden değerlendirmelerini isteyebilirsiniz. İnsan değerlendiriciler şirkete özgü yönergelerle, terimceyle ve marka sesiyle tutarlılığı da kontrol edebilir. Değerlendirme ekibinize istemlerin nasıl değerlendireceği konusunda talimat vermek için özel talimatlar ayarlayın, ör. sıralama veya onay/ret belirten başparmak işareti.
Model kalite değerlendirmeleri
Otomatik ve/veya insan temelli değerlendirmeleri kullanarak belirli üretici AI göreviniz için yüksek kaliteli yanıtlar sağlayıp sağlamadığını belirlemek üzere altyapı modelinizi değerlendirin. Özetleme, soru cevaplama (Soru-Cevap) ve sınıflandırma gibi belirli üretici AI görevleri için uyarlanmış Bert Score, Rouge ve F1 gibi belirli değerlendirme algoritmalarıyla model doğruluğunu değerlendirin. ButterFingers, rastgele büyük harf ve beyaz boşluk ekle kaldır gibi girdilerin anlamsallığını koruyan bozulmaların istem olarak girildiği durumlarda altyapı modeli çıktınızın anlamsal sağlamlığını kontrol edin.
Model sorumluluk değerlendirmeleri
Otomatik ve/veya insan temelli değerlendirmeleri kullanarak altyapı modelinizin ırk/renk, cinsiyet/cinsiyet kimliği, cinsel yönelim, din, yaş, milliyet, engellilik, fiziksel görünüm ve sosyoekonomik durum kategorilerinde stereotipleri kodlama riskini değerlendirin. Zararlı içerik riskini de değerlendirebilirsiniz. Bu değerlendirmeler; açık uçlu oluşturma, özetleme ve soru yanıtlama dahil olmak üzere içerik oluşturmayı içeren herhangi bir göreve uygulanabilir.