Amazon SageMaker Clarify

Modelleri değerlendirin ve model tahminlerini açıklayın

Amazon SageMaker Clarify nedir?

SageMaker Clarify'ın Avantajları

Sorumlu yapay zeka girişiminizi desteklemek üzere FM'leri üretici yapay zeka kullanım durumunuz için doğruluk, sağlamlık ve toksisite gibi ölçümlerle otomatik olarak değerlendirin. Gelişmiş insan muhakemesi gerektiren kriterler veya nüanslı içerikler için kendi iş gücünüzden yararlanmayı tercih edebilir, model yanıtlarını incelemek içinse AWS'nin sağladığı yönetilen bir iş gücünü kullanabilirsiniz.
Model geliştirme ve çıkarım esnasında girdi özelliklerinin model tahminlerinize nasıl katkıda bulunduğunu açıklayın. Otomatik ve insan tabanlı değerlendirmeleri kullanarak özelleştirme esnasında FM'nizi değerlendirin.
FM özelleştirmesi ve MLOPS iş akışı boyunca anlaşılması kolay ölçümler, raporlar ve örnekler oluşturun.
Veri hazırlama ile model özelleştirme sırasında ve dağıtılan modellerinizde ISO 42001 gibi yönergelerde öngörülen potansiyel sapmaları ve diğer riskleri tespit edin.

Temel modellerini değerlendirin

Değerlendirme sihirbazı ve raporlar

Bir değerlendirme başlatmak için model, görev ve değerlendirme türü (insan temelli veya otomatik raporlama) seçin. Kullanım durumunuz için en iyi modeli seçmek ve istem mühendisliği, insan geri bildiriminden pekiştirmeli öğrenme (RLHF), retrieval-augmented generation (RAG) ve denetimli ince ayarlama (SFT) gibi model özelleştirme tekniklerinizin etkisini ölçmek üzere değerlendirme sonuçlarından yararlanın. Değerlendirme raporları, birden fazla boyutta puanları özetleyerek hızlı karşılaştırmalar ve kararlar sağlar. Daha ayrıntılı raporlar, en yüksek ve en düşük puanlı model çıktılarının örneklerini sağlayarak daha fazla optimize edilecek yerlere odaklanmanıza olanak tanır.
Değerlendirme sihirbazı ve raporlar

Özelleştirme

CrowS-Pairs, TriviaQA ve WikiText gibi seçilmiş veri kümeleri ve Bert-Score, Rouge ve F1 gibi seçilmiş algoritmalar ile hızlı bir şekilde başlayın. Üretici yapay zeka uygulamanıza özel kendi istem veri kümelerinizi ve puanlama algoritmalarınızı özelleştirebilirsiniz. Otomatik değerlendirme, herhangi bir yerde çalıştırabilmeniz için GitHub'da açık kaynaklı bir kütüphane olarak da mevcuttur. Örnek not defterleri, AWS'de barındırılmayan modeller de dahil olmak üzere herhangi bir altyapı modeli için programlı olarak değerlendirmeyi nasıl çalıştıracağınızı ve altyapı modeli değerlendirmelerini SageMaker MLOps ve SageMaker İşlem Hatları, SageMaker Model Kayıt Defteri ve SageMaker Model Kartları gibi yönetişim araçlarıyla nasıl entegre edeceğinizi gösterir.
Özelleştirme

İnsan temelli değerlendirmeler

Bazı değerlendirme kriterleri incelikli veya özneldir ve değerlendirmek için insan yargısını gerektirir. Otomatik, ölçüme dayalı değerlendirmelere ek olarak, insanlardan (kendi çalışanlarınızdan veya AWS tarafından yönetilen bir değerlendirme ekibinden) model çıktılarını faydalılık, ton ve marka sesine uyumluluk gibi yönlerden değerlendirmelerini isteyebilirsiniz. İnsan değerlendiriciler şirkete özgü yönergelerle, terimceyle ve marka sesiyle tutarlılığı da kontrol edebilir. Değerlendirme ekibinize istemlerin nasıl değerlendireceği konusunda talimat vermek için özel talimatlar ayarlayın, ör. sıralama veya onay/ret belirten başparmak işareti.
İnsan temelli değerlendirmeler

Model kalite değerlendirmeleri

Otomatik ve/veya insan temelli değerlendirmeleri kullanarak belirli üretici AI göreviniz için yüksek kaliteli yanıtlar sağlayıp sağlamadığını belirlemek üzere altyapı modelinizi değerlendirin. Özetleme, soru cevaplama (Soru-Cevap) ve sınıflandırma gibi belirli üretici AI görevleri için uyarlanmış Bert Score, Rouge ve F1 gibi belirli değerlendirme algoritmalarıyla model doğruluğunu değerlendirin. ButterFingers, rastgele büyük harf ve beyaz boşluk ekle kaldır gibi girdilerin anlamsallığını koruyan bozulmaların istem olarak girildiği durumlarda altyapı modeli çıktınızın anlamsal sağlamlığını kontrol edin.
Model kalite değerlendirmeleri

Model sorumluluk değerlendirmeleri

Otomatik ve/veya insan temelli değerlendirmeleri kullanarak altyapı modelinizin ırk/renk, cinsiyet/cinsiyet kimliği, cinsel yönelim, din, yaş, milliyet, engellilik, fiziksel görünüm ve sosyoekonomik durum kategorilerinde stereotipleri kodlama riskini değerlendirin. Zararlı içerik riskini de değerlendirebilirsiniz. Bu değerlendirmeler; açık uçlu oluşturma, özetleme ve soru yanıtlama dahil olmak üzere içerik oluşturmayı içeren herhangi bir göreve uygulanabilir.

Model sorumluluk değerlendirmeleri

Model tahminleri

Model tahminlerini açıklayın

SageMaker Clarify; tablo, doğal dil işleme (NLP) ve bilgisayarlı görü modelleri için belirli bir girişte model tahmininize en çok katkıda bulunan özelliklerin ayrıntılarını veren puanlar sağlamak üzere SageMaker Deneyler ile entegre edilmiştir. SageMaker Clarify, tablo veri kümeleri için modelin genel tahmin sürecine ilişkin öngörüler sağlayan toplu bir özellik önem tablosu da çıkarabilir. Bu ayrıntılar, belirli bir model girdisinin, genel model davranışında olması beklenenden daha çok etkisi olup olmadığının belirlenmesine yardımcı olabilir.
SageMaker Experiments'te, eğitilen bir model için özellik önemi grafiğinin ekran görüntüsü

Modelinizdeki davranış değişikliklerini izleyin

Canlı verilerdeki değişiklikler, modelinizin yeni bir davranışını ortaya çıkarabilir. Örneğin, bir coğrafi bölgeden gelen verilerle eğitilen bir kredi riski tahmin modeli, başka bir bölgeden gelen verilere uygulandığında çeşitli özelliklere verdiği önemi değiştirebilir. SageMaker Clarify, giriş özelliklerinin öneminin değişmesi ve model davranışının değişmesine neden olması durumunda CloudWatch gibi uyarı sistemlerini kullanarak sizi bilgilendirmek için SageMaker Model İzleyici ile entegre edilmiştir.
SageMaker Model Monitor'da özellik önemi izlemenin ekran görüntüsü