Amazon SageMaker Clarify

Modelleri değerlendirin ve model tahminlerini açıklayın

Amazon SageMaker Clarify nedir?

Amazon SageMaker Clarify, model kalitesini iyileştirmek ve sorumlu yapay zeka girişimini desteklemek üzere doğruluk, sağlamlık, toksisite ve sapma gibi ölçümlere dayalı olarak ML modelleriniz ve verileriniz hakkında daha fazla öngörü edinmeniz için özel olarak oluşturulmuş araçlar sağlar. Üretici yapay zekanın yükselişiyle birlikte veri bilimcileri ve ML mühendisleri, pazara sunma hızını artırmak için herkese açık altyapı modellerinden (FM) yararlanıyor. Amazon SageMaker Clarify, kullanım durumunuz için doğru FM'yi değerlendirme ve seçme zorluğunu ortadan kaldırmak için farklı görevler arasında çeşitli kriterlere dayalı olarak kullanım durumunuz için en iyi FM'yi dakikalar içinde hızlı bir şekilde değerlendirmenize, karşılaştırmanıza ve seçmenize yardımcı olmak üzere FM değerlendirmesini destekler. FM'leri daha hızlı ve güvenle benimsemenizi sağlar. Tablo, bilgisayar görüşü ve zaman serisi modelleri için SageMaker Clarify, model geliştirme esnasında veya model dağıtımı sonrasında model açıklanabilirliği sağlar. Olası sorunları belirlemek için hem sapma hem de açıklanabilirlik raporlarını kullanabilir ve böylece doğruluğu iyileştirme, sapmayı ortadan kaldırma veya performansı artırma çabalarını yönlendirebilirsiniz.

SageMaker Clarify'ın Avantajları

Sorumlu yapay zeka girişiminizi desteklemek üzere FM'leri üretici yapay zeka kullanım durumunuz için doğruluk, sağlamlık ve toksisite gibi ölçümlerle otomatik olarak değerlendirin. Gelişmiş insan muhakemesi gerektiren kriterler veya nüanslı içerikler için kendi iş gücünüzden yararlanmayı tercih edebilir, model yanıtlarını incelemek içinse AWS'nin sağladığı yönetilen bir iş gücünü kullanabilirsiniz.
Model geliştirme ve çıkarım esnasında girdi özelliklerinin model tahminlerinize nasıl katkıda bulunduğunu açıklayın. Otomatik ve insan tabanlı değerlendirmeleri kullanarak özelleştirme esnasında FM'nizi değerlendirin.
FM özelleştirmesi ve MLOPS iş akışı boyunca anlaşılması kolay ölçümler, raporlar ve örnekler oluşturun.
Veri hazırlama ile model özelleştirme sırasında ve dağıtılan modellerinizde ISO 42001 gibi yönergelerde öngörülen potansiyel sapmaları ve diğer riskleri tespit edin.

Temel modellerini değerlendirin

Değerlendirme sihirbazı ve raporlar

Değerlendirme sihirbazı ve raporlar

Bir değerlendirme başlatmak için model, görev ve değerlendirme türü (insan temelli veya otomatik raporlama) seçin. Kullanım durumunuz için en iyi modeli seçmek ve istem mühendisliği, insan geri bildiriminden pekiştirmeli öğrenme (RLHF), retrieval-augmented generation (RAG) ve denetimli ince ayarlama (SFT) gibi model özelleştirme tekniklerinizin etkisini ölçmek üzere değerlendirme sonuçlarından yararlanın. Değerlendirme raporları, birden fazla boyutta puanları özetleyerek hızlı karşılaştırmalar ve kararlar sağlar. Daha ayrıntılı raporlar, en yüksek ve en düşük puanlı model çıktılarının örneklerini sağlayarak daha fazla optimize edilecek yerlere odaklanmanıza olanak tanır.
Özelleştirme

Özelleştirme

CrowS-Pairs, TriviaQA ve WikiText gibi seçilmiş veri kümeleri ve Bert-Score, Rouge ve F1 gibi seçilmiş algoritmalar ile hızlı bir şekilde başlayın. Üretici yapay zeka uygulamanıza özel kendi istem veri kümelerinizi ve puanlama algoritmalarınızı özelleştirebilirsiniz. Otomatik değerlendirme, herhangi bir yerde çalıştırabilmeniz için GitHub'da açık kaynaklı bir kütüphane olarak da mevcuttur. Örnek not defterleri, AWS'de barındırılmayan modeller de dahil olmak üzere herhangi bir altyapı modeli için programlı olarak değerlendirmeyi nasıl çalıştıracağınızı ve altyapı modeli değerlendirmelerini SageMaker MLOps ve SageMaker İşlem Hatları, SageMaker Model Kayıt Defteri ve SageMaker Model Kartları gibi yönetişim araçlarıyla nasıl entegre edeceğinizi gösterir.
İnsan temelli değerlendirmeler

İnsan temelli değerlendirmeler

Bazı değerlendirme kriterleri incelikli veya özneldir ve değerlendirmek için insan yargısını gerektirir. Otomatik, ölçüme dayalı değerlendirmelere ek olarak, insanlardan (kendi çalışanlarınızdan veya AWS tarafından yönetilen bir değerlendirme ekibinden) model çıktılarını faydalılık, ton ve marka sesine uyumluluk gibi yönlerden değerlendirmelerini isteyebilirsiniz. İnsan değerlendiriciler şirkete özgü yönergelerle, terimceyle ve marka sesiyle tutarlılığı da kontrol edebilir. Değerlendirme ekibinize istemlerin nasıl değerlendireceği konusunda talimat vermek için özel talimatlar ayarlayın, ör. sıralama veya onay/ret belirten başparmak işareti.
Model kalite değerlendirmeleri

Model kalite değerlendirmeleri

Otomatik ve/veya insan temelli değerlendirmeleri kullanarak belirli üretici AI göreviniz için yüksek kaliteli yanıtlar sağlayıp sağlamadığını belirlemek üzere altyapı modelinizi değerlendirin. Özetleme, soru cevaplama (Soru-Cevap) ve sınıflandırma gibi belirli üretici AI görevleri için uyarlanmış Bert Score, Rouge ve F1 gibi belirli değerlendirme algoritmalarıyla model doğruluğunu değerlendirin. ButterFingers, rastgele büyük harf ve beyaz boşluk ekle kaldır gibi girdilerin anlamsallığını koruyan bozulmaların istem olarak girildiği durumlarda altyapı modeli çıktınızın anlamsal sağlamlığını kontrol edin.
Model sorumluluk değerlendirmeleri

Model sorumluluk değerlendirmeleri

Otomatik ve/veya insan temelli değerlendirmeleri kullanarak altyapı modelinizin ırk/renk, cinsiyet/cinsiyet kimliği, cinsel yönelim, din, yaş, milliyet, engellilik, fiziksel görünüm ve sosyoekonomik durum kategorilerinde stereotipleri kodlama riskini değerlendirin. Zararlı içerik riskini de değerlendirebilirsiniz. Bu değerlendirmeler; açık uçlu oluşturma, özetleme ve soru yanıtlama dahil olmak üzere içerik oluşturmayı içeren herhangi bir göreve uygulanabilir.

Model tahminleri