Amazon Bedrock RAG ve Model Değerlendirmeleri artık özel ölçümleri destekliyor
Amazon Bedrock Değerlendirmeleri, Amazon Bedrock'ta veya çoklu bulut ve şirket içi dağıtımlarda barındırılsa da temel modelleri ve erişimle artırılmış üretim (RAG) sistemlerini değerlendirmenize olanak tanır. Bedrock Değerlendirmeleri, insan tabanlı değerlendirmeler, BERTScore, F1, diğer tam eşleşme ölçümleri gibi programatik değerlendirmelerin yanı sıra model ve RAG değerlendirmesi için yargıç olarak LLM'yi sunar. Müşteriler, yargıç olarak LLM ile hem model hem de RAG değerlendirmesi için doğruluk, bütünlük, sadakat (halüsinasyon tespiti) gibi kapsamlı bir yerleşik ölçüm listesinin yanı sıra yanıt reddetme, zararlılık ve kalıplaşma gibi sorumlu yapay zeka ölçümleri arasından seçim yapabilir. Ancak müşterilerin bu ölçümleri farklı şekilde tanımlamak veya ihtiyaçlarına uygun yeni ölçümler yapmak istedikleri zamanlar vardır. Örneğin, müşteriler bir uygulama yanıtının kendi marka tarzına uygunluğunu değerlendiren bir ölçüm tanımlayabilir veya yanıtları özel bir kategorik değerlendirme tablosuna göre sınıflandırmak isteyebilir.
Artık Amazon Bedrock Değerlendirmeleri, müşterilere model ve RAG değerlendirmesi için yargıç olarak LLM tarafından desteklenen özel ölçümler oluşturma ve yeniden kullanma olanağı sunar. Müşteriler kendi yargıç değerlendirme istemlerini yazabilir, kategorik veya sayısal derecelendirme ölçeklerini tanımlayabilir ve değerlendirmelerindeki veri akışını tamamen özelleştirmek için çalışma zamanında veri kümelerinden veya üretken yapay zeka yanıtlarından gelen verileri değerlendirme istemine dahil etmek üzere yerleşik değişkenleri kullanabilir. Müşteriler, sağlanan hızlı başlangıç şablonlarıyla yeni yargıç istemi şablonları/yönergeleri oluşturabilir veya sıfırdan kendi şablonlarını oluşturabilir.
Kullanmaya başlamak için Amazon Bedrock konsolunu ziyaret edin veya Bedrock API'lerini kullanın. Daha fazla bilgi edinmek için kullanıcı kılavuzuna bakın.