Amazon Bedrock Değerlendirmeleri

İhtiyaçlarınıza uygun modelleri bulmak için özel ve içe aktarılan modeller de dahil olmak üzere altyapı modellerini değerlendirin. Ayrıca Amazon Bedrock Bilgi Tabanları’nda geri alma veya uçtan uca RAG iş akışınızı değerlendirebilirsiniz.

Genel Bakış

Amazon Bedrock, üretken yapay zeka uygulamalarının benimsenmesini hızlandırmanız için değerlendirme araçları sağlar. Model Değerlendirmesi ile kullanım örneğiniz için altyapı modelini değerlendirin, karşılaştırın ve seçin. Alma ya da alma ve oluşturma işlevlerini değerlendirerek Amazon Bedrock Bilgi Tabanları üzerinde oluşturulan RAG uygulamalarınızı üretim için hazırlayın.

Kullanıcı arabirimi ekran görüntüsü

Değerlendirme türleri

Doğruluk, eksiksizlik ve zararlılık gibi ölçümlerle özel istem veri kümelerinizi kullanarak model çıktılarını değerlendirmek için Yargıç olarak LLM olarak kullanın.

Model çıktılarını geleneksel doğal dil algoritmaları ve BERT Skoru, F1 ve diğer tam eşleştirme teknikleri gibi ölçümler kullanarak, yerleşik istem veri kümelerini kullanarak veya kendi veri kümelerinizi getirerek değerlendirin.

Model çıktılarını kendi iş gücünüzle değerlendirin veya AWS'nin özel istem veri kümelerinize verilen yanıtlarla ilgili değerlendirmelerinizi yerleşik veya özel ölçümlerle yönetmesini sağlayın.

Amazon Bedrock Bilgi Tabanlarınızın alma kalitesini özel istemlerinizin yanı sıra bağlam alaka düzeyi ve bağlam kapsamı gibi ölçümleriniz ile değerlendirin.

Amazon Bedrock Bilgi Tabanları ile uçtan uca RAG iş akışınızın oluşturulan içeriğini özel istemlerinizin yanı sıra sadakat, doğruluk ve eksiksizlik gibi ölçümleriniz ile değerlendirin.

Amazon Bedrock Bilgi Tabanları'nda uçtan uca RAG iş akışınızı değerlendirin

Uygulamanızın uçtan uca almayla artırılmış üretim (RAG) yeteneğini değerlendirmek için alma ve oluşturma değerlendirmelerini kullanın. Üretilen içeriğin doğru ve eksiksiz olduğundan, halüsinasyonları sınırladığından ve sorumlu yapay zeka ilkelerine bağlı olduğundan emin olun. Amazon Bedrock Bilgi Tabanlarınızla birlikte bir içerik üretim modeli ve yargıç olarak kullanmak üzere bir LLM seçin, özel istem veri kümenizi yükleyin ve değerlendirmeniz için en önemli ölçümleri seçin.

Kullanıcı arabirimi ekran görüntüsü

Amazon Bedrock Bilgi Tabanları'ndan eksiksiz ve alakalı alma sağlayın

Amazon Bedrock Bilgi Tabanlarınızın depolama ve alma ayarlarını değerlendirmek için Amazon Bedrock Bilgi Tabanları değerlendirmelerinde alma değerlendirmelerini kullanın. Alınan içeriklerin alakalı olduğundan ve tüm kullanıcı sorgusunu kapsadığından emin olun. Bir Bilgi Tabanı ve yargıç olarak kullanmak üzere bir LLM seçin, özel istem veri kümenizi yükleyin ve değerlendirmeniz için en önemli ölçümleri seçin.

Kullanıcı arabirimi ekran görüntüsü

FM'leri değerlendirerek kullanım durumunuz için en iyi olanı seçin

Amazon Bedrock Model Değerlendirmesi, belirli bir kullanım örneği için altyapı modellerini seçmek üzere otomatik ve insan değerlendirmelerini kullanmanıza olanak tanır. Otomatik (Programlı) model değerlendirmesi, seçilmiş ve özel veri kümelerini kullanır ve doğruluk, sağlamlık ve toksisite dahil olmak üzere önceden tanımlanmış ölçümler sağlar. Öznel ölçümler için Amazon Bedrock'ı kullanarak birkaç hızlı adım ile bir insan değerlendirmesi iş akışı oluşturabilirsiniz. İnsan değerlendirmeleriyle kendi veri kümelerinizi getirebilir ve alaka düzeyi, stil ve marka sesine uyum gibi özel ölçümler tanımlayabilirsiniz. İnsan değerlendirmesi iş akışları, inceleyici olarak kendi çalışanlarınızı kullanabilir veya insan değerlendirmesini gerçekleştirmesi için AWS tarafından yönetilen bir ekibi görevlendirebilirsiniz. Bu seçenekte AWS, yetenekli değerlendiricileri işe alır ve tüm iş akışını sizin adınıza yönetir. Ayrıca, veri kümenizde doğruluk, eksiksizlik, sadakat (halüsinasyon) gibi ölçümlerin yanı sıra yanıt reddetme ve zararlılık gibi sorumlu yapay zeka ölçümleriyle yüksek kaliteli değerlendirmeler sağlamak için bir Yargıç Olarak LLM kullanabilirsiniz.

Kullanıcı arabirimi ekran görüntüsü

Kararları daha hızlı almak için birden fazla değerlendirme işinden elde edilen sonuçları karşılaştırın

İstemlerinizde, değerlendirilen modellerde veya RAG sisteminizdeki Bilgi Tabanlarında yaptığınız değişikliklerin sonuçlarını görmek için değerlendirmelerde karşılaştırma özelliğini kullanın.

Kullanıcı arabirimi ekran görüntüsü