Amazon Bedrock RAG 和模型評估現在支援自訂指標

張貼日期: 2025年4月17日

Amazon Bedrock 評估可讓您評估基礎模型和擷取檢索增強生成 (RAG) 系統，無論是託管在 Amazon Bedrock 上還是多雲端和內部部署中。Bedrock 評估提供以人為基礎的評價、程式化評估，例如 BERTScore、F1 等完全匹配指標，以及模型和 RAG 評估的 LLM 即評審。對於使用 LLM 即評審的模型和 RAG 評估，客戶可以從廣泛的內置指標清單中進行選擇，例如正確性、完整性、忠實性 (幻覺偵測)，以及負責任 AI 指標，例如答案拒絕、危害性和刻板印象。但是，有時候他們會想要以不同方式定義這些指標，或制定與他們需求相關的新指標。例如，客戶可以定義一個指標，來評估應用程式回應對其特定品牌聲音的遵守性，或者他們想根據自訂類別標題對回應進行分類。

現在，Amazon Bedrock 評估為客戶提供了，針對由 LLM 即評審提供支援的模型和 RAG 評估，建立和重新使用自訂指標的功能。客戶可以編寫自己的評判提示、定義自己的分類或數值評級表，並使用內建變量，在執行時期將其資料集或 GenAI 回應中的資料注入評判提示中，以完全自訂評估中的資料流程。客戶可以獲得靈感，使用提供的快速入門範本建立新的評判提示範本/標題，或者他們可以從頭開始自行建立。

若要開始使用，請造訪 Amazon Bedrock 主控台或使用 Bedrock API。如需詳細資訊，請參閱使用者指南。

Amazon Bedrock RAG 和模型評估現在支援自訂指標

了解

資源

開發人員

說明