Amazon Bedrock RAG 和模型評估現在支援自訂指標
Amazon Bedrock 評估可讓您評估基礎模型和擷取檢索增強生成 (RAG) 系統,無論是託管在 Amazon Bedrock 上還是多雲端和內部部署中。Bedrock 評估提供以人為基礎的評價、程式化評估,例如 BERTScore、F1 等完全匹配指標,以及模型和 RAG 評估的 LLM 即評審。對於使用 LLM 即評審的模型和 RAG 評估,客戶可以從廣泛的內置指標清單中進行選擇,例如正確性、完整性、忠實性 (幻覺偵測),以及負責任 AI 指標,例如答案拒絕、危害性和刻板印象。但是,有時候他們會想要以不同方式定義這些指標,或制定與他們需求相關的新指標。例如,客戶可以定義一個指標,來評估應用程式回應對其特定品牌聲音的遵守性,或者他們想根據自訂類別標題對回應進行分類。
現在,Amazon Bedrock 評估為客戶提供了,針對由 LLM 即評審提供支援的模型和 RAG 評估,建立和重新使用自訂指標的功能。客戶可以編寫自己的評判提示、定義自己的分類或數值評級表,並使用內建變量,在執行時期將其資料集或 GenAI 回應中的資料注入評判提示中,以完全自訂評估中的資料流程。客戶可以獲得靈感,使用提供的快速入門範本建立新的評判提示範本/標題,或者他們可以從頭開始自行建立。
若要開始使用,請造訪 Amazon Bedrock 主控台或使用 Bedrock API。如需詳細資訊,請參閱使用者指南。