Amazon Bedrock 模型評估現在包含 LLM 即評判 (預覽版)
張貼日期:
2024年12月1日
Amazon Bedrock 模型評估可讓您評估、比較使用案例,並為其選擇最適合的基礎模型。現在,您可以使用新的評估功能:LLM 即評判功能預覽版。這使您可以選擇 LLM 來作為評判,確保您擁有合適的評估模型和受評估模型組合。您可以從 Amazon Bedrock 上提供的幾個評判 LLM 之中進行選擇。您還可以選擇經過精選的品質指標,例如正確性、完整性、專業風格和語調,以及負責任 AI 指標,例如危害性和拒絕回答。現在,您也能夠使用自有的提示資料集,確保針對您的資料來自訂評估,而且您可以比較評估工作之間的結果,以便更快地做出決策。
先前,您可以在人工型模型評估和具有精確字串比對和其他傳統 NLP 指標的自動評估之間進行選擇。這些方法雖然快速,但與人類評估者的一致性並不高。現在,借助 LLM 即評判功能,您能夠以比完全人工型評估還低得多的成本,獲得接近人類標準的評估品質,同時節省數週的時間。您可以使用內建指標來評估客觀事實,或對資料集上的寫作風格和語調進行主觀評估。
若要進一步了解 Amazon Bedrock 模型評估的全新 LLM 即評判功能 (包括可用的 AWS 區域),請參閱 AWS 新聞部落格,並造訪 Amazon Bedrock 評估頁面。若要開始使用,請在 AWS 管理主控台上登入,或使用 Amazon Bedrock API。