Amazon Bedrock 模型評估現在包含 LLM 即評判 (預覽版)

張貼日期: 2024年12月1日

Amazon Bedrock 模型評估可讓您評估、比較使用案例，並為其選擇最適合的基礎模型。現在，您可以使用新的評估功能：LLM 即評判功能預覽版。這使您可以選擇 LLM 來作為評判，確保您擁有合適的評估模型和受評估模型組合。您可以從 Amazon Bedrock 上提供的幾個評判 LLM 之中進行選擇。您還可以選擇經過精選的品質指標，例如正確性、完整性、專業風格和語調，以及負責任 AI 指標，例如危害性和拒絕回答。現在，您也能夠使用自有的提示資料集，確保針對您的資料來自訂評估，而且您可以比較評估工作之間的結果，以便更快地做出決策。

先前，您可以在人工型模型評估和具有精確字串比對和其他傳統 NLP 指標的自動評估之間進行選擇。這些方法雖然快速，但與人類評估者的一致性並不高。現在，借助 LLM 即評判功能，您能夠以比完全人工型評估還低得多的成本，獲得接近人類標準的評估品質，同時節省數週的時間。您可以使用內建指標來評估客觀事實，或對資料集上的寫作風格和語調進行主觀評估。

若要進一步了解 Amazon Bedrock 模型評估的全新 LLM 即評判功能 (包括可用的 AWS 區域)，請參閱 AWS 新聞部落格，並造訪 Amazon Bedrock 評估頁面。若要開始使用，請在 AWS 管理主控台上登入，或使用 Amazon Bedrock API。

Amazon Bedrock 模型評估現在包含 LLM 即評判 (預覽版)

了解

資源

開發人員

說明