Amazon Bedrock 模型評估 LLM 即評判現已正式上市

張貼日期: 2025年3月20日

Amazon Bedrock 模型評估的 LLM 即評判功能現已正式上市。Amazon Bedrock 模型評估可讓您評估、比較使用案例,並為其選擇最適合的模型。您可以從 Bedrock 上提供的多個選擇中選擇一個 LLM 作為評判者,以確保您擁有合適的評估模型和受評估模型組合。您可以選擇品質指標,例如正確性、完整性、專業風格和語調,以及負責任 AI 指標,例如危害性和拒絕回答。您可以評估 Amazon Bedrock 上的所有可用模型,包括無伺服器模型、與 Converse API 相容的 Bedrock Marketplace 模型、自訂和提煉模型、匯入模型以及模型路由器。您也可以比較不同評估工作之間的結果。

*全新 - 更多的彈性!*今天,您可以透過將您已擷取的自攜推理回應帶入評估工作的輸入提示資料集中 (「自攜推理回應」),評估託管在任何地方的模型或系統。這些回應可以來自 Amazon Bedrock 模型,或來自 Amazon Bedrock 以外的任何模型或應用程式,可讓您在評估工作中繞過呼叫 Amazon Bedrock 模型,並允許您將應用程式的所有中間步驟納入最終回應中。

借由 LLM 即評判功能,您就能夠以較低的成本獲得接近人類標準的評估品質,同時節省數週的時間。

若要進一步了解,請造訪 Amazon Bedrock 評估頁面文件。若要開始使用,請登入 AWS Console 或使用 Amazon Bedrock API。