什麼是生成式 AI 模型?
生成式 AI 模型有其優勢和限制。根據使用案例的複雜性、效能、隱私權和成本要求,某些模型可能是比其他模型更理想的選擇。本指南探討選取生成式 AI 模型時需要考慮的因素和最佳實務。
生成式人工智慧模型可以根據使用者的自然語言輸入建立原創且有意義的文字、影像、音訊和視訊內容。組織正在利用這些模型完成各種任務,從支援聊天機器人到建立設計範本和解決生物學中的複雜問題。目前市面上有數千種專有和開放原始碼的 AI 模型,並且每天都有新的模型和改進版本發佈。
儘管生成式 AI 模型具有靈活性和多功能性,但其並非適用於每種使用案例的萬能解決方案。AI 團隊必須仔細選取並評估可最佳化成本和效能的最佳模型。模型評估是一項複雜的工作。Helm 和 Hugging Face 排行榜等熱門基準僅提供特定 AI 模型在常見自然語言任務中表現的總體檢視。AI 團隊必須採用不同的策略來評估自訂資料輸入的模型輸出,然後選擇最符合其要求的模型。
如何針對不同的使用案例評估生成式 AI 模型?
以下是為您的使用案例選擇合適 AI 模型時需要考量的一些因素。
形式
形式是指模型處理的資料類型:嵌入、影像 (視覺) 或文字。有些模型是單模態,可以高效地處理單一資料類型。其他模型則是多模態,可以整合多種資料類型,但可能比其他類型更適合某種類型。例如,Claude、Llama 3.1 或 Titan Text G1 等模型適用於文字式任務,而 Stable Diffusion XL 和 Titan Image Generator v2 更適合視覺任務。同樣,Titan Multimodal Embeddings G1 模型更適合將任何輸入影像或文字轉換為包含同一語義空間中影像和文字語義的嵌入。
模型大小
模型大小是模型內部的參數或組態變數的數目。它可以從數百萬到 1000 億以上不等,並且大多數模型具有 100 到 1000 億個參數。模型大小直接定義模型從資料中學習的能力。具有更多參數的模型表現更出色,因為它們可以深入了解新資料。但是,它們的自訂和營運成本更高。
推論延遲
在即時情境中,推論延遲通常是有必要關注的問題,因為 AI 應用程式使用者可能會期望該問題立即得到回應。這是模型根據輸入長度處理輸入和傳回輸出所需的時間總計。具有複雜架構的生成式 AI 模型的推論速度可能要慢於較小的模型。但是,推論延遲會因您預期的提示和模型的效能而有所不同。最終使用者輸入中字符數量 (如字母、標點符號等) 的增多也可能會增加延遲。
內容視窗
生成式 AI 模型的內容視窗是它可以在任何時間針對內容「記住」的字符數量。具有較大內容視窗的模型會保留更多先前的對話,並且提供更相關的回應。因此,較大的內容視窗更適用於複雜的任務,例如總結長文件或支援多輪對話。
定價考量
模型執行成本包括專有模型的用量成本以及運算和記憶體成本。根據工作負載,營運開支可能因模型而異。權衡成本和收益可確保您取得最佳的投資價值。例如,執行 Claude 2 或 Command R+ 會產生以用量為基礎的費用,因為它們是專有模型,而部署 Llama 2 7B 則會降低運算成本。但是,如果專有模型為您的任務提供明顯更理想的準確性或效率,則其增加的成本就可能是合理的。
回應品質
您可以使用數個指標來評估 AI 模型的回應品質,例如
- 準確性 — 模型回應正確的頻率
- 相關性 — 回應對於給定輸入的適當程度。
- 穩健性 — 模型處理故意誤導輸入 (使模型產生混淆) 的妥善程度。
- 毒性 — 模型輸出中不適當內容或偏差的百分比。
通常根據預先設定的基準衡量這些指標。最佳實務是評估幾個不同模型對同一輸入資料集的回應品質,並且選取提供最高回應品質的一個模型。
生成式 AI 模型選取採用何種程序?
生成式 AI 模型選取首先需要您確定 AI 應用程式的特定要求。確保您了解使用者期望、資料處理要求、部署考量以及業務和產業中的其他細節。然後,您可以透過進行品質測試來排除不同的 AI 模型,直到找到最適合自身要求的模型。
步驟 1 - 入圍初步模型選取
該程序首先是從數千個符合您要求的模型中入圍大約 20 個模型。在開放原始碼模型和專有模型之間進行選擇僅是完成一半的工作。確定模型類型之後,您就可以根據上一節中描述的關鍵標準 (例如形式、模型大小、內容視窗等) 評估模型,從而進一步入圍模型。
開放原始碼與專有生成式 AI 模型
開放原始碼模型提供靈活性,並且可讓團隊在專屬資料上微調或完全重新訓練模型。在通用模型於利基使用案例上表現不佳的專業產業中,這種模型可能特別有價值。例如,一家大型保險公司可能偏好在自訂資料上訓練開放原始碼模型,而不是使用針對金融產業且不能完全滿足其特定要求的專有模型。
但是,開放原始碼模型需要進行額外考量。它們可能會帶來安全和法律風險,這就要求組織執行自己的合規措施並徹底審查授權條款。另一方面,專有模型通常提供內建安全功能、訓練資料和輸出的補償以及合規性證,從而為優先考慮風險緩解的企業降低營運開銷。
步驟 2 - 檢查輸出並進一步縮小清單範圍
在此步驟中,您的目標是確定最適合自身使用案例的前 3 種生成式 AI 模型。首先,識別符合您使用案例的測試提示子集。然後,目視檢查每個模型的輸出以取得特定提示。尋找具有更多詳細資訊且最符合您輸入的輸出。選取可產生最相關、最詳細和最準確輸出的前 3 個模型。
Amazon SageMaker Clarify 最適合此階段。該服務使用準確性、穩健性和毒性等指標,自動評估生成式 AI 使用案例的 FM,以支援您負責任的 AI 計劃。
步驟 3 - 以使用案例為基礎的基準測試
現在,您可以根據特定測試資料集的預先定義提示和輸出來更詳細地評估最優先選取的 AI 模型。其中的關鍵因素是擁有一個全面的測試資料集,該資料集涵蓋使用案例的所有方面並具有多種變化形式。您還應該有相應的理想輸出,以統計性評估哪個模型的輸出最接近此理想輸出。
Amazon Bedrock 提供評估工具,這些工具藉助模型評估來針對使用案例評估、比較和選取 AI 模型。
您可以採用三種評估方法。
程式設計
使用傳統的自然語言演算法和指標 (例如 BERT Score、F1 和其他精確比對技術) 來評估模型輸出。Amazon Bedrock 可讓您使用內建的提示資料集來實現這一目標,或者您可以自攜資料集。
人類參與
讓人類評估者 (您的團隊成員、一組範例最終使用者或專業 AI 評估者) 根據預先確定的模型指標評估所有三個模型的輸出。他們可以手動將輸出與理想輸出進行比較,或者如果使用案例太廣泛,他們可以根據自己的最佳判斷評估和標示輸出。
藉助 Amazon Bedrock,您可以與員工一起評估模型輸出,或者讓 AWS 使用相關性、風格以及與品牌聲音或內建指標的一致性等指標來管理對自訂提示資料集回應的評估。
另一個 AI 模型作為評估者
在此方法中,另一個 AI 模型以公正的方式評估三個模型的輸出。此方法最適合於輸出定義明確且其與理想輸出的相似性可以透過統計方式來衡量的使用案例。Amazon Bedrock 可讓您在 LLM 即評審模式下使用其他 AI 模型來評估模型輸出。您可以使用自訂提示資料集,其中包含正確性、完整性和有害性等指標,還包含負責任的 AI 指標,例如拒絕回答和危害性。
步驟 4 - 最終選取
使用評估資料以及成本和效能分析來選擇最終模型。藉助 Amazon Bedrock,您可在評估中使用比較功能,以查看您對提示和正在評估的模型所做之任何變更的結果。在一個位置檢視所有分析,並且選取在效能、成本和相關風險之間提供最佳平衡並有效使用資源的模型。
為您的使用案例選擇合適的生成式 AI 模型需要採用一種結構化的方法來平衡技術能力、業務需求和營運限制。關鍵之處是使您的決定與使用案例的特定要求保持一致。根據形式、大小、資料處理能力和部署考量等因素仔細評估模型。最終,合適的模型可提高效率和增強創新,並為組織中未來 AI 驅動的進步提供可擴展的基礎。