本文提出SaMer,一種場景感知的多維度評估器,可對大模型生成的響應進行細粒度、可解釋的評估。SaMer動態(tài)識別并優(yōu)先考慮不同query場景的關鍵維度,相比固定維度方法,更具情境敏感性。實驗表明,SaMer在單一評分與成對比較任務上優(yōu)于現(xiàn)有基準,并通過維度級得分和權重提供透明評估。

打開網易新聞 查看精彩圖片

論文題目: SaMer: A Scenario-aware Multi-dimensional Evaluator for Large Language Models 論文鏈接: https://openreview.net/forum?id=aBnVU5DL3I 代碼鏈接: https://github.com/Irving-Feng/SaMer/

一、引言

在開放式的自然語言生成任務中,評估大型語言模型(LLMs)的響應質量是一項重大挑戰(zhàn),主要原因在于“質量”的主觀性和多維性?,F(xiàn)有的LLM評估方法大多采用固定維度的評估標準,無法根據(jù)具體場景靈活調整,導致難以滿足不同類型問題的需求。

打開網易新聞 查看精彩圖片

為了解決這一問題,我們提出了SaMer,一個場景感知的多維度評估器,旨在通過自動識別與用戶query相關的評估維度,動態(tài)調整評估標準,以適應不同場景的需求。我們首先構建了一個大規(guī)模細粒度偏好數(shù)據(jù)集,涵蓋多個真實場景及其特定的評估維度。然后,我們設計了包含文本嵌入模型與三個專用模塊的模型架構,用于維度預測、質量評分和權重融合。最后,通過一個多步驟訓練階段,SaMer可以提供準確性高、解釋性強、細粒度的評估。

實驗結果表明,SaMer在8個單獨評分和成對比較benchmark上的表現(xiàn)均優(yōu)于現(xiàn)有基線方法,展現(xiàn)出其在多樣化評估任務中的魯棒性和適應性。此外,SaMer的細粒度和場景感知能力為LLM的響應評估提供了更高的透明度和靈活性,支持更廣泛的實際應用。

二、數(shù)據(jù)構建

打開網易新聞 查看精彩圖片

如圖所示,我們通過定義場景和評估維度、收集pairwise偏好數(shù)據(jù)、標注細粒度偏好等三個步驟構建了一個包含廣泛場景的細粒度偏好數(shù)據(jù)集。

1. 場景和評估維度定義

場景:我們從人類需求的角度定義了 36 種情景,根據(jù)馬斯洛需求理論的層次結構將它們分為五種主要類型:安全、社會、認知、審美和自我實現(xiàn)需求。我們從現(xiàn)有工作中總結了42個評估常用維度,聘請三位有豐富經驗的研究生為每個場景所需的評估維度進行標注。

2. pairwise偏好數(shù)據(jù)集構建

我們從多個開源數(shù)據(jù)集獲取了種子數(shù)據(jù),具體統(tǒng)計值見下表:

打開網易新聞 查看精彩圖片

然后,我們訓練了一個場景分類器,通過輸入的query,場景分類器將種子數(shù)據(jù)進行場景分類。最后,我們?yōu)槊總€場景采樣2K~5K的數(shù)據(jù),使得所有場景的數(shù)據(jù)比例相似。這一步共獲得135,402條樣本。

3. 細粒度偏好數(shù)據(jù)標注

基于場景標簽和場景的特定評估維度,我們利用GPT-4o來執(zhí)行細粒度的偏好注釋。對于每個樣本,考慮到LLM執(zhí)行成對比較比單實例評估更可靠,我們指示 GPT-4o 只關注指定的維度,仔細比較兩個模型生成的響應并選擇更好的一個或宣布平局。

三、模型與訓練

打開網易新聞 查看精彩圖片

如圖所示,模型的架構與訓練目標共包含三個部分:

1. 通過多標簽分類進行維度預測

我們首先致力于讓SaMer自適應地預測每個輸入query應該考慮哪些維度。這可以建模為一個多標簽分類任務,即從42個維度標簽中選擇 個所需維度。我們構建了一個42維的MLP作為維度預測層 ,用于預測維度標簽。我們使用ZLPR (Zero-bounded Log-sum-exp & Pairwise Rank-based)損失訓練。

2. 通過偏好學習進行多維評分

我們然后利用構建的細粒度偏好數(shù)據(jù)實現(xiàn)多維度評分。具體來說,對于每個特定維度,我們有一個排名,例如 代表回復A好于B。我們構建了一個42維的MLP作為評分層 ,用于為各個維度打分,并使用ranking loss進行訓練。特別地,我們mask了每個樣本的無關維度,只訓練所需維度。

3. 通過權重融合進行綜合評分

要獲得總體評估分數(shù),一種簡單的方法是線性組合所有維度分數(shù),但這忽略了每個維度的貢獻在不同的評估場景中會有所不同的事實。所以,我們加入了權重預測層 ,用于預測每個維度的權重,然后對每個維度的分數(shù)進行加權平均。我們使用ranking loss進行訓練,并凍結了 和 的參數(shù)。

最后,我們將上述三個模塊插入到一個凍結的預訓練LLM(即,ArmoRM,一個基于Llama3-8B的獎勵模型)后。由LLM提供文本編碼后,分別由三個MLP層預測維度、評分和權重,最后進行加權平均得到最終的評分。

四、實驗分析

1. 單響應評分

打開網易新聞 查看精彩圖片

我們在Vicuna Bench、FLASK Eval、Feedback Bench上評估了SaMer對單個響應輸出的質量評分與人類標注之間的相關性。結果表明,SaMer在三個benchmark上表現(xiàn)出顯著的改進,特別是在FLASK Eval中。值得注意的是,SaMer的表現(xiàn)與專有模型(包括GPT-4o/4o-mini和Claude3.5-Sonnet)相當,甚至超過了這些模型。不過,可以觀察到大多數(shù)模型在Vicuna Bench和FLASK上的相關系數(shù)并未超過0.5,這表明這些基準的挑戰(zhàn)性以及將模型評估與人類評分對齊的復雜性。

2. 成對比較

打開網易新聞 查看精彩圖片
打開網易新聞 查看精彩圖片

在成對比較任務中,SaMer在15個任務中取得了9個任務最佳的表現(xiàn),并在剩余的6個任務中在開源模型中排名第二。這在一定程度上可以歸因于強大的ArmoRM backbone網絡(它在多個任務中也取得了領先的結果)。然而,正如SaMer在AlpacaEval上的顯著改進,我們強調了我們策略足夠有效。盡管專有模型在這些評估中通常優(yōu)于所有開源模型,SaMer通過在多個任務中接近專有模型的表現(xiàn),展示了其競爭力,突顯了其強大的適應性。

3. 細粒度成對比較

在細粒度比較任務中,結果顯示大多數(shù)評估器的維度級偏好比較準確率通常低于整體準確率,這突顯了在特定維度上準確評估響應的挑戰(zhàn)。

打開網易新聞 查看精彩圖片

一個有趣的觀察是,與其7B版本相比,Llama-2-13B-Chat的表現(xiàn)下降,表明增加模型參數(shù)并不一定會帶來更好的細粒度評估能力。相比之下,SaMer取得了顯著的改進,維度級準確率提高了10.7,整體準確率提高了15.7,較Llama-3-8B-Inst(SaMer的原始backbone)而言。此外,與專有模型相比,SaMer在性能上超越了GPT-4o-mini和Claude-3.5Sonnet。這個結果突顯了我們訓練方法在提升多維度、情境感知評估方面的強大和有效性。

打開網易新聞 查看精彩圖片

此外,SaMer展示了場景感知的適應性,能夠對于可能沒有明確場景標簽的query有效地選擇適當?shù)脑u估維度。上圖展示了SaMer在三種不同情境下分配的權重:創(chuàng)意寫作、數(shù)學推理和法律文件寫作。這些權重指示了每個維度在評估過程中的相對重要性。在創(chuàng)意寫作中,SaMer 將創(chuàng)造力維度賦予最高重要性,其次是邏輯、相關性、無害性和風格,這與創(chuàng)意寫作的基本屬性密切相關。相反,在數(shù)學推理中,重點轉向推理過程和結果,邏輯、準確性、清晰度和逐步解釋成為主要維度。在評估法律文件寫作情境時,邏輯被確定為最關鍵的維度,其次是無害性和清晰度,反映了法律寫作的獨特要求。

五、總結

在這項工作中,我們提出了SaMer,一種場景感知的多維度評估器,旨在提供對大型語言模型生成的響應的細粒度和可解釋的評估。通過動態(tài)識別和優(yōu)先考慮不同query場景的相關評估維度,SaMer能夠相比傳統(tǒng)的固定維度方法提供更細致和具有情境敏感性的評估。在單一評分和成對比較基準上的廣泛實驗驗證了該模型的適應性,結果顯示SaMer在性能上超過了現(xiàn)有基準,同時通過詳細的維度級得分和權重提供透明且可解釋的評估。

作者:馮科華 來源:公眾號【ZJUKG】

llustration From IconScout By IconScout Store

-The End-

掃碼觀看!

本周上新!

“AI技術流”原創(chuàng)投稿計劃

TechBeat是由將門創(chuàng)投建立的AI學習社區(qū)(

www.techbeat.net
) 。 社區(qū)上線600+期talk視頻,3000+篇技術干貨文章,方向覆蓋CV/NLP/ML/Robotis等;每月定期舉辦頂會及其他線上交流活動,不定期舉辦技術人線下聚會交流活動。我們正在努力成為AI人才喜愛的高質量、知識型交流平臺,希望為AI人才打造更專業(yè)的服務和體驗,加速并陪伴其成長。

投稿內容

// 最新技術解讀/系統(tǒng)性知識分享 //

// 前沿資訊解說/心得經歷講述 //

投稿須知

稿件需要為原創(chuàng)文章,并標明作者信息。

我們會選擇部分在深度技術解析及科研心得方向,對用戶啟發(fā)更大的文章,做原創(chuàng)性內容獎勵

投稿方式

發(fā)送郵件到

melodybai@thejiangmen.com

或添加工作人員微信(yellowsubbj)投稿,溝通投稿詳情;還可以關注“將門創(chuàng)投”公眾號,后臺回復“投稿”二字,獲得投稿說明。

關于我“門”

將門是一家以專注于數(shù)智核心科技領域新型創(chuàng)投機構,也是北京市標桿型孵化器。 公司致力于通過連接技術與商業(yè),發(fā)掘和培育具有全球影響力的科技創(chuàng)新企業(yè),推動企業(yè)創(chuàng)新發(fā)展與產業(yè)升級。

將門成立于2015年底,創(chuàng)始團隊由微軟創(chuàng)投在中國的創(chuàng)始團隊原班人馬構建而成,曾為微軟優(yōu)選和深度孵化了126家創(chuàng)新的技術型創(chuàng)業(yè)公司。

如果您是技術領域的初創(chuàng)企業(yè),不僅想獲得投資,還希望獲得一系列持續(xù)性、有價值的投后服務,歡迎發(fā)送或者推薦項目給我“門”:

bp@thejiangmen.com

打開網易新聞 查看精彩圖片

點擊右上角,把文章分享到朋友圈