本文提出SaMer,一種場(chǎng)景感知的多維度評(píng)估器,可對(duì)大模型生成的響應(yīng)進(jìn)行細(xì)粒度、可解釋的評(píng)估。SaMer動(dòng)態(tài)識(shí)別并優(yōu)先考慮不同query場(chǎng)景的關(guān)鍵維度,相比固定維度方法,更具情境敏感性。實(shí)驗(yàn)表明,SaMer在單一評(píng)分與成對(duì)比較任務(wù)上優(yōu)于現(xiàn)有基準(zhǔn),并通過維度級(jí)得分和權(quán)重提供透明評(píng)估。

論文題目: SaMer: A Scenario-aware Multi-dimensional Evaluator for Large Language Models 論文鏈接: https://openreview.net/forum?id=aBnVU5DL3I 代碼鏈接: https://github.com/Irving-Feng/SaMer/
一、引言
在開放式的自然語(yǔ)言生成任務(wù)中,評(píng)估大型語(yǔ)言模型(LLMs)的響應(yīng)質(zhì)量是一項(xiàng)重大挑戰(zhàn),主要原因在于“質(zhì)量”的主觀性和多維性?,F(xiàn)有的LLM評(píng)估方法大多采用固定維度的評(píng)估標(biāo)準(zhǔn),無法根據(jù)具體場(chǎng)景靈活調(diào)整,導(dǎo)致難以滿足不同類型問題的需求。

為了解決這一問題,我們提出了SaMer,一個(gè)場(chǎng)景感知的多維度評(píng)估器,旨在通過自動(dòng)識(shí)別與用戶query相關(guān)的評(píng)估維度,動(dòng)態(tài)調(diào)整評(píng)估標(biāo)準(zhǔn),以適應(yīng)不同場(chǎng)景的需求。我們首先構(gòu)建了一個(gè)大規(guī)模細(xì)粒度偏好數(shù)據(jù)集,涵蓋多個(gè)真實(shí)場(chǎng)景及其特定的評(píng)估維度。然后,我們?cè)O(shè)計(jì)了包含文本嵌入模型與三個(gè)專用模塊的模型架構(gòu),用于維度預(yù)測(cè)、質(zhì)量評(píng)分和權(quán)重融合。最后,通過一個(gè)多步驟訓(xùn)練階段,SaMer可以提供準(zhǔn)確性高、解釋性強(qiáng)、細(xì)粒度的評(píng)估。
實(shí)驗(yàn)結(jié)果表明,SaMer在8個(gè)單獨(dú)評(píng)分和成對(duì)比較benchmark上的表現(xiàn)均優(yōu)于現(xiàn)有基線方法,展現(xiàn)出其在多樣化評(píng)估任務(wù)中的魯棒性和適應(yīng)性。此外,SaMer的細(xì)粒度和場(chǎng)景感知能力為L(zhǎng)LM的響應(yīng)評(píng)估提供了更高的透明度和靈活性,支持更廣泛的實(shí)際應(yīng)用。
二、數(shù)據(jù)構(gòu)建

如圖所示,我們通過定義場(chǎng)景和評(píng)估維度、收集pairwise偏好數(shù)據(jù)、標(biāo)注細(xì)粒度偏好等三個(gè)步驟構(gòu)建了一個(gè)包含廣泛場(chǎng)景的細(xì)粒度偏好數(shù)據(jù)集。
1. 場(chǎng)景和評(píng)估維度定義
場(chǎng)景:我們從人類需求的角度定義了 36 種情景,根據(jù)馬斯洛需求理論的層次結(jié)構(gòu)將它們分為五種主要類型:安全、社會(huì)、認(rèn)知、審美和自我實(shí)現(xiàn)需求。我們從現(xiàn)有工作中總結(jié)了42個(gè)評(píng)估常用維度,聘請(qǐng)三位有豐富經(jīng)驗(yàn)的研究生為每個(gè)場(chǎng)景所需的評(píng)估維度進(jìn)行標(biāo)注。
2. pairwise偏好數(shù)據(jù)集構(gòu)建
我們從多個(gè)開源數(shù)據(jù)集獲取了種子數(shù)據(jù),具體統(tǒng)計(jì)值見下表:

然后,我們訓(xùn)練了一個(gè)場(chǎng)景分類器,通過輸入的query,場(chǎng)景分類器將種子數(shù)據(jù)進(jìn)行場(chǎng)景分類。最后,我們?yōu)槊總€(gè)場(chǎng)景采樣2K~5K的數(shù)據(jù),使得所有場(chǎng)景的數(shù)據(jù)比例相似。這一步共獲得135,402條樣本。
3. 細(xì)粒度偏好數(shù)據(jù)標(biāo)注
基于場(chǎng)景標(biāo)簽和場(chǎng)景的特定評(píng)估維度,我們利用GPT-4o來執(zhí)行細(xì)粒度的偏好注釋。對(duì)于每個(gè)樣本,考慮到LLM執(zhí)行成對(duì)比較比單實(shí)例評(píng)估更可靠,我們指示 GPT-4o 只關(guān)注指定的維度,仔細(xì)比較兩個(gè)模型生成的響應(yīng)并選擇更好的一個(gè)或宣布平局。
三、模型與訓(xùn)練

如圖所示,模型的架構(gòu)與訓(xùn)練目標(biāo)共包含三個(gè)部分:
1. 通過多標(biāo)簽分類進(jìn)行維度預(yù)測(cè)
我們首先致力于讓SaMer自適應(yīng)地預(yù)測(cè)每個(gè)輸入query應(yīng)該考慮哪些維度。這可以建模為一個(gè)多標(biāo)簽分類任務(wù),即從42個(gè)維度標(biāo)簽中選擇 個(gè)所需維度。我們構(gòu)建了一個(gè)42維的MLP作為維度預(yù)測(cè)層 ,用于預(yù)測(cè)維度標(biāo)簽。我們使用ZLPR (Zero-bounded Log-sum-exp & Pairwise Rank-based)損失訓(xùn)練。
2. 通過偏好學(xué)習(xí)進(jìn)行多維評(píng)分
我們?nèi)缓罄脴?gòu)建的細(xì)粒度偏好數(shù)據(jù)實(shí)現(xiàn)多維度評(píng)分。具體來說,對(duì)于每個(gè)特定維度,我們有一個(gè)排名,例如 代表回復(fù)A好于B。我們構(gòu)建了一個(gè)42維的MLP作為評(píng)分層 ,用于為各個(gè)維度打分,并使用ranking loss進(jìn)行訓(xùn)練。特別地,我們mask了每個(gè)樣本的無關(guān)維度,只訓(xùn)練所需維度。
3. 通過權(quán)重融合進(jìn)行綜合評(píng)分
要獲得總體評(píng)估分?jǐn)?shù),一種簡(jiǎn)單的方法是線性組合所有維度分?jǐn)?shù),但這忽略了每個(gè)維度的貢獻(xiàn)在不同的評(píng)估場(chǎng)景中會(huì)有所不同的事實(shí)。所以,我們加入了權(quán)重預(yù)測(cè)層 ,用于預(yù)測(cè)每個(gè)維度的權(quán)重,然后對(duì)每個(gè)維度的分?jǐn)?shù)進(jìn)行加權(quán)平均。我們使用ranking loss進(jìn)行訓(xùn)練,并凍結(jié)了 和 的參數(shù)。
最后,我們將上述三個(gè)模塊插入到一個(gè)凍結(jié)的預(yù)訓(xùn)練LLM(即,ArmoRM,一個(gè)基于Llama3-8B的獎(jiǎng)勵(lì)模型)后。由LLM提供文本編碼后,分別由三個(gè)MLP層預(yù)測(cè)維度、評(píng)分和權(quán)重,最后進(jìn)行加權(quán)平均得到最終的評(píng)分。
四、實(shí)驗(yàn)分析
1. 單響應(yīng)評(píng)分

我們?cè)赩icuna Bench、FLASK Eval、Feedback Bench上評(píng)估了SaMer對(duì)單個(gè)響應(yīng)輸出的質(zhì)量評(píng)分與人類標(biāo)注之間的相關(guān)性。結(jié)果表明,SaMer在三個(gè)benchmark上表現(xiàn)出顯著的改進(jìn),特別是在FLASK Eval中。值得注意的是,SaMer的表現(xiàn)與專有模型(包括GPT-4o/4o-mini和Claude3.5-Sonnet)相當(dāng),甚至超過了這些模型。不過,可以觀察到大多數(shù)模型在Vicuna Bench和FLASK上的相關(guān)系數(shù)并未超過0.5,這表明這些基準(zhǔn)的挑戰(zhàn)性以及將模型評(píng)估與人類評(píng)分對(duì)齊的復(fù)雜性。
2. 成對(duì)比較


在成對(duì)比較任務(wù)中,SaMer在15個(gè)任務(wù)中取得了9個(gè)任務(wù)最佳的表現(xiàn),并在剩余的6個(gè)任務(wù)中在開源模型中排名第二。這在一定程度上可以歸因于強(qiáng)大的ArmoRM backbone網(wǎng)絡(luò)(它在多個(gè)任務(wù)中也取得了領(lǐng)先的結(jié)果)。然而,正如SaMer在AlpacaEval上的顯著改進(jìn),我們強(qiáng)調(diào)了我們策略足夠有效。盡管專有模型在這些評(píng)估中通常優(yōu)于所有開源模型,SaMer通過在多個(gè)任務(wù)中接近專有模型的表現(xiàn),展示了其競(jìng)爭(zhēng)力,突顯了其強(qiáng)大的適應(yīng)性。
3. 細(xì)粒度成對(duì)比較
在細(xì)粒度比較任務(wù)中,結(jié)果顯示大多數(shù)評(píng)估器的維度級(jí)偏好比較準(zhǔn)確率通常低于整體準(zhǔn)確率,這突顯了在特定維度上準(zhǔn)確評(píng)估響應(yīng)的挑戰(zhàn)。

一個(gè)有趣的觀察是,與其7B版本相比,Llama-2-13B-Chat的表現(xiàn)下降,表明增加模型參數(shù)并不一定會(huì)帶來更好的細(xì)粒度評(píng)估能力。相比之下,SaMer取得了顯著的改進(jìn),維度級(jí)準(zhǔn)確率提高了10.7,整體準(zhǔn)確率提高了15.7,較Llama-3-8B-Inst(SaMer的原始backbone)而言。此外,與專有模型相比,SaMer在性能上超越了GPT-4o-mini和Claude-3.5Sonnet。這個(gè)結(jié)果突顯了我們訓(xùn)練方法在提升多維度、情境感知評(píng)估方面的強(qiáng)大和有效性。

此外,SaMer展示了場(chǎng)景感知的適應(yīng)性,能夠?qū)τ诳赡軟]有明確場(chǎng)景標(biāo)簽的query有效地選擇適當(dāng)?shù)脑u(píng)估維度。上圖展示了SaMer在三種不同情境下分配的權(quán)重:創(chuàng)意寫作、數(shù)學(xué)推理和法律文件寫作。這些權(quán)重指示了每個(gè)維度在評(píng)估過程中的相對(duì)重要性。在創(chuàng)意寫作中,SaMer 將創(chuàng)造力維度賦予最高重要性,其次是邏輯、相關(guān)性、無害性和風(fēng)格,這與創(chuàng)意寫作的基本屬性密切相關(guān)。相反,在數(shù)學(xué)推理中,重點(diǎn)轉(zhuǎn)向推理過程和結(jié)果,邏輯、準(zhǔn)確性、清晰度和逐步解釋成為主要維度。在評(píng)估法律文件寫作情境時(shí),邏輯被確定為最關(guān)鍵的維度,其次是無害性和清晰度,反映了法律寫作的獨(dú)特要求。
五、總結(jié)
在這項(xiàng)工作中,我們提出了SaMer,一種場(chǎng)景感知的多維度評(píng)估器,旨在提供對(duì)大型語(yǔ)言模型生成的響應(yīng)的細(xì)粒度和可解釋的評(píng)估。通過動(dòng)態(tài)識(shí)別和優(yōu)先考慮不同query場(chǎng)景的相關(guān)評(píng)估維度,SaMer能夠相比傳統(tǒng)的固定維度方法提供更細(xì)致和具有情境敏感性的評(píng)估。在單一評(píng)分和成對(duì)比較基準(zhǔn)上的廣泛實(shí)驗(yàn)驗(yàn)證了該模型的適應(yīng)性,結(jié)果顯示SaMer在性能上超過了現(xiàn)有基準(zhǔn),同時(shí)通過詳細(xì)的維度級(jí)得分和權(quán)重提供透明且可解釋的評(píng)估。
作者:馮科華 來源:公眾號(hào)【ZJUKG】
llustration From IconScout By IconScout Store
-The End-
掃碼觀看!
本周上新!
“AI技術(shù)流”原創(chuàng)投稿計(jì)劃
TechBeat是由將門創(chuàng)投建立的AI學(xué)習(xí)社區(qū)(
www.techbeat.net) 。 社區(qū)上線600+期talk視頻,3000+篇技術(shù)干貨文章,方向覆蓋CV/NLP/ML/Robotis等;每月定期舉辦頂會(huì)及其他線上交流活動(dòng),不定期舉辦技術(shù)人線下聚會(huì)交流活動(dòng)。我們正在努力成為AI人才喜愛的高質(zhì)量、知識(shí)型交流平臺(tái),希望為AI人才打造更專業(yè)的服務(wù)和體驗(yàn),加速并陪伴其成長(zhǎng)。
投稿內(nèi)容
// 最新技術(shù)解讀/系統(tǒng)性知識(shí)分享 //
// 前沿資訊解說/心得經(jīng)歷講述 //
投稿須知
稿件需要為原創(chuàng)文章,并標(biāo)明作者信息。
我們會(huì)選擇部分在深度技術(shù)解析及科研心得方向,對(duì)用戶啟發(fā)更大的文章,做原創(chuàng)性內(nèi)容獎(jiǎng)勵(lì)
投稿方式
發(fā)送郵件到
melodybai@thejiangmen.com
或添加工作人員微信(yellowsubbj)投稿,溝通投稿詳情;還可以關(guān)注“將門創(chuàng)投”公眾號(hào),后臺(tái)回復(fù)“投稿”二字,獲得投稿說明。
關(guān)于我“門”
將門是一家以專注于數(shù)智核心科技領(lǐng)域的新型創(chuàng)投機(jī)構(gòu),也是北京市標(biāo)桿型孵化器。 公司致力于通過連接技術(shù)與商業(yè),發(fā)掘和培育具有全球影響力的科技創(chuàng)新企業(yè),推動(dòng)企業(yè)創(chuàng)新發(fā)展與產(chǎn)業(yè)升級(jí)。
將門成立于2015年底,創(chuàng)始團(tuán)隊(duì)由微軟創(chuàng)投在中國(guó)的創(chuàng)始團(tuán)隊(duì)原班人馬構(gòu)建而成,曾為微軟優(yōu)選和深度孵化了126家創(chuàng)新的技術(shù)型創(chuàng)業(yè)公司。
如果您是技術(shù)領(lǐng)域的初創(chuàng)企業(yè),不僅想獲得投資,還希望獲得一系列持續(xù)性、有價(jià)值的投后服務(wù),歡迎發(fā)送或者推薦項(xiàng)目給我“門”:
bp@thejiangmen.com
點(diǎn)擊右上角,把文章分享到朋友圈
熱門跟貼