“大語(yǔ)言模型能像人一樣通過(guò)思維鏈進(jìn)行推理,解決復(fù)雜的邏輯或數(shù)學(xué)問(wèn)題”, 經(jīng)常見(jiàn)到這樣的說(shuō)法。

越來(lái)越多的人相信大語(yǔ)言模型能像人一樣進(jìn)行推理。而從大語(yǔ)言模型的思維鏈推理行為來(lái)看,確實(shí)很像人的推理過(guò)程。但實(shí)事真的如此嗎?

本文的研究表明:AI生成的推理過(guò)程很多時(shí)候,只是行為的模仿,并不是真正的推理。本文在大語(yǔ)言模型上使用擾動(dòng)實(shí)驗(yàn),通過(guò)統(tǒng)計(jì)顯著性檢驗(yàn)變量間的因果聯(lián)系,揭示大模型內(nèi)部的因果圖結(jié)構(gòu)。通過(guò)將大模型的表層行為和底層的結(jié)構(gòu)對(duì)應(yīng)起來(lái),能夠解釋大模型推理中的很多奇怪現(xiàn)象,比如說(shuō)錯(cuò)誤的推理過(guò)程得到正確的結(jié)果。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

論文題目: How Likely Do LLMs with CoT Mimic Human Reasoning? 論文鏈接: https://aclanthology.org/2025.coling-main.524.pdf 代碼鏈接: https://github.com/StevenZHB/CoT_Causal_Analysis 相關(guān)Talk: https://event.baai.ac.cn/activities/918

一、研究動(dòng)機(jī)

思維鏈(Chain of Thought, CoT)作為大語(yǔ)言模型(LLM)解決推理任務(wù)的標(biāo)準(zhǔn)技術(shù),已被廣泛應(yīng)用于復(fù)雜的數(shù)學(xué)推理和邏輯推理中。然而,研究表明,思維鏈并不總是能提高模型的性能,也不總是忠實(shí)地表達(dá)模型的實(shí)際推理過(guò)程。這樣的現(xiàn)象讓人們對(duì)大語(yǔ)言模型推理的真實(shí)過(guò)程和潛在機(jī)制充滿了好奇。本研究嘗試揭開(kāi)這些現(xiàn)象背后的真相。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

表1:一個(gè)簡(jiǎn)單的問(wèn)題解決過(guò)程

現(xiàn)有的研究多從現(xiàn)象層面探討大語(yǔ)言模型的推理過(guò)程。我們則采用因果分析的方法,從大語(yǔ)言模型推理過(guò)程的內(nèi)在機(jī)制進(jìn)行研究,并與人類的推理過(guò)程進(jìn)行對(duì)比。如表1所示,我們將問(wèn)題求解過(guò)程簡(jiǎn)化、抽象為問(wèn)題指令(instruction)、推理步驟(CoT)和結(jié)論(answer)三部分,并用隨機(jī)變量表示:Z代表問(wèn)題指令,X代表推理步驟,Y代表答案。心理學(xué)研究表明,理性的人類在解決復(fù)雜推理問(wèn)題時(shí)遵循因果鏈,其中問(wèn)題指令決定推理步驟,而推理步驟決定結(jié)論。

對(duì)于LLM,我們通過(guò)干預(yù)分析這三個(gè)隨機(jī)變量之間的因果關(guān)系,就可以揭示大語(yǔ)言模型在特定任務(wù)上其內(nèi)在的結(jié)構(gòu)因果模型(SCM)。我們的實(shí)驗(yàn)涉及到四種因果模型結(jié)構(gòu),包括因果鏈(I型)、共同原因(II型)、完全連接(III型)和隔離(IV型)。實(shí)驗(yàn)結(jié)果表明,大語(yǔ)言模型上存在大量的共同原因和完全連接型結(jié)構(gòu)。在這些結(jié)構(gòu)條件下模型可能并未進(jìn)行真正的推理,而是根據(jù)潛在的答案信念生成推理過(guò)程的解釋。也就是說(shuō),模型在生成推理過(guò)程之前就已經(jīng)確定答案了,而所有后續(xù)的“推理過(guò)程”只是為這個(gè)答案提供了一種合理的解釋。

二、方法

理論上來(lái)說(shuō),一個(gè)自回歸語(yǔ)言模型允許右側(cè)的詞依賴于所有左側(cè)的詞,形成一種全連接結(jié)構(gòu)。然而,對(duì)于每個(gè)特定任務(wù),語(yǔ)言模型可能在全連接結(jié)構(gòu)的任何子圖下工作。

為了在任務(wù)中推斷大型語(yǔ)言模型的潛在SCM結(jié)構(gòu)類型,我們使用干預(yù)來(lái)測(cè)試因果關(guān)系,重點(diǎn)關(guān)注指向答案(Y)的關(guān)系,如圖1所示。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

圖1:因果分析過(guò)程

我們控制其中的一個(gè)條件變量,干預(yù)另一個(gè)條件變量,觀察輸出變量所受到的影響,看其是否顯著地改變。通過(guò)控制推理過(guò)程X,干預(yù)提示信息Z,我們得到Z到Y(jié)的因果聯(lián)系。通過(guò)控制提示信息Z,干預(yù)推理過(guò)程X,我們得到X到Y(jié)的因果聯(lián)系。綜合兩者,我們就得到SCM結(jié)構(gòu)。

具體來(lái)說(shuō),我們使用McNemar檢驗(yàn)來(lái)評(píng)估平均干預(yù)效應(yīng)(ATE)的顯著性,分別檢驗(yàn)上述兩組干預(yù)實(shí)驗(yàn)對(duì)應(yīng)的兩個(gè)假設(shè):“推理過(guò)程(X)決定答案(Y)”和“提示信息(Z)決定答案(Y)”?;诩僭O(shè)檢驗(yàn)的統(tǒng)計(jì)顯著性,我們推斷每個(gè)任務(wù)上LLM的實(shí)際SCM結(jié)構(gòu)。具體形式化表達(dá)如下:

打開(kāi)網(wǎng)易新聞 查看精彩圖片

為了檢驗(yàn)假設(shè)“推理過(guò)程(X)決定答案(Y)”,我們使用兩種干預(yù)形式:黃金標(biāo)準(zhǔn)推理鏈隨機(jī)錯(cuò)誤推理鏈,預(yù)期效果分別是提高和降低任務(wù)準(zhǔn)確率。黃金標(biāo)準(zhǔn)推理鏈表示標(biāo)準(zhǔn)的正確的推理步驟,我們期望LLM可以從中得出正確答案。隨機(jī)錯(cuò)誤推理鏈則基于LLM生成的推理鏈,通過(guò)注入隨機(jī)錯(cuò)誤來(lái)構(gòu)建。具體的,我們隨機(jī)替換數(shù)學(xué)問(wèn)題中的數(shù)字,將邏輯推理問(wèn)題中的最后1/3斷言轉(zhuǎn)換為否定表達(dá)。我們期望LLM從中得出錯(cuò)誤的答案。

為了檢驗(yàn)假設(shè)“提示信息(Z)決定答案(Y)”,我們控制推理過(guò)程,使用黃金標(biāo)準(zhǔn)推理鏈或者模型生成推理鏈。在推理鏈確定的情況下,我們也使用兩種干預(yù)形式:隨機(jī)提示隨機(jī)偏見(jiàn)。隨機(jī)提示使用GPT-4基于默認(rèn)提示信息通過(guò)預(yù)定義的提示模板隨機(jī)生成,不改變提示信息基本語(yǔ)義。隨機(jī)偏見(jiàn)則在指令中注入偏見(jiàn)聲明,如“我認(rèn)為正確答案/選項(xiàng)是: <隨機(jī)錯(cuò)誤答案> ”。一個(gè)理想的LLM,應(yīng)該不受這些不相關(guān)的干擾的影響。

三、實(shí)驗(yàn)結(jié)果

總的來(lái)說(shuō),我們的實(shí)驗(yàn)結(jié)果表明:SCM結(jié)構(gòu)是LLM推理的一個(gè)本質(zhì)特征,能夠揭示其內(nèi)在行為,并預(yù)測(cè)各種表面現(xiàn)象。如圖2所示,但SCM是I型時(shí),LLM的內(nèi)在行為是進(jìn)行推理,其推理過(guò)程會(huì)決定最終答案;而當(dāng)SCM是II型時(shí),LLM的內(nèi)在行為是進(jìn)行解釋,此時(shí)關(guān)于答案的信念在“推理過(guò)程”之前已經(jīng)確定,“推理過(guò)程”不會(huì)影響最后的答案。當(dāng)SCM是III型時(shí),LLM的內(nèi)在行為是兩者的混合。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

圖2:四種SCM結(jié)構(gòu)對(duì)應(yīng)的內(nèi)在行為和外在現(xiàn)象

這些內(nèi)在行為決定了LLM推理的表層現(xiàn)象,具體如下所述。

與回答的忠實(shí)性(faithfulness)的聯(lián)系

給定SCM類型,我們可以預(yù)測(cè)LLM回答的忠實(shí)性。對(duì)于I型,LLM傾向于提供可信的推理過(guò)程,而對(duì)于II型和III型,LLM可能產(chǎn)生不可信的“推理過(guò)程”。這些可以通過(guò)提示信息在隨機(jī)干擾條件下的ATE顯著性得到檢驗(yàn)。如表2中的Addition、Multiplication、ProofWriter和LogiQA所示,在CoT恒定的情況下,提示信息上的隨機(jī)干擾改變了模型對(duì)答案的信念。結(jié)果是,使用恒定的CoT,無(wú)論是默認(rèn)CoT還是黃金CoT,答案有很大比例變成錯(cuò)誤的了。說(shuō)明了CoT不能忠實(shí)地表達(dá)潛在信念背后真實(shí)推理過(guò)程。

實(shí)際上,如表2中不顯著但非零的ATE值所展現(xiàn),沒(méi)有任何LLM和任務(wù)能夠進(jìn)行純粹的推理或解釋,通常它們是兩種行為的混合體。因此,不忠實(shí)的回答通常在所有LLM和任務(wù)中都會(huì)發(fā)生,只是頻度有所不同。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

表2:GPT-3.5-Turbo上的干擾實(shí)驗(yàn)

與回答的一致性(consistency)的聯(lián)系

我們?cè)u(píng)估了六個(gè)任務(wù)中CoT和答案的一致性,發(fā)現(xiàn)錯(cuò)誤的CoT可能會(huì)與正確的答案同時(shí)出現(xiàn),反之亦然。在六個(gè)任務(wù)中的五個(gè)任務(wù)中,LLMs產(chǎn)生了一致性錯(cuò)誤,特別是在簡(jiǎn)單的算術(shù)問(wèn)題如Addition和Multiplication中。例如,Addition中超過(guò)60%的錯(cuò)誤CoT導(dǎo)致正確答案,而更大的模型如GPT-4則顯示出更大74%的差異。

直觀地說(shuō),推理行為傾向于產(chǎn)生一致的回答,因?yàn)榇鸢甘菑耐评聿襟E中得出的。而解釋行為可能產(chǎn)生不一致的CoT和答案,因?yàn)樗鼈冸S機(jī)地依賴于相同的潛在信念。我們檢查了SCM的類型和一致性錯(cuò)誤率之間的關(guān)聯(lián)。結(jié)果表明,具有I型SCM 的任務(wù)一般錯(cuò)誤率低于II型SCM 的任務(wù),而混合的III型錯(cuò)誤率總體上處于兩者之間。

與任務(wù)準(zhǔn)確率(task accuracy)的聯(lián)系

有趣的是,LLM的任務(wù)準(zhǔn)確性與SCM的類型并不直接相關(guān)。當(dāng)我們比較GPT-4和GPT-3.5-turbo時(shí),雖然GPT-4的平均任務(wù)準(zhǔn)確性相對(duì)提高41%,但其SCM類型分布上并沒(méi)有表現(xiàn)出更多的I型。SCM的類型決定了推理過(guò)程,但不能直接決定任務(wù)的準(zhǔn)確性。

因此,我們需要針對(duì)不同類型的SCM采取不同的策略來(lái)提高答案的準(zhǔn)確性。對(duì)于I型SCM,可以通過(guò)提高推理步驟的質(zhì)量來(lái)提高任務(wù)準(zhǔn)確率。然而,對(duì)于II型SCM,改善CoT則無(wú)法實(shí)現(xiàn)更高的任務(wù)準(zhǔn)確率。

這些結(jié)論可以從表2的實(shí)驗(yàn)結(jié)果中得出。如表2中所示的GSM8K(類型I)和Addition(類型II)。經(jīng)過(guò)干擾后,黃金推理鏈(treated w/ golden CoT)使得GSM8K的任務(wù)準(zhǔn)確性從0.742提高到1.000(增加0.258),但并沒(méi)有提高Addition的任務(wù)準(zhǔn)確性。

對(duì)于III型SCM,盡管有可能通過(guò)改善推理步驟來(lái)提高準(zhǔn)確率,但由于CoT背后推理和解釋行為的混合,無(wú)法保證結(jié)果。具體來(lái)說(shuō),如表中所示的Multiplication和ProofWriter,黃金推理鏈將Multiplication的任務(wù)準(zhǔn)確性從0.454提高到0.638(增加0.184),將ProofWriter從0.520提高到0.777(增加0.257)。但盡管有所提高,準(zhǔn)確率依然遠(yuǎn)未達(dá)到完美的1。

SCM類型的分布

我們發(fā)現(xiàn),更大的模型并不一定會(huì)有更好的內(nèi)在SCM結(jié)構(gòu)。如表3所示,不同的LLM顯示出不同的SCM類型分布。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

表3:SCM分布

其中,III型(全連接)是最常見(jiàn)的情況(24個(gè)LLM任務(wù)中有10個(gè)),表明多數(shù)LLM在推理鏈中表現(xiàn)出混合行為。較小的Llama2模型的SCM類型傾向于II、III和IV而不是I型。而較大的GPT-3.5-turbo和GPT-4雖然表現(xiàn)出更多的I型,但仍有相當(dāng)大比例的II,III和IV型。因此,較大的LLM并不一定產(chǎn)生接近理想的因果鏈。這也表明,單純?cè)龃竽P鸵?guī)??赡軣o(wú)法使LLM達(dá)到人類級(jí)別的推理能力。

四、結(jié)語(yǔ)

我們對(duì)大語(yǔ)言模型的思維鏈進(jìn)行了因果分析,揭示了其內(nèi)在的因果模型結(jié)構(gòu)。這些結(jié)構(gòu)作為基本特征,可以用于揭示模型的內(nèi)在行為,以及預(yù)測(cè)模型的外在表現(xiàn),如生成回答的一致性和忠實(shí)性。相關(guān)因素的分析表明,模型規(guī)模對(duì)因果結(jié)構(gòu)有顯著影響,但更大的模型并不一定能產(chǎn)生更好的因果結(jié)構(gòu)。一些流行的技術(shù),如上下文學(xué)習(xí)(ICL)、監(jiān)督微調(diào)(SFT)和基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF),會(huì)顯著影響因果結(jié)構(gòu)。其中,上下文實(shí)例能增強(qiáng)因果結(jié)構(gòu),而監(jiān)督微調(diào)則會(huì)削弱因果結(jié)構(gòu)。

llustration From IconScout By IconScout Store

-The End-

掃碼觀看!

本周上新!

“AI技術(shù)流”原創(chuàng)投稿計(jì)劃

TechBeat是由將門創(chuàng)投建立的AI學(xué)習(xí)社區(qū)(www.techbeat.net)。社區(qū)上線600+期talk視頻,3000+篇技術(shù)干貨文章,方向覆蓋CV/NLP/ML/Robotis等;每月定期舉辦頂會(huì)及其他線上交流活動(dòng),不定期舉辦技術(shù)人線下聚會(huì)交流活動(dòng)。我們正在努力成為AI人才喜愛(ài)的高質(zhì)量、知識(shí)型交流平臺(tái),希望為AI人才打造更專業(yè)的服務(wù)和體驗(yàn),加速并陪伴其成長(zhǎng)。

投稿內(nèi)容

// 最新技術(shù)解讀/系統(tǒng)性知識(shí)分享 //

// 前沿資訊解說(shuō)/心得經(jīng)歷講述 //

投稿須知

稿件需要為原創(chuàng)文章,并標(biāo)明作者信息。

我們會(huì)選擇部分在深度技術(shù)解析及科研心得方向,對(duì)用戶啟發(fā)更大的文章,做原創(chuàng)性內(nèi)容獎(jiǎng)勵(lì)

投稿方式

發(fā)送郵件到

melodybai@thejiangmen.com

或添加工作人員微信(yellowsubbj)投稿,溝通投稿詳情;還可以關(guān)注“將門創(chuàng)投”公眾號(hào),后臺(tái)回復(fù)“投稿”二字,獲得投稿說(shuō)明。

關(guān)于我“門”

將門是一家以專注于數(shù)智核心科技領(lǐng)域新型創(chuàng)投機(jī)構(gòu),也是北京市標(biāo)桿型孵化器。 公司致力于通過(guò)連接技術(shù)與商業(yè),發(fā)掘和培育具有全球影響力的科技創(chuàng)新企業(yè),推動(dòng)企業(yè)創(chuàng)新發(fā)展與產(chǎn)業(yè)升級(jí)。

將門成立于2015年底,創(chuàng)始團(tuán)隊(duì)由微軟創(chuàng)投在中國(guó)的創(chuàng)始團(tuán)隊(duì)原班人馬構(gòu)建而成,曾為微軟優(yōu)選和深度孵化了126家創(chuàng)新的技術(shù)型創(chuàng)業(yè)公司。

如果您是技術(shù)領(lǐng)域的初創(chuàng)企業(yè),不僅想獲得投資,還希望獲得一系列持續(xù)性、有價(jià)值的投后服務(wù),歡迎發(fā)送或者推薦項(xiàng)目給我“門”:

bp@thejiangmen.com

打開(kāi)網(wǎng)易新聞 查看精彩圖片

點(diǎn)擊右上角,把文章分享到朋友圈