
當(dāng)前大模型研究正逐步從依賴擴展定律(Scaling Law)的預(yù)訓(xùn)練,轉(zhuǎn)向聚焦推理能力的后訓(xùn)練。鑒于符號邏輯推理的有效性與普遍性,提升大模型的邏輯推理能力成為解決幻覺問題的關(guān)鍵途徑。
為推進大語言模型的邏輯推理能力研究,來自北大、清華、阿姆斯特丹大學(xué)(UvA)、卡內(nèi)基梅隆大學(xué)(CMU)、MBZUAI 等 5 所高校的研究人員全面調(diào)研了該領(lǐng)域最前沿的研究方法和評測基準(zhǔn),聯(lián)合發(fā)布了調(diào)研綜述《Empowering LLMs with Logical Reasoning: A Comprehensive Survey》,針對兩個關(guān)鍵科學(xué)問題 ——邏輯問答和邏輯一致性,對現(xiàn)有方法進行歸納整理并探討了未來研究方向。
該綜述論文已被 IJCAI 2025 Survey Track 接收,并且作者團隊將于 IJCAI 2025 現(xiàn)場圍繞同一主題進行 Tutorial 演講,全面探討該研究領(lǐng)域的挑戰(zhàn)、方法與機遇。

- 論文標(biāo)題:Empowering LLMs with Logical Reasoning: A Comprehensive Survey
- 論文鏈接:https://arxiv.org/abs/2502.15652
全文概要
大語言模型(LLMs)雖然在很多自然語言任務(wù)中取得了顯著成就,但最新研究表明其邏輯推理能力仍存在顯著缺陷。本文將大模型邏輯推理困境主要歸納為兩個方面:
- 邏輯問答:LLMs 在給定前提和約束條件下進行演繹、歸納或溯因等復(fù)雜推理時,往往難以生成正確答案。例如,前提為 “金屬導(dǎo)電;絕緣體不導(dǎo)電;如果某物是由鐵制成的,那么它是金屬;釘子是由鐵制成的”,問題為 “下列斷言是真、假還是無法判斷:釘子不能導(dǎo)電”。為了正確回答這個問題,大語言模型需要自我總結(jié)出邏輯推理鏈“釘子→由鐵制成→金屬→導(dǎo)電”,從而得出該斷言實際為 “假” 的結(jié)論。
- 邏輯一致性:LLMs 在不同問題間容易產(chǎn)生自相矛盾的回答。例如,Macaw 問答模型對 "喜鵲是鳥嗎?" 和 "鳥有翅膀嗎?" 均回答 "是",但對 "喜鵲有翅膀嗎?" 給出否定答案。
為推進該領(lǐng)域研究,我們系統(tǒng)梳理了最前沿的技術(shù)方法并建立了對應(yīng)的分類體系。具體而言,對于邏輯問答,現(xiàn)有方法可根據(jù)其技術(shù)路線分為基于外部求解器、提示工程、預(yù)訓(xùn)練和微調(diào)等類別。對于邏輯一致性,我們探討了常見的邏輯一致性的概念,包括否定一致性、蘊涵一致性、傳遞一致性、事實一致性及其組合形式,并針對每種邏輯一致性歸納整理了其對應(yīng)的技術(shù)手段。
此外,我們總結(jié)了常用基準(zhǔn)數(shù)據(jù)集和評估指標(biāo),并探討了若干具有前景的研究方向,例如擴展至模態(tài)邏輯以處理不確定性,以及開發(fā)能同時滿足多種邏輯一致性的高效算法等。
具體的文章結(jié)構(gòu)如下圖。

圖 1:大模型邏輯推理綜述分類體系,包含邏輯問答和邏輯一致性兩個關(guān)鍵科學(xué)問題
大模型邏輯推理困境的兩個方面
盡管大語言模型在文本生成、分類和翻譯等廣泛的自然語言任務(wù)中展現(xiàn)出了卓越的性能,大語言模型在復(fù)雜邏輯推理上仍然面臨著重大挑戰(zhàn)。這是由于大語言模型的預(yù)訓(xùn)練語料庫主要由人類撰寫的文本組成,這些文本缺乏高質(zhì)量的邏輯推理樣本(如演繹證明),且通過下一詞元預(yù)測(next token prediction)或掩碼語言建模(masked language modeling)等任務(wù)來學(xué)習(xí)語法、語義和世界知識,并不能確保大語言模型具備邏輯推理能力。以上局限性會導(dǎo)致大語言模型在需要邏輯推理能力在以下兩個任務(wù)表現(xiàn)不佳。
邏輯問答
大語言模型在邏輯問答中往往無法生成正確答案,其要求大語言模型在給定一系列前提和推理規(guī)則的情況下,進行復(fù)雜的演繹、歸納或溯因推理。具體而言,這些邏輯問題大致可分為兩類:
- 判斷能否從給定信息中推導(dǎo)出某個斷言,即輸出該斷言的真值:真、假或無法判斷。
- 從多個選項中找出所有不違背給定前提和約束條件的選項。
令人驚訝的是,在邏輯問題數(shù)據(jù)集 FOLIO 上,LLaMA 13B 參數(shù)模型在 8-shot 下的準(zhǔn)確率僅為 33.63%,這只比從真、假和無法判斷中隨機猜測對應(yīng)的準(zhǔn)確率 33.33% 略高一點。這極大地限制了大語言模型在智能問答、自主決策等場景的實際應(yīng)用。
邏輯一致性
大語言模型在推理復(fù)雜問題的過程中回答不同問題時,容易產(chǎn)生自相矛盾的回答,或與知識庫 / 邏輯規(guī)則相矛盾,我們稱其違反了邏輯一致性。
需要注意的是,邏輯一致性的形式可以是多樣的。例如,LLaMa-2 70B 參數(shù)模型對 “信天翁是一種生物嗎?” 和 “信天翁不是一種生物嗎?” 這兩個問題都回答 “真”,這違反了邏輯的矛盾律。又如,Macaw 問答大模型對 “喜鵲是鳥嗎?” 和 “鳥有翅膀嗎?” 這兩個問題都回答 “是”,但對 “喜鵲有翅膀嗎?” 卻回答 “否”,這不符合三段論推理規(guī)則。
許多研究表明,僅在大型問答數(shù)據(jù)集上進行訓(xùn)練并不能確保大語言模型的邏輯一致性。這些相互矛盾的回答引發(fā)了對大語言模型可靠性和可信度的擔(dān)憂,尤其限制了其在高風(fēng)險場景中的實際部署,如醫(yī)療診斷、法律咨詢、工業(yè)流程控制等場景。
我們可以將邏輯問答和邏輯一致性視為大語言模型邏輯推理能力的一體兩面。接下來我們將對這兩個方面的最新研究進展進行歸納總結(jié)。
提升邏輯問答能力的方法
為了更好地理解大語言模型邏輯推理能力的邊界,探索更有效的技術(shù)方法,研究者們開發(fā)了許多相關(guān)的測評任務(wù)與基準(zhǔn)數(shù)據(jù)集,用于評估大模型在邏輯問答任務(wù)的性能。在此基礎(chǔ)上,許多研究探索了增強大語言模型邏輯推理能力的方法,這些方法可以大致分為三類:基于外部求解器的方法、基于提示的方法,和預(yù)訓(xùn)練與微調(diào)方法。下面進行具體介紹。
1. 基于外部求解器的方法
總體思路是將自然語言(NL)表達的邏輯問題翻譯為符號語言(SL)表達式,然后通過外部求解器進行邏輯推理求解,最后基于多數(shù)投票等集成算法生成最終答案,如圖 2 所示。

圖 2:基于外部求解器方法提升大模型邏輯問答能力
2. 基于提示的方法
一類思路是通過設(shè)計合理的提示詞,讓 LLMs 在回答問題時顯式地構(gòu)造邏輯推理鏈;另一類思路是通過設(shè)計提示實現(xiàn)NL 與 SL 的表達轉(zhuǎn)換,從而增加大模型的邏輯推理能力。
3. 預(yù)訓(xùn)練與微調(diào)方法
考慮到預(yù)訓(xùn)練語料庫中缺乏高質(zhì)量的邏輯多步推理或證明樣本,預(yù)訓(xùn)練和微調(diào)方法通過納入演繹證明或包含邏輯推理過程的自然語言例子來增強數(shù)據(jù)集,并基于該數(shù)據(jù)集對大模型進行預(yù)訓(xùn)練或微調(diào)。
提升邏輯一致性的方法
開發(fā)可靠的大語言模型并確保其安全部署變得越來越重要,尤其是在它們被用作知識來源時。在可信性中,邏輯一致性至關(guān)重要:具有邏輯一致性的大模型可以有效避免不同問題的回答之間產(chǎn)生矛盾,從而減少大模型幻覺,增強終端用戶在實踐中對大模型可靠性的信心。
邏輯一致性要求大模型在推理復(fù)雜問題的過程中回答不同問題時,不與自身回答、知識庫或邏輯規(guī)則相矛盾。確保大模型能夠在不自相矛盾的情況下進行推理,也被稱為自洽性(self-consistency)?,F(xiàn)有大量研究表明,僅通過在大型數(shù)據(jù)集上進行訓(xùn)練無法保證其回答滿足邏輯一致性。
我們根據(jù)一個、兩個和多個命題之間應(yīng)具備的邏輯關(guān)系,對各種邏輯一致性進行分類,并探討了增強大模型邏輯一致性的不同方法及其測評指標(biāo)。
1. 否定一致性(Negation Consistency)

例如,Macaw 問答模型對 “喜鵲是鳥嗎?” 和 “鳥有翅膀嗎?” 這兩個問題都回答 “是”,但對 “喜鵲有翅膀嗎?” 卻回答 “否”。根據(jù)傳遞性規(guī)則,前兩個肯定答案可以推出 “喜鵲有翅膀”,這與對最后一個問題回答 “否” 是相互矛盾的。
4. 事實一致性(Fact consistency)
事實一致性指的是大模型生成的回答或推理結(jié)果與給定知識庫(KB)的對齊程度。在事實核查(fact-checking)任務(wù)中,通過將模型的回答與可靠的知識庫進行比較,來評估模型的回答是否符合知識庫中給定的事實。
5. 復(fù)合一致性(Compositional consistency)
復(fù)合一致性要求大模型不僅滿足以上單個邏輯一致性,還應(yīng)該在組合以上簡單邏輯一致性時對復(fù)合邏輯規(guī)則仍具有一致性。具體而言,當(dāng)模型需要通過邏輯運算符(如蘊涵、合取等)將多種邏輯關(guān)系組合成復(fù)雜的推理鏈時,應(yīng)確保對每個推導(dǎo)步驟都符合邏輯規(guī)則,并使最終結(jié)論自洽且邏輯正確。
針對以上每種邏輯一致性,我們都分別探討了其提升方法和評測基準(zhǔn)。下圖展示了一類通用的提升大模型回答的邏輯一致性的方法框架,首先對每個問題生成多個候選回答,然后對不同問題的回答計算邏輯一致性的違背程度,最后優(yōu)化求解為每個問題選擇一個最優(yōu)答案使邏輯一致性的違背程度降到最低。更多細節(jié)請參見我們的原文。

圖 3:一類通用的提升大模型回答的邏輯一致性的方法框架
未來研究方向
模態(tài)邏輯推理能力:現(xiàn)有方法多局限于命題邏輯與一階邏輯,未來可考慮將大語言模型的邏輯推理能力擴展至模態(tài)邏輯以處理不確定性命題。
高階邏輯推理:由一階邏輯擴展得到的高階邏輯強調(diào)對屬性(即謂詞)進行量化,未來可考慮訓(xùn)練大模型的高階邏輯推理能力以處理更復(fù)雜的推理問題。
滿足多種邏輯一致性的高效算法:目前增強邏輯一致性的方法仍存在解決的邏輯一致性單一和計算復(fù)雜度過高等問題。因此,開發(fā)能同時讓大模型滿足多種邏輯一致性的高效方法至關(guān)重要。
結(jié)語
本綜述系統(tǒng)梳理了大語言模型邏輯推理能力的研究現(xiàn)狀。盡管在很多自然語言任務(wù)中取得了顯著進展,但大語言模型的邏輯推理能力仍面臨重大挑戰(zhàn),尤其在邏輯問答和邏輯一致性兩個方面。通過建立完整的分類體系,我們對前沿研究方法進行了系統(tǒng)歸納和概述,并整理了用于該領(lǐng)域常用的公開基準(zhǔn)數(shù)據(jù)集與評估指標(biāo),探討了未來的重要研究方向。
熱門跟貼