序章:一樁關于“提問”的懸案
人工智能的星辰大海中,正上演著一樁撲朔迷離的“懸案”。主角是那些我們耳熟能詳?shù)摹懊餍莻商健薄狦PT-4o、Gemini 家族、Claude 3.5 Sonnet 等當今最頂尖的大型語言模型(LLM)。它們以博聞強記、對答如流著稱,似乎無所不能。然而,當它們被請到一個名為 QuestBench 的“案發(fā)現(xiàn)場”時,卻遭遇了集體性的滑鐵盧。
這個“案發(fā)現(xiàn)場”并非測試它們的知識儲備或基礎推理,而是設置了一系列邏輯和規(guī)劃謎題,就像這份來自 Google DeepMind 與 MIT 的 QuestBench 研究論文中圖 1 展示的 GSM-Q 示例[1]那樣。解開這些謎題的關鍵,在于 AI 必須先從一堆看似合理的選項中,問出那個唯一且“正確”的問題,以獲取最后一條缺失的關鍵線索。結果令人大跌眼鏡:在相對簡單的數(shù)學題上,這些“學霸”們大多能輕松拿下 80% 以上的高分;但在邏輯推理(Logic-Q)和任務規(guī)劃(Planning-Q)這兩個領域,它們的“提問準確率”卻驚人地跌破了 50% 的及格線,甚至更低。
上圖直觀展示了這種表現(xiàn)上的巨大鴻溝(具體模型得分可見 QuestBench 論文 Table 2[2])。這不僅僅是“失誤”,更像是一種集體性的“失語癥”。這樁懸案的核心直指一個被我們長期忽視的關鍵問題:一個能給出答案的 AI,是否真的知道自己需要什么信息?當信息不足時,它懂得如何提出那個最關鍵的問題嗎?這不僅僅是技術上的好奇,更關乎 AI 在真實世界中協(xié)作的可靠性,尤其是在需要處理現(xiàn)實中普遍存在的歧義與信息不確定性[3]的復雜場景中。

為了破解這樁“AI 提問疑云”,我們需要化身偵探,深入“案發(fā)現(xiàn)場”,仔細勘查 Google DeepMind 與 MIT 研究者們留下的四大關鍵“指紋”——他們稱之為“難度軸”(Difficulty Axes)。這些“指紋”記錄了 AI 在面對不同類型挑戰(zhàn)時的行為模式:

上圖展示了我們將要分析的四個關鍵維度:EBF(猜對問題的“運氣成本”/干擾項數(shù)量)、d(邏輯推理深度)、|X|(問題規(guī)模/信息量)以及|C|/b(問題結構復雜度)。現(xiàn)在,讓我們拿起放大鏡,循著這四大線索,一步步揭開頂尖 AI“失語”背后的真相。
線索一:致命的“選擇題”——EBF 指紋暴露的“選擇困難”
調(diào)查首先從最明顯的線索 EBF 入手。EBF 值越高,意味著 AI 需要從越多的干擾項中選出那個唯一的正確問題,這就像在一堆外觀極其相似的鑰匙里找到唯一能打開那扇門的一把。
分析結果立刻揭示了一個普遍規(guī)律:在邏輯(Logic-Q)和規(guī)劃(Planning-Q)這兩個 AI 表現(xiàn)糟糕的領域,EBF 與準確率呈現(xiàn)出強烈的負相關(Spearman 相關系數(shù)顯著為負,p < 0.05,詳細數(shù)據(jù)見 QuestBench 論文 Table 3[4])。簡單來說,干擾選項越多,AI 就越容易“抓瞎”,選錯那個關鍵問題。想象一下,讓你在 3 把鑰匙里找對的和在 30 把鑰匙里找對的,難度不可同日而語。AI 在這里似乎也遇到了類似的“選擇困難癥”。

更有趣的對比發(fā)生在數(shù)學領域(GSM-Q/GSME-Q)。在這里,AI 的準確率普遍很高,而 EBF 的影響則小得多,相關性明顯減弱(QuestBench 論文 Table 3[5])。這暗示著,AI 在處理數(shù)學問題時,可能采取了更直接、更自信的策略,較少受到選項數(shù)量的困擾。它們似乎更能“一眼看穿”數(shù)學題中缺失的那個條件是什么。
這條線索指向了 AI 的第一個關鍵缺陷:它們可能缺乏一套有效的“信息篩選”或“選項排除”策略。當面對多個看似都合理的潛在問題時,它們無法像經(jīng)驗豐富的偵探那樣,快速評估每個問題的價值、排除干擾項、聚焦關鍵點。這種評估和過濾能力的缺失,在選擇項增多時,其弊端便暴露無遺。這或許與當前 Transformer 模型在評估多選項時的認知或算法局限性[6]有關,它們在面對不確定性時難以有效權衡,其內(nèi)部的注意力機制有時難以區(qū)分關鍵信息和干擾項[7]。
線索二:深層推理的“迷霧”——d 指紋揭示的“策略混亂”
如果說 EBF 暴露了 AI 在“廣度”選擇上的困難,那么難度軸 d(推理深度)則揭示了它們在“深度”思考上的混亂,甚至可以說是矛盾重重。
這里的“矛盾證詞”最為詭異:
在邏輯推理(Logic-Q)中,AI 顯然“畏懼”深度。隨著推理深度 d 的增加,模型的準確率顯著下降(QuestBench 論文 Table 3[8] 顯示顯著負相關)。這表明,邏輯鏈條越長,AI 越容易在中間環(huán)節(jié)“斷線”,找不到那個需要補充的關鍵前提。它們似乎在嘗試順藤摸瓜,但藤蔓一長就力不從心了。這印證了許多研究指出的Transformer 在執(zhí)行深度、多步符號推理時的挑戰(zhàn),其架構在處理函數(shù)組合[9]時存在困難,且長程依賴下的信息衰減問題[10]可能是主要原因。
但在任務規(guī)劃(Planning-Q)中,AI 卻對深度顯得異?!斑t鈍”甚至“麻木”!QuestBench 論文 Table 3[11] 顯示,d 與準確率的相關性微乎其微,甚至不顯著。下面的趨勢圖(基于 QuestBench 論文 Figure 4[12])清晰地展示了這種反差:

這個圖表揭示了一個令人費解的現(xiàn)象:為何規(guī)劃任務的復雜性(以推理深度 d 衡量)似乎并未顯著影響 AI 的提問能力?這太反常了!
這種矛盾指向了更深層的問題。對于 Logic-Q,我們可以理解為 AI“心有余而力不足”。但對于 Planning-Q,這種對深度“不敏感”的現(xiàn)象,強烈暗示著一個更令人不安的可能性:AI 可能根本沒有采用依賴于任務內(nèi)在邏輯深度的結構化搜索策略(比如有效的后向搜索或 A* 等規(guī)劃算法)。它們似乎在用一種“非結構化”的、與問題深度無關的蠻力方式在低效地嘗試或隨機猜測。當前 LLM 在嘗試解決規(guī)劃問題時,它們采用的策略通常是混合了思維樹擴展、符號模板引導和動態(tài)環(huán)境交互的機制[13],但這些策略在面對真正復雜或部分可觀測的環(huán)境時,往往難以有效執(zhí)行經(jīng)典的結構化搜索[14]。
這就像一個偵探,面對復雜的案情,不是層層推理、順藤摸瓜,而是在原地打轉,或者隨機抓取一些看似相關的線索碰運氣。QuestBench 論文的另一項發(fā)現(xiàn)也佐證了這一點:在 Planning-Q 任務中,即使提供了“不確定(not sure)”的選項,模型也極少選擇承認自己信息不足,而是傾向于硬猜一個答案(原文 Section 5.4)。這背后,或許與 RLHF(人類反饋強化學習)等對齊技術可能無意中抑制了模型表達不確定性[15],導致了這種“迷之自信”有關。正如一項研究指出的,RLHF 訓練可能使模型響應的多樣性降低,同時平均置信度提高[16],從而更傾向于給出看似確定的答案。
線索三:規(guī)模效應的“失靈”——|X|, |C|, b 指紋的旁證
第三組“指紋”——問題規(guī)模(|X| 變量數(shù))和結構復雜度(|C| 約束數(shù) / b 規(guī)劃塊數(shù))——為我們之前的推斷提供了有力的旁證,并進一步加劇了“策略混亂”的疑云。
邏輯任務再次驗證:規(guī)模越大,越容易出錯。QuestBench 論文 Table 3 [17] 顯示,在 Logic-Q 中,|X| 和 |C| 的增加都與準確率顯著負相關。這符合直覺:信息越多、關系越復雜,推理自然越難。
規(guī)劃任務的反?!绊g性”:但在 Planning-Q 中,模型再次表現(xiàn)出對規(guī)模和復雜度的“麻木”。|X| 和代表規(guī)劃復雜度的塊數(shù) b 的增加,對準確率的影響并不顯著( QuestBench 論文 Table 3 [18] )。這再次印證了之前的推斷:AI 在處理規(guī)劃問題時,其策略似乎與任務的內(nèi)在結構復雜度脫節(jié)了。如果它們沒有進行有效的結構化搜索,自然也就不會因為結構變復雜而表現(xiàn)得更差。
數(shù)學任務的相對穩(wěn)定:數(shù)學任務對規(guī)模復雜度的敏感度也相對較低( QuestBench 論文 Table 3 [19] ),這可能再次說明其解決方案更側重于模式識別,而非處理復雜的變量約束網(wǎng)絡。
綜合 d, |X|, |C|, b 這幾條線索,一個越來越清晰的圖像浮現(xiàn)出來:AI 在處理需要深度理解變量間復雜結構關系的任務時,尤其是規(guī)劃任務,其采用的策略似乎未能有效利用或適應任務的內(nèi)在結構。結構化理解能力,或許是它們的關鍵軟肋。這與一些研究發(fā)現(xiàn) LLM 在處理高度結構化信息(如邏輯規(guī)則、狀態(tài)轉換)時面臨根本困難[20] 的結論一致。其核心原因可能在于,模型基于分布式嵌入的知識表示方式[21],難以精確地維持長推理鏈中的邏輯一致性[22]。
結案陳詞:AI“提問失敗”的真相畫像
經(jīng)過對四大“指紋”的細致勘查與分析,籠罩在頂尖 AI 身上的“提問疑云”逐漸散去,真相的輪廓清晰地呈現(xiàn)在我們面前。
AI 在 QuestBench 上的“集體失誤”,并非因為它們“笨”或者知識儲備不足,核心癥結在于其面對信息不全的結構化任務時,缺乏一套靈活、有效、能適應不同任務結構的通用信息獲取策略。它們似乎患上了一種“策略僵化癥”,并且對任務的“結構感”理解不足:
任務領域
AI 的“作案手法”推斷 (基于 QuestBench 數(shù)據(jù)分析)
邏輯 (Logic-Q)
嘗試結構化搜索,但受限于長程記憶/符號處理能力,“心有余而力不足”,對深度 (d)和規(guī)模 (|X|, |C|)敏感,易在復雜推理中“斷線”。
規(guī)劃 (Planning-Q)
似乎放棄了有效的結構化策略,采用與任務結構脫節(jié)的低效方法(如猜測),對干擾項 (EBF)極其敏感,卻對深度 (d)和規(guī)模 (|X|, b)“麻木不仁”。
數(shù)學 (GSM-Q/GSME-Q)
可能切換到更擅長的模式識別頻道,利用語義理解優(yōu)勢,表現(xiàn)穩(wěn)定,對各難度軸敏感度較低。
這種策略上的僵化和對任務“結構感”的深層理解缺失,共同構成了 AI 在關鍵時刻“問不出正確問題”的真相畫像。
那么,如何為這些“AI 偵探”升級裝備,教會它們真正的“破案方法論”呢?僅僅擴大訓練數(shù)據(jù)或提升算力(記憶更多案例或跑得更快)可能還不夠,關鍵在于提升其處理結構化信息、進行策略性搜索和理解自身知識邊界的能力。幸運的是,研究界并未止步于發(fā)現(xiàn)問題,一系列 旨在提升 LLM 主動信息獲取和提問能力的前沿研究[23] 正在積極探索中:
神經(jīng)符號 AI (Neuro-symbolic AI):這是目前最有希望的方向之一。它嘗試將神經(jīng)網(wǎng)絡的模式識別能力與符號系統(tǒng)的邏輯推理能力結合。例如,通過注入顯式規(guī)則或約束來增強模型的結構化推理能力,已有研究在 醫(yī)療決策 [24] 、 機器人規(guī)劃 [25] 、 金融風控 [26] 等領域展示了潛力,能夠更準確地識別缺失的邏輯或規(guī)劃步驟。
交互式學習與元認知訓練:讓 AI 在互動中學習提問,并提升其自我認知能力。例如,通過 模擬師生互動(Alice 框架) [27] 提升推理準確率,或利用 MetaMedQA 等基準 [28] 訓練和評估模型識別知識缺口和校準置信度的能力。
更智能的 Agent 框架:開發(fā)具備更強規(guī)劃、驗證和信息篩選能力的 AI Agent。目前,像 LangChain [29] 或 AutoGPT [30] 等框架正在探索如何讓 Agent 在信息不足時 主動尋求澄清 [31] ,雖然 現(xiàn)有 Agent 在復雜場景下仍會失敗 [32] ,但這無疑是重要的探索方向。
QuestBench 這樁“懸案”的偵破,雖給我們對當前 AI 能力的樂觀預期潑了一盆冷水,但也并非終點,反而是一個全新的起點。它精準地定位了阻礙 AI 向更通用、更可靠智能邁進的關鍵瓶頸——主動信息獲取與結構化理解。
看清問題,是解決問題的第一步。正如兒童通過不斷提問來構建對世界的認知(正如發(fā)展心理學家 Michelle Chouinard 等人的研究[33]所揭示的,提問是兒童認知發(fā)展的核心機制),AI 也需要學會“提問”這門藝術,才能真正從一個“無所不知”的搜索引擎,進化為一個能夠與人類深度協(xié)作、共同探索未知、解決復雜問題的“智能伙伴”。
在醫(yī)療診斷[34]、科學發(fā)現(xiàn)自動化[35]、個性化教育[36]、工業(yè)流程優(yōu)化[37]乃至人機共創(chuàng)[38]等無數(shù)場景中,AI 主動提出正確問題的能力,將是釋放其巨大潛力、實現(xiàn)高效人機協(xié)作的關鍵。已有研究表明,AI 通過特定性提問能將信息檢索滿意度提升 45.7%[39]。攻克“提問”這一挑戰(zhàn),理解并提升 AI 的這項能力,無疑將為我們打開通往真正“協(xié)作智能”時代的大門。前路雖漫漫,但方向已明,未來值得期待。
參考資料
QuestBench 研究論文中圖 1 展示的 GSM-Q 示例: https://arxiv.org/pdf/2503.22674.pdf
QuestBench 論文 Table 2: https://arxiv.org/pdf/2503.22674.pdf
歧義與信息不確定性: https://www.aimodels.fyi/papers/arxiv/aligning-language-models-to-explicitly-handle-ambiguity
QuestBench 論文 Table 3: https://arxiv.org/pdf/2503.22674.pdf
[5]
QuestBench 論文 Table 3: https://arxiv.org/pdf/2503.22674.pdf
[6]
認知或算法局限性: https://arxiv.org/abs/2402.08164v2
[7]
注意力機制有時難以區(qū)分關鍵信息和干擾項: https://arxiv.org/abs/2405.00739
[8]
QuestBench 論文 Table 3: https://arxiv.org/pdf/2503.22674.pdf
[9]
函數(shù)組合: https://aclanthology.org/2023.acl-long.516.pdf
[10]
信息衰減問題: https://www.reddit.com/r/ChatGPTPro/comments/1g4d6wy/apple_study_exposes_lack_of_llm_reasoning/
[11]
QuestBench 論文 Table 3: https://arxiv.org/pdf/2503.22674.pdf
[12]
QuestBench 論文 Figure 4: https://arxiv.org/pdf/2503.22674.pdf
[13]
混合了思維樹擴展、符號模板引導和動態(tài)環(huán)境交互的機制: https://openreview.net/pdf?id=lNCsyA5uS1
[14]
往往難以有效執(zhí)行經(jīng)典的結構化搜索: https://arxiv.org/abs/2410.22597
[15]
RLHF(人類反饋強化學習)等對齊技術可能無意中抑制了模型表達不確定性: https://hdsr.mitpress.mit.edu/pub/jaqt0vpb
[16]
RLHF 訓練可能使模型響應的多樣性降低,同時平均置信度提高: https://openreview.net/pdf?id=1DIdt2YOPw
[17]
QuestBench 論文 Table 3: https://arxiv.org/pdf/2503.22674.pdf
QuestBench 論文 Table 3: https://arxiv.org/pdf/2503.22674.pdf
QuestBench 論文 Table 3: https://arxiv.org/pdf/2503.22674.pdf
LLM 在處理高度結構化信息(如邏輯規(guī)則、狀態(tài)轉換)時面臨根本困難: https://dev.to/ahikmah/limitations-of-large-language-models-unpacking-the-challenges-1g16
[21]
分布式嵌入的知識表示方式: https://blog.milvus.io/ai-quick-reference/what-role-do-embeddings-play-in-reasoning
[22]
難以精確地維持長推理鏈中的邏輯一致性: https://arxiv.org/abs/2501.17617
[23]
旨在提升 LLM 主動信息獲取和提問能力的前沿研究: https://arxiv.org/abs/2501.10282
[24]
醫(yī)療決策: https://www.ncbi.nlm.nih.gov/pmc/articles/PMC11891111/
[25]
機器人規(guī)劃: https://arxiv.org/abs/2404.00756
[26]
金融風控: https://arxiv.org/abs/2406.17987
[27]
模擬師生互動(Alice 框架): https://arxiv.org/abs/2504.07316
[28]
MetaMedQA 等基準: https://www.nature.com/articles/s41467-024-55628-6
[29]
LangChain: https://www.datacamp.com/tutorial/building-context-aware-chatbots-leveraging-langchain-framework-for-chatgpt
[30]
AutoGPT: https://en.wikipedia.org/wiki/AutoGPT
[31]
主動尋求澄清: https://stackoverflow.com/questions/76170406/make-langchain-agent-ask-clarifying-question
[32]
現(xiàn)有 Agent 在復雜場景下仍會失敗: https://www.linkedin.com/pulse/why-do-most-multi-agent-llm-systems-fail-jagadeesh-rajarajan-79kjc
[33]
Michelle Chouinard 等人的研究: https://pubmed.ncbi.nlm.nih.gov/17394580/
[34]
醫(yī)療診斷: https://www.aalpha.net/blog/human-ai-collaboration-augmenting-capabilities-with-agentic-platforms/
[35]
科學發(fā)現(xiàn)自動化: https://arxiv.org/html/2503.22444v2
[36]
個性化教育: https://www.semanticscholar.org/paper/575d6612c0459205e0ecf98f11ab42273228bbae
[37]
工業(yè)流程優(yōu)化: https://smythos.com/ai-integrations/ai-integration/human-ai-collaboration-frameworks/
[38]
人機共創(chuàng): https://www.semanticscholar.org/paper/5f45b5f1346fa20867d0ffaa33fbb5d9fc56c180
[39]
AI 通過特定性提問能將信息檢索滿意度提升 45.7%: https://arxiv.org/html/2402.01934v1
熱門跟貼