打開網易新聞 查看精彩圖片

基于逐步生成解決方案的大語言模型(LLMs)訓練范式在人工智能領域獲得了廣泛關注,并已發(fā)展成為行業(yè)內的主流方法之一。

例如,OpenAI 在其「12 Days of OpenAI」直播系列的第二日推出了針對 O1 模型的強化微調(Reinforcement Fine-Tuning,RFT),進一步推動了 AI 定制化的發(fā)展[1]。RFT/ReFT[2] 的一個關鍵組成部分是使用思維鏈(Chain-of-Thought,CoT)注釋[3] 進行監(jiān)督微調(Supervised Fine-Tuning,SFT)。在 DeepSeek-R1 模型[4] 中,引入了少量長 CoT 冷啟動數(shù)據(jù),以調整模型作為初始強化學習的代理。

然而,為了全面理解采用 CoT 訓練的策略,需要解決兩個關鍵問題:

  • Q1:與無 CoT 訓練相比,采用 CoT 訓練有哪些優(yōu)勢?
  • Q2:如果存在優(yōu)勢,顯式 CoT 訓練的潛在機制是什么?

由于實際訓練過程中涉及眾多因素,分析顯式 CoT 訓練的優(yōu)勢及其潛在機制面臨顯著挑戰(zhàn)。為此,我們利用清晰且可控的數(shù)據(jù)分布進行了詳細分析,并揭示了以下有趣現(xiàn)象:

  • CoT 訓練的優(yōu)勢

(i)與無 CoT 訓練相比,CoT 訓練顯著增強了推理泛化能力,將其從僅適用于分布內(in-distribution, ID)場景擴展到 ID 和分布外(out-of-distribution, OOD)場景(表明系統(tǒng)性泛化),同時加速了收斂速度(圖 1)。

打開網易新聞 查看精彩圖片

圖表 1: 模型在優(yōu)化過程中對訓練和測試兩跳推理事實的準確率。

(ii)即使 CoT 訓練中包含一定范圍的錯誤推理步驟,它仍能使模型學習推理模式,從而實現(xiàn)系統(tǒng)性泛化(圖 4 和圖 5)。這表明數(shù)據(jù)質量比方法本身更為重要。訓練的主要瓶頸在于收集復雜的長 CoT 解決方案,而推理步驟中存在少量的錯誤是可以接受的。

  • CoT 訓練的內部機制

(i)數(shù)據(jù)分布的關鍵因素(如比例 λ 和模式 pattern)在形成模型的系統(tǒng)性泛化中起著決定性作用。換句話說,在 CoT 訓練中僅接觸過兩跳數(shù)據(jù)的模型無法直接泛化到三跳情況,它需要接觸過相關模式。

(ii)通過 logit lens 和 causal tracing 實驗,我們發(fā)現(xiàn) CoT 訓練(基于兩跳事實)將推理步驟內化到模型中,形成一個兩階段的泛化電路。推理電路的階段數(shù)量與訓練過程中顯式推理步驟的數(shù)量相匹配。

我們進一步將分析擴展到推理過程中存在錯誤的訓練數(shù)據(jù)分布,并驗證了這些見解在現(xiàn)實數(shù)據(jù)上對更復雜架構仍然有效。

據(jù)我們所知,我們的研究首次在可控制的實驗中探索了 CoT 訓練的優(yōu)勢,并提供了基于電路的 CoT 訓練機制解釋。這些發(fā)現(xiàn)為 CoT 以及 LLMs 實現(xiàn)穩(wěn)健泛化的調優(yōu)策略提供了寶貴的見解。

打開網易新聞 查看精彩圖片

  • 論文標題:Unveiling the Mechanisms of Explicit CoT Training: How Chain-of-Thought Enhances Reasoning Generalization
  • 論文鏈接:https://arxiv.org/abs/2502.04667

一、預備知識與定義

本部分介紹研究使用的符號定義,具體如下:

原子與多跳事實:研究使用三元組來表示原子(一跳)事實,并基于原子事實和連接規(guī)則來表示兩跳事實以及多跳事實。

打開網易新聞 查看精彩圖片
打開網易新聞 查看精彩圖片
打開網易新聞 查看精彩圖片
打開網易新聞 查看精彩圖片
打開網易新聞 查看精彩圖片

二、系統(tǒng)性組合泛化

本研究聚焦于模型的組合能力,即模型需要將不同事實片段「串聯(lián)」起來的能力。盡管顯式的推理步驟表述(如思維鏈推理)能夠提升任務表現(xiàn) [4-8],但這些方法在大規(guī)模(預)訓練階段并不可行,而該階段正是模型核心能力形成的關鍵時期 [9-10]。已有研究對基于 Transformer 的語言模型是否能夠執(zhí)行隱式組合進行了廣泛探討,但均得出了否定結論 [11-12]。

具體而言,存在顯著的「組合性鴻溝」[11],即模型雖然掌握了所有基礎事實卻無法進行有效組合的情況,這種現(xiàn)象在不同大語言模型中普遍存在,且不會隨模型規(guī)模擴大而減弱。

更準確地說,Wang 等人 [13] 的研究表明,Transformer 模型能夠在同分布泛化中學習隱式推理,但在跨分布泛化中則表現(xiàn)欠佳(如圖 1 左所示)。

這自然引出一個問題:如果在訓練過程中使用顯式推理步驟,模型的泛化能力將受到何種影響?(即回答 Q1:與無思維鏈訓練相比,基于思維鏈的訓練具有哪些優(yōu)勢?)

思維鏈訓練顯著提升推理泛化能力

如圖 1 所示,我們展示了模型在訓練和測試兩跳事實上的準確率隨優(yōu)化過程的變化,其中 λ = 7.2。

打開網易新聞 查看精彩圖片
打開網易新聞 查看精彩圖片

關鍵影響因素探究

研究進一步開展了消融實驗,以評估不同因素在思維鏈訓練中的影響。

打開網易新聞 查看精彩圖片

圖表 2: 分布外測試集上的推理泛化速度。

適當?shù)?λ 值能夠加速模型收斂。圖 2(左)展示了不同 λ 值下的分布外測試準確率??梢钥闯?,λ 值與泛化速度存在強相關性。更有趣的是,較小的 λ 值能夠加速由思維鏈訓練帶來的分布外泛化能力提升,從而減少對長時間訓練的需求。然而,λ 值并非越小越好,因為過小的 λ 值可能導致模型無法學習相關規(guī)則。

不同模型規(guī)模 / 層數(shù)和訓練集大小的影響。我們在模型層數(shù)∈{2,4,8} 和 λ∈{3.6,7.2,12.6} 的條件下進行實驗??傮w而言,可以觀察到擴大模型規(guī)模并不會從根本上改變其泛化行為,主要趨勢是較大的模型能夠在更少的優(yōu)化步驟中收斂。關于訓練集大?。▅E|)的影響,我們的結果與 [13] 一致:當固定 λ 值時,訓練集大小不會對模型的泛化能力產生本質影響。

兩跳到多跳分析

打開網易新聞 查看精彩圖片
打開網易新聞 查看精彩圖片

總結:至此,我們已經證明在受控實驗中引入顯式思維鏈訓練能夠顯著提升推理泛化能力,使其從僅限分布內泛化擴展到同時涵蓋分布內和分布外泛化。數(shù)據(jù)分布的關鍵因素(如比例和模式)在形成模型的系統(tǒng)性泛化能力中起著重要作用。然而,驅動這些改進的內部機制仍不明確,我們將進一步探討(回答 Q2:如果存在優(yōu)勢,顯式思維鏈訓練的潛在機制是什么?)。

打開網易新聞 查看精彩圖片

圖表 3: 兩跳事實訓練對應的兩階段泛化電路(模型層數(shù):8)。

三、兩階段泛化電路

研究通過兩種主流方法分析模型在泛化過程中的內部工作機制:logit lens [16] 和 causal tracing [17],本部分研究使用表示兩跳推理。

打開網易新聞 查看精彩圖片
打開網易新聞 查看精彩圖片

系統(tǒng)性泛化解釋

(1)兩階段泛化電路表明,使用思維鏈訓練可以將推理步驟內化到模型中。這也解釋了為什么模型在思維鏈訓練下能夠在跨分布測試數(shù)據(jù)上表現(xiàn)出良好的泛化能力。

(2)該電路由兩個階段組成,與訓練期間模型中的顯式推理步驟相一致。因此,模型在思維鏈訓練期間僅接觸兩跳數(shù)據(jù)時無法在測試階段直接泛化到三跳場景。

四、更普適的分析

總體而言,我們目前的研究為通過受控數(shù)據(jù)分布上的思維鏈訓練來深入理解和增強 Transformer 的泛化能力鋪平了道路。然而,現(xiàn)實世界中的訓練數(shù)據(jù)分布往往更為復雜。在本部分中,我們將分析擴展到推理過程中存在錯誤的分布,并展示思維鏈訓練能提高模型的泛化能力的結論在更復雜的場景中仍然成立。

數(shù)據(jù)分布帶噪

方法:我們旨在分析通過思維鏈訓練獲得的系統(tǒng)性泛化能力在噪聲訓練數(shù)據(jù)下的魯棒性。我們通過隨機選擇一個有效實體向引入噪聲(真實訓練目標為):

打開網易新聞 查看精彩圖片

需要注意的是,噪聲比例用 ξ 表示,我們將探討不同 ξ 值的影響。

打開網易新聞 查看精彩圖片

圖表 4: 僅第二跳噪聲對分布內和分布外的影響。

打開網易新聞 查看精彩圖片

圖表 5: 模型在不同噪聲比例(兩跳均有噪聲)下對訓練和測試兩跳推理事實的準確率。

結果:我們針對兩種情況分析了不同的 ξ(噪聲比例)候選集:僅第二跳有噪聲時為 {0.05, 0.2, 0.4, 0.6, 0.8},兩跳均有噪聲時為 {0.05, 0.1, 0.2, 0.4}。比較結果如下:

(1)圖 4 清晰地展示了僅第二跳噪聲對分布內和分布外泛化的影響??傮w而言,在思維鏈訓練條件下,模型仍能夠從噪聲訓練數(shù)據(jù)中實現(xiàn)系統(tǒng)性泛化,但其泛化能力隨著噪聲比例的增加而降低。

更具體地說,隨著訓練的進行,分布外泛化最初保持不變,然后增加,而分布內泛化先增加后減少。分布內泛化的減少與分布外泛化的增加相對應。

然而,隨著噪聲比例的增加,分布內和分布外泛化的最終性能都會下降。特別是當噪聲比例(ξ < 0.2)相對較小時,模型幾乎不受影響,這展示了思維鏈訓練的魯棒性。

此外,我們同樣檢查了泛化電路。由于我們僅在第二跳添加噪聲,第一跳階段的電路學習得相對較好,而第二跳階段的電路受噪聲影響更大。

(2)圖 5 展示了在兩跳噪聲 ξ 值為 0.05、0.1、0.2 和 0.4 時的結果比較。與僅在第二跳添加噪聲相比,在兩跳都添加噪聲對模型泛化的抑制效果要強得多。大于 0.2 的噪聲比例足以幾乎消除分布內和分布外泛化能力。

總而言之,即使在訓練數(shù)據(jù)存在噪聲的情況下,當噪聲在一定范圍內時,思維鏈訓練仍能使模型實現(xiàn)系統(tǒng)性泛化。特別是當噪聲比例較小時,這些噪聲數(shù)據(jù)仍能幫助模型學習泛化電路。

打開網易新聞 查看精彩圖片

五、討論

總結

本文通過在受控和可解釋的環(huán)境中展示系統(tǒng)性組合泛化如何通過顯式思維鏈(CoT)訓練在 Transformer 中產生,揭示了思維鏈訓練的核心機制。具體而言:

(1)與無思維鏈訓練相比,思維鏈訓練顯著增強了推理泛化能力,使其從僅限分布內(ID)泛化擴展到同時涵蓋分布內和分布外(OOD)場景。

(2)通過 logit lens 和 causal tracing 實驗,我們發(fā)現(xiàn)思維鏈訓練(使用兩跳事實)將推理步驟內化到 Transformer 中,形成了一個兩階段泛化電路。然而,模型的推理能力受訓練數(shù)據(jù)復雜性的限制,因為它難以從兩跳情況泛化到三跳情況。這表明思維鏈推理主要是重現(xiàn)了訓練集中存在的推理模式。

(3)我們進一步將分析擴展到推理過程中存在錯誤的訓練數(shù)據(jù)分布,證明當噪聲保持在一定范圍內時,思維鏈訓練仍能使模型實現(xiàn)系統(tǒng)性泛化,此類噪聲數(shù)據(jù)的結構或許有助于泛化電路的形成。

有趣的是,我們的工作還突出了思維鏈訓練的瓶頸:訓練數(shù)據(jù)分布(比例 λ 和模式)在引導模型實現(xiàn)泛化電路方面起著關鍵作用。模型需要在訓練過程中接觸過相關模式(特別是思維鏈步驟的數(shù)量)。

這可能解釋了為什么 DeepSeek-R1 [4] 在冷啟動階段構建和收集少量長思維鏈數(shù)據(jù)來微調模型。我們的發(fā)現(xiàn)為調整大語言模型(LLMs)以實現(xiàn)穩(wěn)健泛化的策略提供了關鍵見解。

不足與未來展望

(1)盡管我們的自下而上的研究為實際應用提供了寶貴的見解,但我們工作的一個關鍵局限是實驗和分析基于合成數(shù)據(jù),這可能無法完全捕捉現(xiàn)實世界數(shù)據(jù)集和任務的復雜性。雖然我們的一些結論也在 Llama2-7B [18] 等模型中得到了驗證,但有必要在更廣泛的模型上進行進一步驗證,以彌合我們的理論理解與實際應用之間的差距。

(2)我們的分析目前僅限于使用自然語言。未來,我們旨在探索大型語言模型在無限制潛在空間中的推理潛力,特別是通過訓練大型語言模型在連續(xù)潛在空間中進行推理 [19] 等方法。

(3)最近的一種方法,「backward lens」[20],將語言模型的梯度投影到詞匯空間,以捕捉反向信息流。這為我們完善思維鏈訓練的潛在機制分析提供了一個新的視角。

作者介紹

劉勇,中國人民大學,長聘副教授,博士生導師,國家級高層次青年人才。長期從事機器學習基礎理論研究,共發(fā)表論文 100 余篇,其中以第一作者 / 通訊作者發(fā)表頂級期刊和會議論文近 50 篇,涵蓋機器學習領域頂級期刊 JMLR、IEEE TPAMI、Artificial Intelligence 和頂級會議 ICML、NeurIPS 等。獲中國人民大學「杰出學者」、中國科學院「青年創(chuàng)新促進會」成員、中國科學院信息工程研究所「引進優(yōu)青」等稱號。主持國家自然科學面上 / 基金青年、北京市面上項目、中科院基礎前沿科學研究計劃、騰訊犀牛鳥基金、CCF - 華為胡楊林基金等項目。

姚鑫浩,中國人民大學高瓴人工智能學院博士研究生,本科畢業(yè)于中國人民大學高瓴人工智能學院。當前主要研究方向包括大模型推理與機器學習理論。

參考文獻

[1] OpenAI. 12 days of openai. https://openai.com/ 12-days/, 2024a.

[2] Trung, L., Zhang, X., Jie, Z., Sun, P., Jin, X., and Li, H. ReFT: Reasoning with reinforced fine-tuning. In Ku, L.-W., Martins, A., and Srikumar, V. (eds.), Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pp.7601–7614, 2024.

[3] Wei, J., Wang, X., Schuurmans, D., Bosma, M., brian ichter, Xia, F., Chi, E. H., Le, Q. V., and Zhou, D. Chain of thought prompting elicits reasoning in large language models. In Advances in Neural Information Processing Systems, 2022.

[4] DeepSeek-AI, Guo, D., Yang, D., Zhang, H., et al. Deepseek-r1: Incentivizing reasoning capability in llms via reinforcement learning, 2025. URL https://arxiv.org/abs/2501.12948.

[5] Lake, B. and Baroni, M. Generalization without systematicity: On the compositional skills of sequence-to-sequence recurrent networks. In Proceedings of the International Conference on Machine Learning, pp. 2873–2882, 2018a.

[6] Wang, B., Deng, X., and Sun, H. Iteratively prompt pretrained language models for chain of thought. In Proceedings of the 2022 Conference on Empirical Methods in Natural Language Processing, pp. 2714–2730, 2022.

[7] Zelikman, E., Wu, Y., Mu, J., and Goodman, N. STar: Bootstrapping reasoning with reasoning. In Advances in Neural Information Processing Systems, 2022.

[8] Liu, J., Pasunuru, R., Hajishirzi, H., Choi, Y., and Celikyilmaz, A. Crystal: Introspective reasoners reinforced with self-feedback. In Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing, pp. 11557–11572, 2023.

[9] Li, Z., Wallace, E., Shen, S., Lin, K., Keutzer, K., Klein, D., and Gonzalez, J. Train big, then compress: Rethinking model size for efficient training and inference of transformers. In Proceedings of the 37th International Conference on Machine Learning, pp. 5958–5968, 2020.

[10] Zhou, C., Liu, P., Xu, P., Iyer, S., Sun, J., Mao, Y., Ma, X., Efrat, A., Yu, P., YU, L., Zhang, S., Ghosh, G., Lewis, M., Zettlemoyer, L., and Levy, O. Lima: Less is more for alignment. In Advances in Neural Information Processing Systems, 2023a.

[11] Press, O., Zhang, M., Min, S., Schmidt, L., Smith, N., and Lewis, M. Measuring and narrowing the compositionality gap in language models. In Findings of the Association for Computational Linguistics: EMNLP 2023, pp. 5687– 5711, 2023.

[12] Yang, S., Gribovskaya, E., Kassner, N., Geva, M., and Riedel, S. Do large language models latently perform multi-hop reasoning?, 2024. URL https://arxiv. org/abs/2402.16837.

[13] Wang, B., Yue, X., Su, Y., and Sun, H. Grokking of implicit reasoning in transformers: A mechanistic journey to the edge of generalization. In Advances in Neural Information Processing Systems, 2024a.

[14] Power, A., Burda, Y., Edwards, H., Babuschkin, I., and Misra, V. Grokking: Generalization beyond overfitting on small algorithmic datasets, 2022. URL https:// arxiv.org/abs/2201.02177.

[15] Cabannes, V., Arnal, C., Bouaziz, W., Yang, X. A., Charton, F., and Kempe, J. Iteration head: A mechanistic study of chain-of-thought. In Advances in Neural Information Processing Systems, 2024.

[16] Nostalgebraist. Interpreting gpt: The logit lens, 2020.

[17] Pearl, J. Causality: Models, Reasoning, and Inference. Cambridge University Press, Cambridge, 2009. ISBN 9780521426085.

[18] Touvron, H., Lavril, T., Izacard, G., Martinet, X., Lachaux, M.-A., Lacroix, T., Roziere, B., Goyal, N., Hambro, E., ` Azhar, F., et al. Llama: Open and efficient foundation language models. arXiv preprint arXiv:2302.13971, 2023.

[19] Hao, S., Sukhbaatar, S., Su, D., Li, X., Hu, Z., Weston, J., and Tian, Y. Training large language models to reason in a continuous latent space, 2024b. URL https:// arxiv.org/abs/2412.06769.

[20] Katz, S., Belinkov, Y., Geva, M., and Wolf, L. Backward lens: Projecting language model gradients into the vocabulary space. In Proceedings of the 2024 Conference on Empirical Methods in Natural Language Processing, pp. 2390–2422, 2024.