
新智元報道
編輯:KingHZ
【新智元導(dǎo)讀】顛覆LLM預(yù)訓(xùn)練認(rèn)知:預(yù)訓(xùn)練token數(shù)越多,模型越難調(diào)!CMU、斯坦福、哈佛、普林斯頓等四大名校提出災(zāi)難性過度訓(xùn)練。
如果訓(xùn)練數(shù)據(jù)越多那么LLM越好。
這到底對不對?
不對!
增加更多的預(yù)訓(xùn)練數(shù)據(jù)來擴展語言模型,反而可能會導(dǎo)致后訓(xùn)練階段的性能下降!
這就是「災(zāi)難性過度訓(xùn)練」現(xiàn)象。

圖1:經(jīng)過高強度預(yù)訓(xùn)練的語言模型,可能出現(xiàn)「災(zāi)難性過度訓(xùn)練」現(xiàn)象。
來自CMU、斯坦福、哈佛、普林斯頓「四大名?!沟难芯繄F(tuán)隊,用實驗挑戰(zhàn)了「預(yù)訓(xùn)練規(guī)模越大越好」這一傳統(tǒng)觀點。
在實驗中,研究團(tuán)隊發(fā)現(xiàn)使用3T tokens預(yù)訓(xùn)練的模型,表現(xiàn)接近于僅用1.5T tokens預(yù)訓(xùn)練的模型。預(yù)訓(xùn)練token并非越多越好!

論文鏈接:https://arxiv.org/abs/2503.19206
新研究的貢獻(xiàn),總結(jié)如下:
現(xiàn)實世界的證據(jù):展示了災(zāi)難性過度訓(xùn)練在現(xiàn)有語言模型和任務(wù)中的普遍性,表明更長的預(yù)訓(xùn)練時間可能會在指令微調(diào)和多模態(tài)微調(diào)后導(dǎo)致性能下降。
控制實驗:識別出漸進(jìn)敏感性是災(zāi)難性過度訓(xùn)練的關(guān)鍵機制,擴展的預(yù)訓(xùn)練增加了模型參數(shù)對后續(xù)更新的脆弱性。
理論分析:在線性遷移學(xué)習(xí)框架中,提供了災(zāi)難性過度訓(xùn)練的正式表征,展示了增量特征學(xué)習(xí)如何導(dǎo)致漸進(jìn)敏感性和不可避免的性能退化。
在保持模型參數(shù)數(shù)量不變的情況下,最新的語言模型,預(yù)訓(xùn)練使用的tokens越來越多——
而且這一趨勢并沒有放緩!
更多的預(yù)訓(xùn)練tokens,意味著更好的基礎(chǔ)模型。
但這是更好的后訓(xùn)練起點嗎?
來看看一些例子:OLMo-1B在3萬億tokens上訓(xùn)練后,再經(jīng)過指令調(diào)優(yōu),表現(xiàn)比使用2.3萬億tokens版本得分下降超過2%。
換而言之,數(shù)據(jù)量增加了30%,性能不升,反而下降了2%!
在許多其他后續(xù)訓(xùn)練設(shè)置中,也觀察到了類似的現(xiàn)象。

災(zāi)難性過度訓(xùn)練的例子
為什么擴展預(yù)訓(xùn)練會損害微調(diào)性能呢?
不妨退后一步,考慮更簡單的情況:測試高斯噪聲在不同預(yù)訓(xùn)練階段對模型參數(shù)的影響。
-早期檢查點:對高斯擾動具有較強的魯棒性。
-后期檢查點:對擾動非常敏感,導(dǎo)致擾動后表現(xiàn)變差!

圖3|左圖:敏感性隨著訓(xùn)練的進(jìn)行而增加,右圖:最終性能逐漸下降。
發(fā)生了什么?擴展的預(yù)訓(xùn)練增加了模型對所有類型的參數(shù)更新的敏感性:
訓(xùn)練初期:模型敏感性較低,但性能提升
訓(xùn)練后期:模型變得高度敏感,性能下降

微調(diào)的表現(xiàn)也類似:在不同的預(yù)訓(xùn)練檢查點,使用固定的學(xué)習(xí)率,會看到任務(wù)性能和網(wǎng)絡(luò)數(shù)據(jù)困惑度最終都會下降。
即使經(jīng)過超參數(shù)調(diào)優(yōu),這種現(xiàn)象仍然存在。
也就是說,過度訓(xùn)練=更差的微調(diào)結(jié)果!

過度訓(xùn)練,可能導(dǎo)致性能下降
在兩種典型微調(diào)場景,研究團(tuán)隊驗證了延長預(yù)訓(xùn)練時間的負(fù)面影響:
1)指令微調(diào)(instruction tuning)對模型指令跟隨能力的提升效果;
2)基于LLaVA框架的多模態(tài)微調(diào)(視覺指令微調(diào))。
總體而言,在進(jìn)行指令調(diào)優(yōu)后,3T tokens預(yù)訓(xùn)練的模型表現(xiàn)不如2.3T tokens預(yù)訓(xùn)練的模型,其表現(xiàn)接近于僅用1.5T tokens(少了50% tokens)預(yù)訓(xùn)練的模型。
圖2對比了不同OLMo-1B模型在不同預(yù)訓(xùn)練預(yù)算下的表現(xiàn)(橫軸)。
延長預(yù)訓(xùn)練總是能提升基礎(chǔ)模型的表現(xiàn)。
與以往的研究一致,發(fā)現(xiàn)延長預(yù)訓(xùn)練能夠使基礎(chǔ)模型的性能持續(xù)提高。在我們評估的所有下游任務(wù)中,性能不斷提升(圖2中的虛線)。
延長預(yù)訓(xùn)練可能會影響后期訓(xùn)練的表現(xiàn)。
盡管基礎(chǔ)模型在提升,但發(fā)現(xiàn)在基礎(chǔ)模型進(jìn)行后訓(xùn)練后,出現(xiàn)了意外的性能下降。
具體來說,在Anthropic-HH數(shù)據(jù)集上,進(jìn)行指令跟隨微調(diào),經(jīng)過3T tokens預(yù)訓(xùn)練的基礎(chǔ)模型在響應(yīng)率(AlpacaEval分?jǐn)?shù))上比用2.3T tokens的模型低了多達(dá)3%(約少了23%的tokens)。
在各種OOD任務(wù)(如推理和問答)上,也觀察到了類似的性能下降,評估基準(zhǔn)包括ARC-Easy、ARC-Challenge、HellaSwag和PIQA等。

圖2:延長預(yù)訓(xùn)練可能會導(dǎo)致在Anthropic-HH(左)和LLaVA(右)上的微調(diào)性能下降。
在多模態(tài)微調(diào)方面,發(fā)現(xiàn)延長預(yù)訓(xùn)練能持續(xù)提升VLM得分。
然而,預(yù)訓(xùn)練使用更多tokens的模型,表現(xiàn)出更強的遺忘現(xiàn)象,并在多個OOD基準(zhǔn)測試中出現(xiàn)更大的性能下降。
在某些數(shù)據(jù)集(如PIQA)上,性能下降如此嚴(yán)重,以至于延長預(yù)訓(xùn)練在后期訓(xùn)練后,反而會對性能產(chǎn)生負(fù)面影響(見圖2右側(cè))。
總體來說,雖然延長預(yù)訓(xùn)練總是能提升預(yù)訓(xùn)練性能,但這些提升并不總是能轉(zhuǎn)化為后期訓(xùn)練中的表現(xiàn)。
在一些設(shè)置中,延長預(yù)訓(xùn)練實際上會對后期訓(xùn)練的性能產(chǎn)生負(fù)面影響。
災(zāi)難性過度訓(xùn)練:Why?
傳統(tǒng)觀點認(rèn)為:延長預(yù)訓(xùn)練時間應(yīng)能持續(xù)提升最終性能。
但新研究發(fā)現(xiàn):當(dāng)預(yù)訓(xùn)練超過某個臨界點后,反而會損害模型最終表現(xiàn)——
這一現(xiàn)象被命名為「災(zāi)難性過度訓(xùn)練」(catastrophic overtraining)。
災(zāi)難性過度訓(xùn)練是因為在預(yù)訓(xùn)練過程中,模型對參數(shù)變化的敏感性逐步增強,導(dǎo)致在微調(diào)后更容易「遺忘」之前預(yù)訓(xùn)練所獲得的能力。
實驗發(fā)現(xiàn),修改預(yù)訓(xùn)練模型的參數(shù)會導(dǎo)致模型遺忘之前獲得的能力,而這種遺忘的程度取決于參數(shù)修改的幅度。
然而,影響遺忘的另一個關(guān)鍵因素所謂的漸進(jìn)性敏感性:
對于相同幅度的修改,經(jīng)過更長時間預(yù)訓(xùn)練的模型表現(xiàn)出更大的遺忘(見圖4)。
當(dāng)由于后訓(xùn)練修改引起的遺忘超過預(yù)訓(xùn)練過程中性能提升時,就會發(fā)生災(zāi)難性過度訓(xùn)練。
雖然限制后訓(xùn)練中參數(shù)修改的幅度可以緩解這種性能退化,但這也可能限制預(yù)訓(xùn)練模型的適應(yīng)能力和學(xué)習(xí)能力。
這揭示了一個內(nèi)在的權(quán)衡關(guān)系,這種關(guān)系決定了在實踐中,防止災(zāi)難性過度訓(xùn)練的可行性(見圖7)。
高斯擾動
使用在不同token預(yù)算下預(yù)訓(xùn)練的基礎(chǔ)模型,并添加以下形式的高斯噪聲

其中,Σ是參數(shù)初始化分布的協(xié)方差矩陣(即在預(yù)訓(xùn)練之前的分布),γ控制擾動的幅度。
首先,繪制了高斯噪聲對C4困惑度的變化如圖3(左)所示。
也就是說,追蹤基礎(chǔ)模型和擾動模型之間困惑度的變化,隨著預(yù)訓(xùn)練token數(shù)量的變化。
對噪聲的逐漸敏感性:對于固定的擾動幅度,基礎(chǔ)模型和擾動模型之間的困惑度變化隨著預(yù)訓(xùn)練token數(shù)量的增加單調(diào)增加。
同時,繪制了基礎(chǔ)模型的絕對C4困惑度(圖3右側(cè),虛線)?;A(chǔ)模型的困惑度隨著預(yù)訓(xùn)練token數(shù)量的增加而下降。

圖3:高斯擾動敏感性演進(jìn)
圖3左圖:隨著預(yù)訓(xùn)練時長增加,高斯參數(shù)擾動對模型困惑度的負(fù)面影響逐漸加劇。
圖3右圖:災(zāi)難性過訓(xùn)練最終將導(dǎo)致預(yù)訓(xùn)練困惑度整體惡化。
在此實驗框架下,觀察到災(zāi)難性過度訓(xùn)練現(xiàn)象的產(chǎn)生,其根源在于模型對噪聲的敏感性隨預(yù)訓(xùn)練進(jìn)程逐步提升,與基礎(chǔ)模型自身性能的單調(diào)增長相互作用。
具體而言,在預(yù)訓(xùn)練初期,模型性能的提升速度顯著超越其對噪聲敏感性的增長,因此即使引入高斯擾動,模型的困惑度仍呈現(xiàn)凈下降趨勢。
然而,當(dāng)預(yù)訓(xùn)練進(jìn)程跨越某一臨界點后,模型對噪聲的敏感性增長速率反超其性能提升速率,從而導(dǎo)致擾動后困惑度不降反升。這一現(xiàn)象在圖3右側(cè)清晰地展現(xiàn)為一個U型困惑度變化曲線。
跟蹤拐點:在圖3中,較大的擾動與預(yù)訓(xùn)練的更大且更迅速的惡化相關(guān)聯(lián)。
因此,敏感性引起的惡化超過基礎(chǔ)模型提升的點。對于較大的擾動來說,會加速這一過程,導(dǎo)致拐點出現(xiàn)在較低的token預(yù)算下。
直觀解釋:更多的預(yù)訓(xùn)練tokens能夠提升基礎(chǔ)模型(如預(yù)期),但同時也使基礎(chǔ)模型對噪聲更敏感。
逐漸增加的敏感性會導(dǎo)致災(zāi)難性過度訓(xùn)練,因為噪聲引起的困惑度增加最終會壓倒模型的提升。
對于大幅度的擾動,這種惡化會在較低的token預(yù)算下出現(xiàn),而對于較小幅度的擾動,直到較大的token預(yù)算時,可能才會觀察到災(zāi)難性過度訓(xùn)練。
固定學(xué)習(xí)率的微調(diào)
首先,類似于在固定幅度的高斯擾動(γ)下量化性能下降的方法,也需要以某種方式對微調(diào)進(jìn)行正則化,以確保在不同的預(yù)訓(xùn)練檢查點之間的變化程度,保持一致。
對于每個學(xué)習(xí)率,研究人員繪制了從預(yù)訓(xùn)練模型到微調(diào)模型的C4困惑度變化,如圖4所示。
在圖4中,隨著預(yù)訓(xùn)練token數(shù)量的增加,C4困惑度在不斷變化。
首先,較大的學(xué)習(xí)率會更大程度地扭曲模型,因此表現(xiàn)出更明顯的困惑度增加。
其次,觀察到預(yù)訓(xùn)練tokens的數(shù)量與高斯噪聲下的行為趨勢相似,但這次是針對微調(diào)的。
微調(diào)中的逐漸敏感性:對于固定的學(xué)習(xí)率,困惑度的變化隨著預(yù)訓(xùn)練token數(shù)量的增加而單調(diào)增加。

圖4|微調(diào)敏感性演進(jìn)現(xiàn)象:延長預(yù)訓(xùn)練時間會逐步加劇微調(diào)過程對模型困惑度的負(fù)面影響。
在敏感性增加超過基礎(chǔ)模型提升速率的拐點處,觀察到災(zāi)難性過度訓(xùn)練。這導(dǎo)致了微調(diào)后C4困惑度呈現(xiàn)U型趨勢(圖5上)。
跟蹤微調(diào)的拐點
與高斯擾動設(shè)置類似,由于較大的學(xué)習(xí)率會加速降解的增加,因此使用較大學(xué)習(xí)率訓(xùn)練的模型在較低的token預(yù)算下會出現(xiàn)拐點,并且降解更為明顯。
ID(領(lǐng)域內(nèi))困惑度
雖然較小的學(xué)習(xí)率通常會導(dǎo)致C4困惑度的降解較小,但微調(diào)模型的ID困惑度呈現(xiàn)不同的趨勢:較大的學(xué)習(xí)率,直到某個臨界點,會導(dǎo)致較低的ID困惑度,盡管有時也會在ID困惑度上呈現(xiàn)U型趨勢(圖5下)。
這意味著調(diào)整學(xué)習(xí)率有時可以減輕降解,但通常是以犧牲微調(diào)性能為代價。
我們將在第3.4.2節(jié)探討,何時調(diào)整學(xué)習(xí)率以最小化ID困惑度能緩解隨著預(yù)訓(xùn)練延長而出現(xiàn)的C4困惑度降解,何時又不能。
直觀解釋
來自高斯擾動設(shè)置的直覺可以延續(xù)到固定學(xué)習(xí)率的微調(diào)上。
更多的預(yù)訓(xùn)練tokens將提升基礎(chǔ)模型的質(zhì)量,同時也會導(dǎo)致模型在微調(diào)時的降解更嚴(yán)重。
超過某個臨界點后,預(yù)訓(xùn)練更多tokens會導(dǎo)致最終微調(diào)模型的C4困惑度下降,且通常也會影響微調(diào)任務(wù)的領(lǐng)域內(nèi)ID困惑度。

圖5|固定超參數(shù)微調(diào)下的災(zāi)難性過度訓(xùn)練:當(dāng)使用固定超參數(shù)進(jìn)行微調(diào)時,延長預(yù)訓(xùn)練可能會導(dǎo)致C4困惑度(上圖)和ID困惑度(微調(diào)任務(wù);下圖)整體增加。
權(quán)衡性能退化和微調(diào)收益
然而,學(xué)習(xí)率是在來自領(lǐng)域內(nèi)(ID)任務(wù)的驗證集上進(jìn)行調(diào)優(yōu)的。
調(diào)優(yōu)過程可能會導(dǎo)致在不同的預(yù)訓(xùn)練檢查點上獲得不同的最優(yōu)學(xué)習(xí)率,從而有可能緩解災(zāi)難性過擬合。
性能下降既取決于學(xué)習(xí)率,也與敏感度有關(guān)。
因此,如果一個在更多標(biāo)記上進(jìn)行預(yù)訓(xùn)練的模型在微調(diào)時能夠采用更小的學(xué)習(xí)率來獲得良好的領(lǐng)域內(nèi)表現(xiàn),它就能補償敏感度的增加。
總體來說,實驗表明,逐漸增加的敏感性在兩種類型的修改下都會表現(xiàn)出來:非結(jié)構(gòu)化的高斯噪聲和結(jié)構(gòu)化的微調(diào)。
于是,研究人員推測:逐漸增加的敏感性是普遍現(xiàn)象。
在固定的擾動幅度或固定的微調(diào)學(xué)習(xí)率下,逐漸增加的敏感性導(dǎo)致災(zāi)難性過度訓(xùn)練,因為性能的退化最終超過了延長預(yù)訓(xùn)練帶來的提升。
然而,在實踐中,最優(yōu)學(xué)習(xí)率是在目標(biāo)領(lǐng)域內(nèi)任務(wù)上進(jìn)行調(diào)優(yōu)的,其變化可能導(dǎo)致領(lǐng)域內(nèi)性能或領(lǐng)域外(預(yù)訓(xùn)練)指標(biāo)的降解。
這突出了在延長預(yù)訓(xùn)練中的權(quán)衡的重要性,即最優(yōu)學(xué)習(xí)率的演變最終決定了這些模型在微調(diào)時是否會發(fā)生災(zāi)難性過度訓(xùn)練。
最優(yōu)學(xué)習(xí)率
研究人員調(diào)節(jié)學(xué)習(xí)率,以最大化微調(diào)后的領(lǐng)域內(nèi)表現(xiàn)。
圖6中繪制了與最優(yōu)學(xué)習(xí)率對應(yīng)的領(lǐng)域內(nèi)表現(xiàn)和預(yù)訓(xùn)練困惑度。

圖6.超參數(shù)調(diào)優(yōu)后的災(zāi)難性過度訓(xùn)練:即使在進(jìn)行超參數(shù)調(diào)優(yōu)后,延長預(yù)訓(xùn)練仍可能導(dǎo)致C4困惑度(上圖)和ID困惑度(微調(diào)任務(wù);下圖)的最終降解。
研究結(jié)果表明,災(zāi)難性過擬合的出現(xiàn)取決于最優(yōu)學(xué)習(xí)率的變化方式。
領(lǐng)域內(nèi)表現(xiàn)和預(yù)訓(xùn)練困惑度之間的權(quán)衡,可以分為為三種情況,如圖7所示:
1. 恒定最優(yōu)學(xué)習(xí)率:當(dāng)預(yù)訓(xùn)練計算量T較大時,在不同token預(yù)算下采用恒定不變的最優(yōu)學(xué)習(xí)率會導(dǎo)致域內(nèi)(ID)和域外(OOD)性能同時下降(圖7左)。
2. 緩慢下降最優(yōu)學(xué)習(xí)率:采用緩慢衰減的最優(yōu)學(xué)習(xí)率可以提升域內(nèi)性能,但會導(dǎo)致域外性能下降(圖7中)。
3. 快速下降最優(yōu)學(xué)習(xí)率:隨著預(yù)訓(xùn)練計算量的增加,快速衰減的最優(yōu)學(xué)習(xí)率能同時提升域內(nèi)和域外性能(圖7右)。

圖7:隨著預(yù)訓(xùn)練tokens數(shù)T的變化,最優(yōu)學(xué)習(xí)率的規(guī)模如何影響模型評估,
使用非最優(yōu)學(xué)習(xí)率來緩解降解
在微調(diào)時如果使用最優(yōu)學(xué)習(xí)率導(dǎo)致災(zāi)難性過度訓(xùn)練,采用非最優(yōu)學(xué)習(xí)率有時可以緩解降解或延遲拐點的到來。例如,在圖7中,調(diào)優(yōu)導(dǎo)致OOD損失最終降解的情況下,選擇使用最小的學(xué)習(xí)率可以延遲拐點的到來。然而,這也會導(dǎo)致較低的ID性能。
超越學(xué)習(xí)率的正則化
對于高斯擾動和微調(diào)設(shè)置,我們觀察到較大的參數(shù)擾動加速并放大了模型性能降解的速度。
在微調(diào)設(shè)置中,學(xué)習(xí)率有效地控制了整體參數(shù)更新的幅度。
然而,顯式的正則化方法來防止大幅度的參數(shù)更新,也可能減輕或延遲災(zāi)難性過度訓(xùn)練。我們將在第4節(jié)探討一種正則化微調(diào)的理論實例。
理論分析
災(zāi)難性過度訓(xùn)練這一現(xiàn)象令人驚訝,因為它與普遍的觀點相反——
即更長時間的預(yù)訓(xùn)練總是能導(dǎo)致更高質(zhì)量的模型。
因此,災(zāi)難性過度訓(xùn)練如何以及何時出現(xiàn),值得探討。
研究團(tuán)隊在在簡化的預(yù)訓(xùn)練和微調(diào)二層線性網(wǎng)絡(luò)的設(shè)置中,從理論上分析了災(zāi)難性過度訓(xùn)練。
主要發(fā)現(xiàn)表明,延長預(yù)訓(xùn)練周期最終必然會導(dǎo)致模型出現(xiàn)逐漸增加的敏感性以及災(zāi)難性過度訓(xùn)練。盡管適當(dāng)?shù)恼齽t化可以延緩這些現(xiàn)象的發(fā)生,但這通常會以犧牲下游任務(wù)性能為代價(參見定理4.4、4.6和4.7)。



對相關(guān)理論感興趣的可以參閱原文。
參考資料:
https://arxiv.org/abs/2503.19206
https://x.com/jacspringer/status/1904960783341023521
熱門跟貼