模型訓(xùn)練,并非越多越好?近日,來自美國卡內(nèi)基梅隆大學(xué)、斯坦福大學(xué)、哈佛大學(xué)和普林斯頓大學(xué)的研究人員發(fā)現(xiàn)一種名為“災(zāi)難性過度訓(xùn)練”現(xiàn)象。

他們發(fā)現(xiàn)在多個標(biāo)準(zhǔn)大語言模型基準(zhǔn)測試中,OLMo-1B 模型在 3T tokens 上進(jìn)行預(yù)訓(xùn)練后的性能水平,不如在 2.3T tokens 上進(jìn)行預(yù)訓(xùn)練后的性能水平,甚至下降到了僅用 1.5T tokens 預(yù)訓(xùn)練后的性能水平。

結(jié)合實(shí)驗(yàn)結(jié)果和理論分析研究團(tuán)隊(duì)證明:之所以出現(xiàn)災(zāi)難性過度訓(xùn)練的現(xiàn)象,是因?yàn)轭A(yù)訓(xùn)練參數(shù)對于各種修改的廣義敏感度出現(xiàn)了系統(tǒng)性增加。

(來源:arXiv)
打開網(wǎng)易新聞 查看精彩圖片
(來源:arXiv)

大語言模型的預(yù)訓(xùn)練基于不斷增長的 token 規(guī)模,其核心假設(shè)是——預(yù)訓(xùn)練階段的性能提升,將會直接轉(zhuǎn)化為下游模型的效果改進(jìn)。

而本次研究團(tuán)隊(duì)不僅挑戰(zhàn)了這一假設(shè),并證明長時間的預(yù)訓(xùn)練會使模型更加難以進(jìn)行微調(diào),進(jìn)而會導(dǎo)致模型最終性能的下降。

這說明:人們有必要針對預(yù)訓(xùn)練設(shè)計(jì)方案進(jìn)行批判性重估,以便將模型的下游適應(yīng)能力納入核心考量。

打開網(wǎng)易新聞 查看精彩圖片

核心發(fā)現(xiàn):訓(xùn)練數(shù)據(jù)并非越多越好

此前,在“數(shù)據(jù)越多越好”的準(zhǔn)則下,大模型廠商在擴(kuò)展預(yù)訓(xùn)練和后訓(xùn)練方面投入了大量資金。

2022 年,曾有研究人員指出:每個模型參數(shù)大約分配 20 個 token 是最優(yōu)比例。但是,當(dāng)前模型的訓(xùn)練規(guī)模已經(jīng)遠(yuǎn)遠(yuǎn)超過這一標(biāo)準(zhǔn)。

例如,Llama-2-7B 的訓(xùn)練使用 1.8T 的 tokens,這是上述推薦比例的 13 倍之多。而 Llama-3-8B 則在此基礎(chǔ)上進(jìn)一步擴(kuò)大到 15T tokens。

這一趨勢是由零樣本性能的持續(xù)提升所推動的。然而,除了少數(shù)情況之外,事實(shí)上擴(kuò)大規(guī)模并沒有起到作用。

本次研究表明,當(dāng)前廣泛采用的語言模型預(yù)訓(xùn)練規(guī)模擴(kuò)展策略,無法百分百地確保在后訓(xùn)練階段提升模型性能。

(來源:arXiv)
打開網(wǎng)易新聞 查看精彩圖片
(來源:arXiv)

研究人員指出,災(zāi)難性過度訓(xùn)練并非一種孤立存在的現(xiàn)象。相反,大量的實(shí)證評估表明,這一現(xiàn)象在現(xiàn)有模型中普遍存在。

(來源:arXiv)
打開網(wǎng)易新聞 查看精彩圖片
(來源:arXiv)

為了理解災(zāi)難性過度訓(xùn)練現(xiàn)象為何會發(fā)生,研究團(tuán)隊(duì)設(shè)計(jì)了一些精心控制的實(shí)驗(yàn)。

其發(fā)現(xiàn),在修改預(yù)訓(xùn)練模型的參數(shù)之后,會導(dǎo)致先前習(xí)得的能力被遺忘,這種遺忘程度取決于參數(shù)修改幅度的大小。

然而,影響遺忘的另一個關(guān)鍵因素則是漸進(jìn)敏感性:即對于同等幅度的修改,經(jīng)過更長時間預(yù)訓(xùn)練的模型表現(xiàn)出更大的遺忘幅度。

(來源:arXiv)
打開網(wǎng)易新聞 查看精彩圖片
(來源:arXiv)

當(dāng)訓(xùn)練后修改所導(dǎo)致的總遺忘數(shù)量,超過訓(xùn)練前取得的總進(jìn)步數(shù)量時,就會出現(xiàn)災(zāi)難性過度訓(xùn)練。

盡管針對訓(xùn)練后參數(shù)修改的幅度加以限制,可以在一定程度上緩解這種退化,但是這也會導(dǎo)致預(yù)訓(xùn)練模型的適應(yīng)能力和學(xué)習(xí)能力遭到限制。

(來源:arXiv)
打開網(wǎng)易新聞 查看精彩圖片
(來源:arXiv)

同時,研究團(tuán)隊(duì)針對線性遷移學(xué)習(xí)設(shè)置進(jìn)行了理論分析,以便精確地描述災(zāi)難性過度訓(xùn)練和漸進(jìn)敏感性的特征。

通過研究增量式特征學(xué)習(xí)到底是如何引發(fā)漸進(jìn)敏感性的,以及研究為何無法避免災(zāi)難性過度訓(xùn)練現(xiàn)象的背后原因,研究人員發(fā)現(xiàn):微調(diào)過程中的正則化可以延遲模型的啟動時間,但是會以犧牲下游性能為代價(jià)。

總體而言,本次發(fā)現(xiàn)挑戰(zhàn)了“擴(kuò)大預(yù)訓(xùn)練數(shù)據(jù)規(guī)模是絕對有益的”的這一普遍性假設(shè)。

首先,研究團(tuán)隊(duì)證明在現(xiàn)有語言模型和任務(wù)中普遍存在災(zāi)難性過度訓(xùn)練,這表明較長的預(yù)訓(xùn)練會在指令調(diào)優(yōu)和多模態(tài)微調(diào)之后降低模型的性能。

其次,研究團(tuán)隊(duì)發(fā)現(xiàn)漸進(jìn)敏感性是導(dǎo)致災(zāi)難性過度訓(xùn)練的關(guān)鍵機(jī)制,其中長時間的預(yù)訓(xùn)練會增加模型參數(shù)對于后續(xù)更新的脆弱性。

再次,研究團(tuán)隊(duì)在線性遷移學(xué)習(xí)框架下,針對災(zāi)難性過度訓(xùn)練進(jìn)行了形式化表征,借此證明增量式特征學(xué)習(xí)會引發(fā)漸進(jìn)敏感性,最終會導(dǎo)致模型性能的必然性退化。

打開網(wǎng)易新聞 查看精彩圖片

長時間預(yù)訓(xùn)練或給后續(xù)訓(xùn)練造成負(fù)面影響

研究中,為了分析過度訓(xùn)練所帶來的影響,研究團(tuán)隊(duì)針對三個具有開源中間檢查點(diǎn)的語言模型開展實(shí)驗(yàn),這三個語言模型分別是:OLMo-1B、OLMo-2-7B 和 LLM360-Amber-7B。

對于每個模型,他們都會在中間檢查點(diǎn)上進(jìn)行訓(xùn)練后處理。同時,他們使用 Anthropic-HH 和 TULU 這兩個數(shù)據(jù)集來進(jìn)行指令調(diào)優(yōu),并使用 LLaVA 視覺指令調(diào)優(yōu)框架進(jìn)行多模態(tài)微調(diào),然后在每個數(shù)據(jù)集上訓(xùn)練每個中間檢查點(diǎn)。

研究團(tuán)隊(duì)從以下兩個關(guān)鍵維度評估模型性能:一是評估域內(nèi)性能(ID,In-Distribution Performance),即基于一些微調(diào)任務(wù)進(jìn)行評估;二是評估域外性能(ODD,Out-of-Distribution Performance),即基于一套包含推理、問答、常識和知識提取等十個常見大語言模型評估基準(zhǔn)進(jìn)行計(jì)算。

對于每個檢查點(diǎn)研究團(tuán)隊(duì)都會調(diào)整學(xué)習(xí)率,并選擇域內(nèi)性能最佳的模型。需要說明的是,學(xué)習(xí)率指的是控制模型參數(shù)更新步長的超參數(shù)。

隨后,在不同的預(yù)訓(xùn)練預(yù)算之下,他們比較了所訓(xùn)練的 OLMo-1B 模型的性能。

借此發(fā)現(xiàn):當(dāng)延長預(yù)訓(xùn)練時間的時候,確實(shí)會讓基礎(chǔ)模型性能得到持續(xù)提高。比如,在其所評估的所有下游任務(wù)中,模型性能均能得到持續(xù)性提升。

而過長的預(yù)訓(xùn)練,反而會損害模型在后續(xù)訓(xùn)練階段的性能表現(xiàn)。

具體來說,在 Anthropic-HH 數(shù)據(jù)集上進(jìn)行指令跟隨微調(diào)后,與僅預(yù)訓(xùn)練 2.3T tokens 的模型相比,預(yù)訓(xùn)練 3T tokens 的基礎(chǔ)模型的響應(yīng)率降低了 3%。

在諸如 ARC-Easy、ARC-Challenge、HellaSwag 和 PIQA 等基準(zhǔn)測試上評估時,研究團(tuán)隊(duì)發(fā)現(xiàn)在推理和問答等各種開放域?qū)υ捜蝿?wù)上,模型性能也出現(xiàn)了類似的下降。

而對于多模態(tài)微調(diào),其發(fā)現(xiàn)通過延長預(yù)訓(xùn)練時間,能夠持續(xù)提高視覺語言模型性能分?jǐn)?shù)。

然而,那些在更多 tokens 上進(jìn)行預(yù)訓(xùn)練的模型,在各種域外性能基準(zhǔn)測試中,表現(xiàn)出更大的遺忘幅度和性能下降。

在 PIQA 等數(shù)據(jù)集上,模型性能會出現(xiàn)嚴(yán)重下降,以至于在延長預(yù)訓(xùn)練時間之后,反而會損害后訓(xùn)練之后的模型性能。

這說明,雖然延長預(yù)訓(xùn)練時間確實(shí)能夠提高預(yù)訓(xùn)練性能,但是這些提升并不都能轉(zhuǎn)化為后訓(xùn)練性能的提升。

打開網(wǎng)易新聞 查看精彩圖片

何時以及為何發(fā)生災(zāi)難性過度訓(xùn)練?

為了厘清為何在更多 tokens 上進(jìn)行預(yù)訓(xùn)練、為何消耗了更多計(jì)算資源反而會降低性能的這一問題,以及這種情況到底何時會發(fā)生,研究團(tuán)隊(duì)深入探討了這一現(xiàn)象。

研究團(tuán)隊(duì)將性能首次開始下降時的 token 訓(xùn)練量臨界值稱為“拐點(diǎn)”。需要注意的是,在各種下游評估任務(wù)中,即使是同一個模型其性能下降的具體表現(xiàn)也可能有所不同。

當(dāng)研究團(tuán)隊(duì)針對 OLMo-1B 進(jìn)行后訓(xùn)練以便進(jìn)行指令調(diào)優(yōu)和多模態(tài)微調(diào),進(jìn)而將其放在標(biāo)準(zhǔn)基準(zhǔn)上進(jìn)行評估時,他們觀察到了災(zāi)難性過度訓(xùn)練現(xiàn)象。

于是,他們重點(diǎn)探討了以下兩個問題:災(zāi)難性過度訓(xùn)練發(fā)生于何時以及為何會發(fā)生?哪些因素會影響“拐點(diǎn)”的出現(xiàn)?

研究中,他們聚焦于針對不同數(shù)據(jù)集進(jìn)行微調(diào)來修改預(yù)訓(xùn)練模型,同時還向模型權(quán)重添加了獨(dú)立高斯噪聲。需要說明的是,高斯噪聲——是一種符合正態(tài)分布的隨機(jī)擾動,常用于模型訓(xùn)練和魯棒性測試之中。

研究中,他們研究了在高斯噪聲擾動之下的過度訓(xùn)練效應(yīng),并構(gòu)建了一個直觀的理論圖示。隨后,在受控實(shí)驗(yàn)環(huán)境中將這一分析拓展至微調(diào)場景。

根據(jù)實(shí)驗(yàn)結(jié)果,其給出這樣的總結(jié):在 Anthropic-HH 和 TULU 等數(shù)據(jù)集上進(jìn)行指令調(diào)優(yōu)時,當(dāng) tokens 預(yù)算超過 2.5T tokens 時,OLMo-1B 模型會出現(xiàn)災(zāi)難性過度訓(xùn)練現(xiàn)象,這表現(xiàn)為模型在域內(nèi)性能任務(wù)和域外性能任務(wù)上的性能下降。

對于多模態(tài)微調(diào),OLMo-1B 模型在超過 2.5T tokens 時也出現(xiàn)了災(zāi)難性過度訓(xùn)練。然而,這種退化具有一定的任務(wù)依賴性,即盡管在某些泛化任務(wù)上模型的性能有所下降,但是在超過一定的 tokens 閾值后,模型的域內(nèi)性能并未出現(xiàn)退化。

在相同的微調(diào)設(shè)置和評估設(shè)置之下,針對預(yù)訓(xùn)練 tokens 預(yù)算高達(dá) 3T tokens 的 OLMo-7B 模型,研究團(tuán)隊(duì)并未觀察到災(zāi)難性過度訓(xùn)練現(xiàn)象。

基于這些觀察結(jié)果,他們探索了以下問題:在預(yù)訓(xùn)練 tokens 預(yù)算更大的情況下,OLMo-7B 模型是否會出現(xiàn)災(zāi)難性過度訓(xùn)練現(xiàn)象?為什么在特定數(shù)據(jù)集上進(jìn)行微調(diào)時某些下游任務(wù)更有可能出現(xiàn)災(zāi)難性過度訓(xùn)練現(xiàn)象?一些微調(diào)數(shù)據(jù)集是否更有可能導(dǎo)致災(zāi)難性過度訓(xùn)練?

為了回答這些問題,研究團(tuán)隊(duì)使用了單次訓(xùn)練運(yùn)行中公開可用的檢查點(diǎn)。由于退火調(diào)度策略,每個預(yù)訓(xùn)練預(yù)算都對應(yīng)于不同的最終學(xué)習(xí)率。(注:退火調(diào)度,在物理學(xué)中是一種熱處理工藝。但在大模型領(lǐng)域它是一種優(yōu)化策略,通過逐漸降低某些參數(shù)來幫助模型實(shí)現(xiàn)更穩(wěn)定的收斂。)

為了消除這一混淆因素,研究團(tuán)隊(duì)在由此前Google團(tuán)隊(duì)打造的 C4 數(shù)據(jù)集上,從零開始針對模型進(jìn)行預(yù)訓(xùn)練。這些模型的大小從 15M 到 90M 參數(shù)不等,覆蓋的 token 預(yù)算從 4B 到 128B 不等。

研究團(tuán)隊(duì)采用余弦退火調(diào)度策略進(jìn)行訓(xùn)練,從而將每個模型的學(xué)習(xí)率逐漸退火至零,并基于多個數(shù)據(jù)集針對模型進(jìn)行微調(diào),同時在預(yù)訓(xùn)練權(quán)重上添加高斯擾動作為預(yù)熱。

微調(diào)——是針對基于大量數(shù)據(jù)訓(xùn)練而來的預(yù)訓(xùn)練模型進(jìn)行的某種修改,這些修改旨在提升某些特定的性能指標(biāo)。然而,正如前人論文中所描述的:這類修改可能會無意中扭曲預(yù)訓(xùn)練知識,導(dǎo)致模型的域外性能出現(xiàn)下降。

因此,研究團(tuán)隊(duì)主要測量了修改后的下游模型的 C4 困惑度,以此作為衡量原始預(yù)訓(xùn)練知識保留程度的指標(biāo)。困惑度,是衡量語言模型在預(yù)測下一個詞時的不確定程度的一個指標(biāo)。其發(fā)現(xiàn),C4 困惑度的下降可能預(yù)示了這種知識的丟失,因此這可能會導(dǎo)致模型域外性能的下降。

與此同時,研究團(tuán)隊(duì)還通過困惑度指標(biāo),來評估模型在微調(diào)數(shù)據(jù)同分布測試集上的性能表現(xiàn)。

借此發(fā)現(xiàn):在擾動量固定的情況之下,基礎(chǔ)模型和擾動模型之間的困惑度變化,會隨著預(yù)訓(xùn)練 tokens 的數(shù)量而出現(xiàn)單調(diào)遞增?;诖耍麄兝L制了基礎(chǔ)模型的絕對 C4 困惑度示意圖。

(來源:arXiv)
打開網(wǎng)易新聞 查看精彩圖片
(來源:arXiv)

其還觀察到,基礎(chǔ)模型的困惑度會隨著預(yù)訓(xùn)練 tokens 數(shù)量的增加而降低。

在這一實(shí)驗(yàn)設(shè)定下,災(zāi)難性過度訓(xùn)練的產(chǎn)生源于兩種效應(yīng)的相互作用:即“噪聲敏感性的漸進(jìn)增強(qiáng)”與“基礎(chǔ)模型隨預(yù)訓(xùn)練進(jìn)程的性能單調(diào)遞增”。

打開網(wǎng)易新聞 查看精彩圖片

警示:模型擴(kuò)展需要被重新審視

總的來說,本次研究證明隨著預(yù)訓(xùn)練 token 數(shù)量的增加,模型對擾動的敏感性會系統(tǒng)性增強(qiáng),這一規(guī)律導(dǎo)致了災(zāi)難性過度訓(xùn)練的發(fā)生。

當(dāng)預(yù)訓(xùn)練任務(wù)與微調(diào)任務(wù)存在目標(biāo)偏差時,這種適應(yīng)能力的退化會變得尤為嚴(yán)重。在此情況下,即便對微調(diào)過程施加正則化,災(zāi)難性過度訓(xùn)練仍然可能無法避免。

同時,研究團(tuán)隊(duì)證明災(zāi)難性過度訓(xùn)練有時只能通過正則化來緩解,但一些其他策略比如數(shù)據(jù)回放或線性探測微調(diào)可能會給保持預(yù)訓(xùn)練性能帶來幫助。

此外,類似于 WiseFT 等方法在也有可能在出現(xiàn)災(zāi)難性過度訓(xùn)練情況時發(fā)揮作用。

最后,盡管本次工作主要關(guān)注在微調(diào)和簡單擾動背景之下的災(zāi)難性過度訓(xùn)練,但這一現(xiàn)象也適用于語言模型參數(shù)受到擾動的其他情況,比如模型編輯或模型遺忘等。

因此,研究人員指出災(zāi)難性過度訓(xùn)練對于語言建模的未來發(fā)展具有重大影響。

那些為了高效部署模型而減少模型參數(shù)的做法,可能會加劇災(zāi)難性過度訓(xùn)練的負(fù)面影響,因?yàn)檫@會讓模型對于參數(shù)變換越來越敏感。

此外,隨著推理時動態(tài)推理(inference-time reasoning)技術(shù)、驗(yàn)證方法以及其他新興后訓(xùn)練范式的面世,會讓推理時間成本不斷上升,也會加劇災(zāi)難性過度訓(xùn)練情況的出現(xiàn)。

總之,本次研究表明人們需要重新審視模型擴(kuò)展,同時也需要認(rèn)真考慮模型的整個訓(xùn)練流程。

參考資料:

https://venturebeat.com/ai/researchers-warn-of-catastrophic-overtraining-in-large-language-models/

https://arxiv.org/abs/2503.19206

運(yùn)營/排版:何晨龍