構(gòu)建更大語言模型的競賽是由這樣一種假設(shè)推動的:即更多的預(yù)訓(xùn)練數(shù)據(jù)意味著更好的性能。毫不奇怪,人工智能公司一直在爭先恐后地尋找足夠高質(zhì)量的數(shù)據(jù)來訓(xùn)練他們的人工智能模型,經(jīng)常訴諸于創(chuàng)建合成數(shù)據(jù)來構(gòu)建和微調(diào)人工智能模型。但如果這個核心如果有缺陷呢?

打開網(wǎng)易新聞 查看精彩圖片

一項新的研究警告說,更多的預(yù)訓(xùn)練數(shù)據(jù)可能并不總是能帶來更好的人工智能模型??▋?nèi)基梅隆大學(xué)、斯坦福大學(xué)、哈佛大學(xué)和普林斯頓大學(xué)等頂尖大學(xué)的研究人員強調(diào)了“災(zāi)難性過度訓(xùn)練”現(xiàn)象。他們最近對這一問題的研究表明,延長預(yù)訓(xùn)練實際上會降低模型的有效微調(diào)能力,導(dǎo)致在現(xiàn)實世界應(yīng)用中的性能較差。

研究人員在訓(xùn)練人工智能模型時挑戰(zhàn)了“越多越好”的信念。作者在arXiv上發(fā)表的研究中寫道:“與普遍看法相反,更長的預(yù)訓(xùn)練并不總是能帶來更好的模型?!薄拔覀円呀?jīng)證明,這是一個更廣泛的潛在現(xiàn)象的結(jié)果,在這個現(xiàn)象中,模型對擾動變得更加敏感,因為它們在更多的令牌(Token)上進行了預(yù)訓(xùn)練?!?/p>

為什么人工智能模型需要預(yù)先訓(xùn)練?人工智能公司使用預(yù)培訓(xùn)來教授與其任務(wù)相關(guān)的人工智能系統(tǒng)基礎(chǔ)技能。這可以是理解語言、分析圖像、預(yù)測序列或識別數(shù)據(jù)中的模式。

預(yù)訓(xùn)練起著重要作用,因為它允許模型概括知識,適應(yīng)不同的環(huán)境,并在廣泛的任務(wù)中有效地執(zhí)行。需要明確的是,研究人員并不拒絕預(yù)訓(xùn)練,但建議開發(fā)人員在預(yù)訓(xùn)練的程度上需要更具戰(zhàn)略性尺度。

打開網(wǎng)易新聞 查看精彩圖片

為了了解預(yù)訓(xùn)練將如何影響AI模型,研究人員比較了Ai2開源OLMo-1B模型的兩個版本。一個是在2.3萬億個Token上訓(xùn)練的,另一個是3萬億個Token。令人驚訝的是,在微調(diào)后,在更多數(shù)據(jù)上訓(xùn)練的模型表現(xiàn)較差。它在ARC Challenge、PIQA和AlpacaEval等標準基準測試中的準確率降低了2-3%。

作者通過他們所謂的“漸進敏感性”來解釋這種性能下降。隨著模型訓(xùn)練時間的延長,它們的內(nèi)部參數(shù)對變化越來越敏感,例如在微調(diào)過程中調(diào)整模型或添加更多數(shù)據(jù)。這種更高的靈敏度意味著,即使數(shù)據(jù)中的微小調(diào)整或少量噪聲也會嚴重破壞模型已經(jīng)學(xué)習(xí)到的內(nèi)容。

該研究通過多個角度的證據(jù)支持其發(fā)現(xiàn)。當(dāng)研究人員將高斯噪聲添加到預(yù)訓(xùn)練模型中時,他們發(fā)現(xiàn)隨著預(yù)訓(xùn)練Token的增加,性能明顯變差。此外,他們使用一種不同的設(shè)置來驗證他們的結(jié)果,該設(shè)置涉及微調(diào)的基準,并產(chǎn)生了類似的結(jié)果。

研究人員承認,他們的研究并不普遍,因為他們的研究表明,在較小的模型上,災(zāi)難性過度訓(xùn)練的風(fēng)險更高。他們還強調(diào),如果任務(wù)沒有很好地協(xié)調(diào)一致,即使有好的技術(shù),過度訓(xùn)練也不總是可以解決的。

研究人員分享道:“即使微調(diào)過程被規(guī)范化,災(zāi)難性的過度訓(xùn)練也可能是不可避免的,尤其是在預(yù)訓(xùn)練和微調(diào)任務(wù)不一致的情況下?!边@突顯了確保培訓(xùn)和微調(diào)目標之間保持一致的重要性。

人工智能模型預(yù)訓(xùn)練是開發(fā)過程中的關(guān)鍵組成部分。然而,該研究的結(jié)果突顯了過度訓(xùn)練的風(fēng)險。那么,最佳點是什么?研究人員表示,這涉及到在基礎(chǔ)模型質(zhì)量和訓(xùn)練后適應(yīng)性之間取得平衡。

開發(fā)人員可能需要重新思考構(gòu)建人工智能模型的方法。正如研究人員所建議的那樣,重點應(yīng)該從簡單地擴大數(shù)據(jù)和模型大小轉(zhuǎn)向優(yōu)化整個訓(xùn)練管道。研究人員強調(diào):“我們的研究結(jié)果要求重新關(guān)注考慮整個訓(xùn)練管道的模型縮放。”

打開網(wǎng)易新聞 查看精彩圖片

作者強調(diào),需要進一步的研究來探索決定災(zāi)難性過度訓(xùn)練何時以及如何發(fā)生的因素。然而,他們的研究得出的一個關(guān)鍵結(jié)論是,通過采用更智能的人工智能開發(fā)策略,有時可以做到少即是多。