隨著 GPT-3 的推出,大模型逐漸成為人們關(guān)注的焦點(diǎn)。研究者們紛紛投入到各類大模型的研發(fā)中,這些模型通常具有出色的泛化能力,并在眾多任務(wù)中展現(xiàn)出強(qiáng)勁的潛力。
為了進(jìn)一步發(fā)揮大模型的優(yōu)勢,將其應(yīng)用于各類下游任務(wù)已經(jīng)成為一種趨勢。
然而,實(shí)踐中人們常常面臨一個重大挑戰(zhàn):對整個大模型進(jìn)行完整訓(xùn)練(即全量微調(diào))需要極高的成本,如需要大量的圖形處理器(GPU,Graphics Processing Unit)資源等。
考慮到下游任務(wù)的多樣性,為每個任務(wù)訓(xùn)練一個專門的大模型并不現(xiàn)實(shí)。因此,一個自然的問題出現(xiàn)了:在資源有限的情況下,如何更高效地訓(xùn)練大模型,以便在多樣的下游場景中充分發(fā)揮其潛力?
正是在這個背景下,參數(shù)高效微調(diào)(PEFT,Parameter-Efficient Fine-Tuning)這一研究領(lǐng)域應(yīng)運(yùn)而生。
PEFT 旨在通過微調(diào)極少量的參數(shù),使模型在不同任務(wù)中實(shí)現(xiàn)接近全量微調(diào),甚至超過全量微調(diào)的效果。隨著 2022 年以來大模型的迅猛發(fā)展,PEFT 算法層出不窮,種類繁多。
與此同時,許多綜述性論文試圖對這些方法進(jìn)行分類,雖然各自的分類結(jié)果有所重疊,但始終難以形成統(tǒng)一的共識。
此外,由于許多方法的原理偏向直覺性而非理論性,其性能表現(xiàn)往往難以系統(tǒng)地解釋。不同方法之間的性能差異顯著,如何解釋這種差異性也成為值得深入探討的問題。
基于這一背景,來自上海交通大學(xué)的研究人員開展了一項(xiàng)研究。研究目標(biāo)有兩個:首先,從統(tǒng)一視角出發(fā)歸納不同的 PEFT 方法,將它們整合在一個統(tǒng)一的框架之下。
其次,探索這些方法的底層邏輯,并分析不同方法之間的性能差異。
研究中,該團(tuán)隊(duì)從子空間微調(diào)的角度在數(shù)學(xué)上為參數(shù)微調(diào)提供了一個統(tǒng)一框架。
通過這個框架,課題組將各種不同的參數(shù)微調(diào)方法歸納在同一個數(shù)學(xué)背景下,使得整個微調(diào)過程更加簡潔和系統(tǒng)。

預(yù)計(jì)參數(shù)高效微調(diào)技術(shù)具有廣泛的應(yīng)用前景。它能夠在邊緣計(jì)算、自動駕駛、醫(yī)療影像分析、個性化推薦系統(tǒng)等領(lǐng)域,通過優(yōu)化模型性能和壓縮模型參數(shù),實(shí)現(xiàn)高效的部署與運(yùn)行。
此外,PEFT 技術(shù)在半監(jiān)督與無監(jiān)督學(xué)習(xí)、模型壓縮與蒸餾以及自然語言處理等方面,也展現(xiàn)出極大的潛力,特別是在資源受限的環(huán)境中,能夠顯著提升模型的實(shí)際應(yīng)用能力。
同時,子空間微調(diào)技術(shù)能為參數(shù)高效微調(diào)的發(fā)展提供了新的視角和重要啟發(fā)。通過深入分析模型參數(shù)在子空間中的行為,利用子空間微調(diào)技術(shù)還可以揭示模型底層邏輯的運(yùn)作機(jī)制。
這種分析不僅有助于理解模型參數(shù)的相互作用和優(yōu)化路徑,還能夠指導(dǎo) PEFT 技術(shù)的設(shè)計(jì),使其在更具理論支撐的框架下實(shí)現(xiàn)更高效的性能調(diào)優(yōu)。
日前,相關(guān)論文以《在分解的基礎(chǔ)上進(jìn)行參數(shù)高效微調(diào)的進(jìn)一步說明》(See Further for Parameter Efficient Fine-tuning by Standing on the Shoulders of Decomposition)為題發(fā)在arXiv[1],司翀杰是第一作者。

該團(tuán)隊(duì)表示這項(xiàng)研究的框架相對龐大,還有很多未解決的問題。因此,他們打算進(jìn)一步優(yōu)化現(xiàn)有的理論和方法。目前,他們正在研究如何更好地優(yōu)化子空間擴(kuò)展中的低秩特性,以提高模型的效率和性能。
此外,他們發(fā)現(xiàn)低秩自適應(yīng)(LoRA,Low-Rank Adaptation)方法具有巨大的潛力,但這一潛力在現(xiàn)有的實(shí)現(xiàn)中并未被完全釋放?;?LoRA 的特性,他們進(jìn)一步探索如何在下游任務(wù)中充分挖掘和利用這一潛力。
眼下,課題組已取得不錯的實(shí)驗(yàn)結(jié)果,這可能會為從另一個角度理解 PEFT 的本質(zhì)提供新的視角。
參考資料:
1.https://arxiv.org/pdf/2407.05417
運(yùn)營/排版:何晨龍
熱門跟貼