上個月,DeepSeek悄悄做了一次更新,發(fā)布了一個小版本:DeepSeek-V3-0324。

這個版本大幅提高了在推理類任務上的表現(xiàn)水平,在數(shù)學、代碼類相關評測集上取得了超過 GPT-4.5 的得分成績。

怎么做到的呢?DeepSeek官方文檔是這么說↓
新版 V3 模型借鑒 DeepSeek-R1 模型訓練過程中所使用的強化學習技術,與之前的 DeepSeek-V3 使用同樣的 base 模型,僅改進了后訓練方法。
這里面提到了一個詞:后訓練。
啥是后訓練,跟預訓練有啥區(qū)別?
今天我們用最通俗的比喻,來講講大模型三個不同階段的訓練方法:?預訓練(Pre-training)?后訓練(Post-training)?微調(Fine-tuning)。
先看預訓練
預訓練就是用大量的通用數(shù)據(jù)集先訓練模型,讓它掌握基礎知識和技能(通用語言能力和世界常識,比如剛發(fā)布的Llama 4在200種語言上進行預訓練)。
這就好比我們的中小學階段,系統(tǒng)地學習語文、數(shù)學、英語等基礎學科知識。

這個階段數(shù)據(jù)規(guī)模龐大,訓練成本高,周期長(數(shù)萬GPU天),比如Llama 4 Scout預訓練就使用了40萬億tokens數(shù)據(jù)。
想想我們小時候刷過的題、吃過的苦、花費的時間、挨過的罵……
預訓練的成本和時間一下子就具象化了。

再說后訓練
后訓練是指在預訓練完成后的進一步訓練階段,目的在于讓模型更好地適應實際的特定任務或應用場景。
這就好比高中畢業(yè)(預訓練結束),考上大學,有了明確的專業(yè)方向,開始強化專業(yè)知識。

后訓練階段,數(shù)據(jù)規(guī)模小,通常是特定領域的數(shù)據(jù)(專業(yè)基礎課和專業(yè)課),訓練周期短(修夠學分就行)。
回想一下你的大學生活,是不是比以前輕松多了。

不過,后訓練往往不止一次,可能要根據(jù)實際需求,持續(xù)深造,不斷優(yōu)化。
這就好比我們上完本科,可能還要碩士、博士,持續(xù)深造,讓自己的專業(yè)能力越來越扎實。

目前,在模型后訓練環(huán)節(jié),比較流行的是采用強化學習(RL:Reinforcement Learning)的方法。比如在DeepSeek-V3小版本發(fā)布的通告里,就特別指出了自己采用了強化學習進行后訓練。
簡單講,強化學習就后訓練的過程中不斷告訴模型:①你做得好,繼續(xù)保持(給正反饋);②你做的不好,趕緊改正(給負反饋)。
通過這種“獎懲機制”,讓模型學習更有針對性,表現(xiàn)也更好。
但是這種”打一巴掌、給個甜棗“的方法,有時候會把模型心態(tài)搞崩,太過于追求獎勵的結果了而走極端。
所以,為了避免走極端,最近流行一種新的強化學習方法,叫做GRPO(引導式正則化策略優(yōu)化),比如DeepSeek R1的訓練就采用了這種方法。
GRPO就是在傳統(tǒng)強化學習的獎勵機制之上,加入一個額外的約束(正則項),確保和最初的“比較好的模型”不會差距太大。
這樣模型就可以平穩(wěn)地進步,既能拿到高獎勵,又不會走極端。
如此,GRPO成了當下大模型后訓練中,最流行的強化學習手段,能更安全、穩(wěn)定地提升AI的表現(xiàn),生成的內(nèi)容更符合人類喜歡的風格和預期。
最后說說微調
嚴格來講,把微調單拎出來講并不科學,因為微調其實也是模型「后訓練」的一種方法。
不過,一般后訓練(像前面說的強化學習方法),發(fā)生在模型提供商那里。模型提供商在「預訓練」完成以后,通過多次「后訓練」優(yōu)化,最終把模型打造成可交付的產(chǎn)品或服務。

而微調這種「后訓練」,通常發(fā)生在模型使用者那里(尤其是行業(yè)客戶場景)。
只因出徒后的大模型雖然基礎知識豐富、專業(yè)能力一流,可是實戰(zhàn)技巧卻是空白,到了行業(yè)場景沒法直接上崗。
比如——

怎么辦呢?進行上崗培訓,這就是微調。
微調是針對特定任務(修電腦)的訓練,數(shù)據(jù)量小但很精準、具體,老司機會把他的具體修理經(jīng)驗交給你,讓你的知識更接地氣。

至此,一個大模型經(jīng)過預訓練、后訓練、微調。
終于可以上崗干活啦。

簡單總結下↓
預訓練:基礎知識廣泛學;
后訓練:專業(yè)領域深入學;
微調:具體實操崗前學。

好了,基本概念介紹完畢。
從目前的國內(nèi)的趨勢看,做大規(guī)模預訓練的公司會越來越少(坊間傳聞,今年上半年真正在做預訓練的公司只有兩三家)。
未來訓練方面的主要需求都是后訓練和微調(當然更大的需求是推理)。
可是說,隨著DeepSeek的半路殺出,國內(nèi)大模型戰(zhàn)役的第一階段,已經(jīng)結束,“裸泳者”即將浮出水面。

熱門跟貼