国产黄片av免费_在线观看看片_www第一精品久久久_成人毛片18女人毛片免_日日摸夜夜操av_国产精品热久久久久夜色精品三区 _中文字幕日韩欧美精品在线_欧美高清另类hdvideosex

<sup id="ywuyq"><samp id="ywuyq"></samp></sup>

<th id="ywuyq"><nav id="ywuyq"></nav></th>

漫畫趣解：大模型預訓練、后訓練、微調

AI全球總部

2025-04-08 16:24 ·北京

上個月，DeepSeek悄悄做了一次更新，發(fā)布了一個小版本：DeepSeek-V3-0324。

這個版本大幅提高了在推理類任務上的表現(xiàn)水平，在數(shù)學、代碼類相關評測集上取得了超過 GPT-4.5 的得分成績。

怎么做到的呢？DeepSeek官方文檔是這么說↓

新版 V3 模型借鑒 DeepSeek-R1 模型訓練過程中所使用的強化學習技術，與之前的 DeepSeek-V3 使用同樣的 base 模型，僅改進了后訓練方法。

這里面提到了一個詞：后訓練。

啥是后訓練，跟預訓練有啥區(qū)別？

今天我們用最通俗的比喻，來講講大模型三個不同階段的訓練方法：?預訓練（Pre-training）?后訓練（Post-training）?微調（Fine-tuning）。

先看預訓練

先看預訓練

預訓練就是用大量的通用數(shù)據(jù)集先訓練模型，讓它掌握基礎知識和技能（通用語言能力和世界常識，比如剛發(fā)布的Llama 4在200種語言上進行預訓練）。

這就好比我們的中小學階段，系統(tǒng)地學習語文、數(shù)學、英語等基礎學科知識。

這個階段數(shù)據(jù)規(guī)模龐大，訓練成本高，周期長（數(shù)萬GPU天），比如Llama 4 Scout預訓練就使用了40萬億tokens數(shù)據(jù)。

想想我們小時候刷過的題、吃過的苦、花費的時間、挨過的罵……

預訓練的成本和時間一下子就具象化了。

再說后訓練

再說后訓練

后訓練是指在預訓練完成后的進一步訓練階段，目的在于讓模型更好地適應實際的特定任務或應用場景。

這就好比高中畢業(yè)（預訓練結束），考上大學，有了明確的專業(yè)方向，開始強化專業(yè)知識。

后訓練階段，數(shù)據(jù)規(guī)模小，通常是特定領域的數(shù)據(jù)（專業(yè)基礎課和專業(yè)課），訓練周期短（修夠學分就行）。

回想一下你的大學生活，是不是比以前輕松多了。

不過，后訓練往往不止一次，可能要根據(jù)實際需求，持續(xù)深造，不斷優(yōu)化。

這就好比我們上完本科，可能還要碩士、博士，持續(xù)深造，讓自己的專業(yè)能力越來越扎實。

目前，在模型后訓練環(huán)節(jié)，比較流行的是采用強化學習（RL：Reinforcement Learning）的方法。比如在DeepSeek-V3小版本發(fā)布的通告里，就特別指出了自己采用了強化學習進行后訓練。

簡單講，強化學習就后訓練的過程中不斷告訴模型：①你做得好，繼續(xù)保持（給正反饋）；②你做的不好，趕緊改正（給負反饋）。

通過這種“獎懲機制”，讓模型學習更有針對性，表現(xiàn)也更好。

但是這種”打一巴掌、給個甜棗“的方法，有時候會把模型心態(tài)搞崩，太過于追求獎勵的結果了而走極端。

所以，為了避免走極端，最近流行一種新的強化學習方法，叫做GRPO（引導式正則化策略優(yōu)化），比如DeepSeek R1的訓練就采用了這種方法。

GRPO就是在傳統(tǒng)強化學習的獎勵機制之上，加入一個額外的約束（正則項），確保和最初的“比較好的模型”不會差距太大。

這樣模型就可以平穩(wěn)地進步，既能拿到高獎勵，又不會走極端。

如此，GRPO成了當下大模型后訓練中，最流行的強化學習手段，能更安全、穩(wěn)定地提升AI的表現(xiàn)，生成的內(nèi)容更符合人類喜歡的風格和預期。

最后說說微調

最后說說微調

嚴格來講，把微調單拎出來講并不科學，因為微調其實也是模型「后訓練」的一種方法。

不過，一般后訓練（像前面說的強化學習方法），發(fā)生在模型提供商那里。模型提供商在「預訓練」完成以后，通過多次「后訓練」優(yōu)化，最終把模型打造成可交付的產(chǎn)品或服務。

而微調這種「后訓練」，通常發(fā)生在模型使用者那里（尤其是行業(yè)客戶場景）。

只因出徒后的大模型雖然基礎知識豐富、專業(yè)能力一流，可是實戰(zhàn)技巧卻是空白，到了行業(yè)場景沒法直接上崗。

比如——

怎么辦呢？進行上崗培訓，這就是微調。

微調是針對特定任務（修電腦）的訓練，數(shù)據(jù)量小但很精準、具體，老司機會把他的具體修理經(jīng)驗交給你，讓你的知識更接地氣。

至此，一個大模型經(jīng)過預訓練、后訓練、微調。

終于可以上崗干活啦。

簡單總結下↓

預訓練：基礎知識廣泛學；

后訓練：專業(yè)領域深入學；

微調：具體實操崗前學。

好了，基本概念介紹完畢。

從目前的國內(nèi)的趨勢看，做大規(guī)模預訓練的公司會越來越少（坊間傳聞，今年上半年真正在做預訓練的公司只有兩三家）。

未來訓練方面的主要需求都是后訓練和微調（當然更大的需求是推理）。

可是說，隨著DeepSeek的半路殺出，國內(nèi)大模型戰(zhàn)役的第一階段，已經(jīng)結束，“裸泳者”即將浮出水面。

打開網(wǎng)易新聞體驗更佳

熱搜

熱門跟貼

打開APP發(fā)貼

浦北县| 扶风县| 栾川县| 长葛市| 黑河市| 周至县| 阿城市| 陕西省| 陵川县| 江北区| 呼伦贝尔市| 唐海县| 交口县| 绍兴市| 无锡市| 枣庄市| 黄冈市| 济南市| 恩平市| 抚州市| 安福县| 涞水县| 彭水| 湖南省| 阜宁县| 曲周县| 望谟县| 邓州市| 仲巴县| 十堰市| 定襄县| 武隆县| 沙河市| 佛山市| 扶余县| 马尔康县| 新余市| 钦州市| 双桥区| 邻水| 龙南县|

<blockquote id="uowm0"></blockquote>

<th id="uowm0"></th>