點擊藍(lán)字關(guān)注??公眾號并設(shè)星標(biāo),不錯過最新內(nèi)容

打開網(wǎng)易新聞 查看精彩圖片

Web3天空之城·城主:

寫這一篇,放在這里,方便以后被打臉,

或者,以此見證。

昨晚懂王登基,美國科技圈大佬破天荒云集現(xiàn)場。懂王第一天確實也做了很多大事,本文無關(guān),就不展開了。

但同是昨晚, 科技圈還有另外一件大事,其背后意義的深遠(yuǎn),或許還沒完全揭曉。那就是DeepSeek自V3模型之后,再度發(fā)布自家的R1推理大模型(選擇同一天是不是故意的)。重要的是,這是一個可以和OpenAI世界最強(qiáng)O1推理大模型直接PK的大模型,完全開源,可商用,同時還加上一篇詳細(xì)解釋訓(xùn)練過程的優(yōu)秀論文。

鑒于很多美國人還在被新王的表現(xiàn)震驚著,DeepSeek R1發(fā)布的真正意義可能還要過一兩天才會全面發(fā)酵。

但核心圈子已經(jīng)完全爆炸了。在Reddit論壇上,還有各路youtube博主都是各種震驚體:What?一個免費(fèi)開源的和OpenAI O1 媲美的大模型?還附帶能本地跑起來的蒸餾小模型版本?

今天國內(nèi)外各大科技v已經(jīng)爭相發(fā)文講解R1的細(xì)節(jié), 推薦大家可以看以下以講解AI論文著稱的Wes Roth的“震驚”視頻,可以幫助很快了解R1大模型的基本知識點:

為什么DeepSeek的R1這么重要,不僅僅是因為它彎道超車實現(xiàn)了OpenAI 價值每用戶200刀/?訂閱費(fèi)的O1大模型性能,且速度快5倍,價格便宜30倍;

也不僅僅因為它徹底開源可商用--這意味著任何企業(yè)都可以直接拿來做自己的私有化部署-- 甚至還有個人可以在本地部署的R1小型版本 - 對每個科技企業(yè)和個人,這都是天大的禮物。

最重要的是,DeepSeek R1革新了自GPT以來,通用大模型訓(xùn)練的方式

前OpenAI大神,現(xiàn)已經(jīng)離職去搞AI教育的Andrej Karpathy在快2年前的 2023年微軟大會上講解的OpenAI大模型訓(xùn)練原理,仍然是至今為止最好的理解大模型訓(xùn)練基礎(chǔ)機(jī)制的講稿:

簡單的說,OpenAI定義了大模型訓(xùn)練的四個階段:預(yù)訓(xùn)練,監(jiān)督微調(diào),獎勵建模,強(qiáng)化學(xué)習(xí)。

城主用通俗的語言來解釋一下大模型訓(xùn)練的這四個步驟。你可以把大模型想象成一個正在學(xué)習(xí)各種技能的學(xué)生。

1. 預(yù)訓(xùn)練 (Pre-training):

目標(biāo): 讓模型“讀”大量的文字,學(xué)習(xí)語言的規(guī)律和知識。

過程:把海量的文本數(shù)據(jù)(比如:互聯(lián)網(wǎng)上的網(wǎng)頁、書籍、文章等)喂給模型。模型就像一個好奇的學(xué)生,大量閱讀各種書籍,學(xué)習(xí)語法、詞匯、常識等。模型學(xué)習(xí)預(yù)測句子中的下一個單詞,或者掩蓋掉的單詞。例如,模型看到“The cat sat on the”, 它就會學(xué)習(xí)預(yù)測下一個詞是“mat”。

2. 監(jiān)督微調(diào) (Supervised Fine-tuning, SFT):

目標(biāo):讓模型學(xué)習(xí)如何完成特定任務(wù),例如:寫文章、做翻譯、回答問題等。

過程:把標(biāo)注好的“任務(wù)數(shù)據(jù)”喂給模型(比如,文章和對應(yīng)的摘要,問題和對應(yīng)的答案)。模型就像學(xué)生一樣,學(xué)習(xí)如何做特定類型的題目,同時對比自己答案和標(biāo)準(zhǔn)答案的差異,從而學(xué)習(xí)如何更好完成特定任務(wù)。模型學(xué)習(xí)如何根據(jù)輸入,生成正確的輸出。例如,模型看到一篇新聞,學(xué)習(xí)生成簡潔的摘要。

3. 獎勵建模 (Reward Modeling):

目標(biāo):建立一個模型,可以評價其他模型生成的文本的好壞。

過程:讓人類對模型生成的文本進(jìn)行打分,例如:對于同一問題,哪個回答更好、更準(zhǔn)確、更符合人類的偏好?然后進(jìn)一步使用這些人類打分?jǐn)?shù)據(jù),訓(xùn)練一個新的模型(獎勵模型),使其能夠模仿人類的評分標(biāo)準(zhǔn)。獎勵模型學(xué)習(xí)如何判斷哪個輸出更好,就像一個評委一樣。

4. 強(qiáng)化學(xué)習(xí) (Reinforcement Learning, RL):

目標(biāo):讓模型在“獎勵模型”的指導(dǎo)下,不斷生成更好的文本。

強(qiáng)化學(xué)習(xí)的核心思想就是:在嘗試中學(xué)習(xí),通過獎勵來改進(jìn)。

用獎勵模型給生成的文本打分(獎勵模型認(rèn)為文本好的,就給高分;認(rèn)為不好的,就給低分),讓模型知道自己做得好還是不好。模型根據(jù)獎勵分?jǐn)?shù),不斷地調(diào)整自己的策略,讓模型學(xué)會如何獲得更高的分?jǐn)?shù)。在這個過程中,模型會不斷嘗試不同的生成方式,逐漸找到最優(yōu)的策略。

自從OpenAI 公布ChatGPT以來,以上這四大訓(xùn)練步驟基本就是常識,大模型的訓(xùn)練都大差不差按照這四步訓(xùn)練法來。

到后來,美國科技大廠都只堆算力,無腦買卡建數(shù)據(jù)中心給大模型喂數(shù)據(jù),相信“大力出奇跡”,數(shù)據(jù)就是一切; 甚至于到今年,美國那邊曾一度吃香的深度學(xué)習(xí)博士開始找不到工作了。這大概有一個原因:大公司認(rèn)為大模型不再需要繼續(xù)研究算法了,只需要堆算力堆數(shù)據(jù)就夠了。

反而言之,如果算力不夠,就可以躺平,直接不做大模型了:非我之過,實無卡也 。

但是,這一次,DeepSeek直接提出了一個全新的優(yōu)雅訓(xùn)練思路,簡而言之,就是去除/極端弱化了其中第二個步驟“SFT監(jiān)督微調(diào)”, 直接上強(qiáng)化學(xué)習(xí)。并且是反復(fù)多次的強(qiáng)化學(xué)習(xí),逼近最好結(jié)果。

這是什么概念呢, “監(jiān)督微調(diào)”就是把人類的正確做題結(jié)果(問題+答案)用來調(diào)教大模型。這是此前通用大模型優(yōu)化性能的很重要的一步。

而現(xiàn)在DeepSeek說,我們完全不用人類知識去調(diào)教大模型,讓AI自己和自己PK尋找變強(qiáng)的路徑,我們只看結(jié)果。

這很像當(dāng)年下圍棋的AlphaGo,第一版AlphaGo就是用人類棋譜訓(xùn)練的,我們可以類比常規(guī)用SFT監(jiān)督微調(diào)來訓(xùn)練大模型;而后續(xù)版本的AlphaGo Zero,則完全拋棄了人類先驗的圍棋知識,只是規(guī)定規(guī)則和勝負(fù)結(jié)果,然后AI互相對弈來實現(xiàn)模型的迭代進(jìn)化。

一切很順理成章:既然可以這樣這么強(qiáng)化學(xué)習(xí)訓(xùn)練出下圍棋的Alpha Zero,那么也應(yīng)該可以這么訓(xùn)練出通用大模型。

明顯是向AlphaGo Zero致敬,在DeepSeek的論文中,也出現(xiàn)了R1 Zero這個純AI迭代得到的中間研究模型。(最終產(chǎn)出的R1 是用同一個訓(xùn)練思路,基于DeepSeek V3多次強(qiáng)化訓(xùn)練得到)

有意思的是,上面引用演講的大神Andrej Karpathy對OpenAI所發(fā)明的RLHF微調(diào)技術(shù)本身就抱有保留態(tài)度。Andrej認(rèn)為RLHF本質(zhì)上是對人類偏好的模仿。他更傾向于像AlphaGo那樣的自博弈的強(qiáng)化學(xué)習(xí)方法,認(rèn)為沒有人工干預(yù)的自我進(jìn)化才是大模型的未來。大神還是說對了方向。

只是為什么老美沒有第一個做出來呢?

有趣的是, 同一天Kimi團(tuán)隊也發(fā)布了自己號稱媲美O1的大模型,其論文同樣揭露了依靠強(qiáng)化學(xué)習(xí)實現(xiàn)的思路(這是商量好的嗎) 但Kimi只拿出了論文, 沒有放出可以驗證的模型, 所以嘛。。。

關(guān)于這一次DeepSeek R1橫空出世的意義。城主簡單說說一些個人的想法。

在ChatGPT驚天問世2年之后,DeepSeek R1是國產(chǎn)LLM大模型第一次追平世界最強(qiáng)大模型的性能。相關(guān)評測已經(jīng)滿天飛,子彈可以再飛一會,但根據(jù)外網(wǎng)一片異口同聲的“已測,牛逼~”反饋,這事情錯的概率很小了。

這個追趕,還是在美國極限打壓之下的追趕。而再考慮到API以極高的性價比遠(yuǎn)遠(yuǎn)勝出,國產(chǎn)大模型可以說正式完成了對O1的超越。

當(dāng)然,我們可以說OpenAI還有壓箱底的GPT5沒拿出來,Anthropic或許也有個Claude4.0。

但超越了一次,誰說不會有第二次。從0到1難,還是從1到2難呢?

讓我們直白一點, 給一個論斷吧,DeekSeek R1是硅谷AI霸權(quán)和神話的破滅開端。

所謂霸權(quán),也就是類似各路硅谷大咖,包括一些硅谷投資人大咖,那些曾經(jīng)都自帶光環(huán)的名字,開口閉口要防止中國學(xué)習(xí)美國大模型技術(shù);還有硅谷AI新貴公司們在行動上對中國使用者的嚴(yán)防死守:OpenAI的API還能翻墻,Claude針對中國地區(qū)封號的方式,用過的都知道,要多惡心就多惡心。

沒辦法,捏著鼻子也要用,畢竟對很多技術(shù)人來說,希望用最好的。

現(xiàn)在呢,國產(chǎn)大模型不但有可能是最好的之一,而且毫無疑問是性價比最高的,數(shù)十倍的便宜。

外網(wǎng)已經(jīng)有視頻推薦用DeepSeek R1 + Cline來實現(xiàn)最強(qiáng)的AI編程助手。城主這個月的Windsurf訂閱到期后,也不打算繼續(xù)花錢了。

如上面視頻的Wes Roth博主在最后所說, 美國人整天提防AI技術(shù)不給中國人,到最后反而是中國人開源了最強(qiáng)大模型。無論如何,他預(yù)料不到這個結(jié)果。

打臉打得很爽。

其實不止老外吧,一些國人也在被打臉;這兩年看了太多這樣的論調(diào),信誓旦旦說中國大模型就是比美國落后好幾年。

在一些AI技術(shù)群里,最常見的是“唯硅谷論”,只要是硅谷的一個小技術(shù)集會的言論,說什么都是香的;而且分享這些的同學(xué)偶爾還有自覺不自覺帶著一股優(yōu)越感的,那個意思基本是,“你看, 硅谷聚會有這些信息,硅谷才是AI的圣地,我來分享一下,國內(nèi)能學(xué)習(xí)跟上就不錯啦”。

不止搞技術(shù)的,很多媒體的也習(xí)慣性散布悲觀言論,總之就是中國AI落后了,顯卡算力也被限制了,通用大模型能不被拉太遠(yuǎn)就可以了。

一些國內(nèi)大佬也潛意識里選擇躺平,反正算力沒有了,我們的大模型落后一些也是情有可原的。

但DeepSeek團(tuán)隊的年輕人似乎不信邪。沒有算力,是不是可以從訓(xùn)練方式上突破呢?為什么OpenAI的訓(xùn)練方式就一定是金科玉律呢?

在這點上,反而是老美更清醒一點,Google的施密特的表態(tài),從起初“中國可能只落后2年”, 后來是“只落后1年”, 在DeepSeek V3出來后評價“各有千秋”?,F(xiàn)在DeepSeek R1出來了,很想知道施密特會怎么說。

還記得一個小插曲,在DeepSeek V3出來后,OpenAI的Sam Altman酸溜溜額發(fā)帖說,復(fù)制別人是容易的,言下之意是DeepSeek利用了他們家的模型來訓(xùn)練;某些公知也跟風(fēng)說,如果美國大模型不讓國人訪問,DeepSeek V3就打造不出來了。

荒謬的言論很多時候可以混淆視聽。但辯解千次,都不如拿出一個絕對的結(jié)果有力量。

OK,現(xiàn)在我已經(jīng)比你厲害了,你說一下我是怎么抄你的呢?

所以要感謝DeepSeek團(tuán)隊,拿出了這個讓國人揚(yáng)眉吐氣的結(jié)果。從現(xiàn)在起,誰敢再說中國大模型抄襲美國?誰敢再說中國大模型落后美國X年?

從今天開始, 城主認(rèn)為中國大模型進(jìn)展已經(jīng)沒有短板了。AI視頻生成模型這個重要領(lǐng)域, 國產(chǎn)諸君已經(jīng)是事實上的世界最強(qiáng);而之前稍遜一籌的通用大模型, 從今天開始,不說超越硅谷,說平起平坐,沒人能反對了吧。

今后,硅谷大咖說的話我們要聽,國產(chǎn)年輕AI團(tuán)隊說的話一樣值得聽。

更加佩服DeepSeek的是,這么一個世界最頂尖的成果,直接開源了。油管上X上已經(jīng)很多老外發(fā)聲,點贊DeepSeek才是那個真正繼承了OpenAI最初使命和火種的團(tuán)隊。

這個評價可不是一般的高了。

這個事情是否還有更深的意義,大家可以繼續(xù)琢磨一下:如果硅谷的AI霸權(quán)已經(jīng)被稀釋了,不可超越的神話已經(jīng)破滅了, 那美國芯片還要不要防著中國,防著還有什么意義呢?最大的意義是不是讓中國過兩年憋出光刻機(jī),憋出自己的芯片和算力生態(tài)。。。

1月20號從各個方面而言都是一個有趣的日子。很久以后回頭,我們才能更明白這一天的意義。

以此小文致敬所有自強(qiáng)不息的人們。