打開網(wǎng)易新聞 查看精彩圖片

4月4日訊,人工智能領(lǐng)域的競(jìng)爭(zhēng)從未停歇,而中國(guó) AI 明星企業(yè) DeepSeek 最新發(fā)布的論文《Inference-Time Scaling for Generalist Reward Modeling》(通用獎(jiǎng)勵(lì)模型的推理時(shí)間擴(kuò)展)無(wú)疑為這場(chǎng)角逐再添一把火。這篇論文不僅展示了一種通過(guò)增加推理計(jì)算量提升模型性能的新思路,還讓人不禁猜測(cè):備受期待的 DeepSeek R2 模型可能已近在咫尺。

突破常規(guī)的“推理時(shí)間”革命

大型語(yǔ)言模型的訓(xùn)練通常依賴海量數(shù)據(jù)和高昂算力,而在訓(xùn)練過(guò)程中獎(jiǎng)勵(lì)模型扮演著至關(guān)重要的角色,它為強(qiáng)化學(xué)習(xí)提供反饋信號(hào),幫助模型優(yōu)化輸出。然而,傳統(tǒng)的獎(jiǎng)勵(lì)模型通常針對(duì)特定領(lǐng)域(如數(shù)學(xué)問(wèn)題或規(guī)則明確的游戲)設(shè)計(jì),難以適應(yīng)多樣化的通用查詢。此外,隨著推理任務(wù)復(fù)雜性的增加,如何在推理階段有效利用計(jì)算資源(即推理時(shí)間擴(kuò)展,Inference-Time Scaling)成為一個(gè)亟待解決的問(wèn)題。

打開網(wǎng)易新聞 查看精彩圖片

OpenAI 的 o1 系列模型率先展示了推理時(shí)間擴(kuò)展的潛力,通過(guò)延長(zhǎng)推理過(guò)程中的“思維鏈”(Chain-of-Thought, CoT),顯著提升了數(shù)學(xué)、編碼等任務(wù)的性能。然而,如何將這一思路推廣到通用獎(jiǎng)勵(lì)建模,并設(shè)計(jì)出高效、可擴(kuò)展的解決方案,仍是研究領(lǐng)域的空白。

DeepSeek 的這篇論文正是在此背景下應(yīng)運(yùn)而生。研究團(tuán)隊(duì)的目標(biāo)是探索“通用獎(jiǎng)勵(lì)模型的推理時(shí)間擴(kuò)展”,即如何通過(guò)增加推理計(jì)算量提升獎(jiǎng)勵(lì)模型在各種任務(wù)中的表現(xiàn),同時(shí)避免傳統(tǒng)方法在訓(xùn)練資源上的過(guò)度依賴。論文提出了一種名為 DeepSeek-GRM 的模型,并結(jié)合創(chuàng)新的訓(xùn)練方法和推理策略,為這一領(lǐng)域提供了新的思路。

打開網(wǎng)易新聞 查看精彩圖片

圖3:SPCT的示意圖,包括拒絕性微調(diào)、基于規(guī)則的強(qiáng)化學(xué)習(xí)以及推理過(guò)程中相應(yīng)的可擴(kuò)展行為。通過(guò)簡(jiǎn)單投票或元RM引導(dǎo)投票,利用大規(guī)模生成的原則實(shí)現(xiàn)推理時(shí)的擴(kuò)展,從而在擴(kuò)展的價(jià)值空間內(nèi)產(chǎn)生更細(xì)粒度的結(jié)果獎(jiǎng)勵(lì)。

論文中,DeepSeek 推出了名為 DeepSeek-GRM 的新模型,搭配一種創(chuàng)新的訓(xùn)練方法“自原則批評(píng)調(diào)優(yōu)”(SPCT)。這套組合拳讓模型能在推理時(shí)動(dòng)態(tài)調(diào)整輸出,確保對(duì)各種復(fù)雜問(wèn)題的回答更精準(zhǔn)、更可靠。更令人興奮的是,團(tuán)隊(duì)還設(shè)計(jì)了一個(gè)“元獎(jiǎng)勵(lì)模型”來(lái)協(xié)調(diào)多個(gè)候選答案,確保質(zhì)量隨著計(jì)算量的增加而穩(wěn)步提升。

打開網(wǎng)易新聞 查看精彩圖片

圖1:在所有測(cè)試的RM基準(zhǔn)上,使用不同RM進(jìn)行推理時(shí)的性能擴(kuò)展。結(jié)果展示了每種方法最多8個(gè)樣本的情況,并且我們的結(jié)果進(jìn)一步擴(kuò)展到了32個(gè)樣本。非斜體字體表示基于Gemma-2-27B的模型。

DeepSeek-GRM 的成功并非偶然,而是建立在一套巧妙的技術(shù)組合之上。核心在于它跳出了傳統(tǒng)獎(jiǎng)勵(lì)模型的窠臼,采用了生成式評(píng)分方式(GRM),讓模型能靈活應(yīng)對(duì)各種任務(wù),而非簡(jiǎn)單地比較優(yōu)劣。與此同時(shí),“自原則批評(píng)調(diào)優(yōu)”(SPCT)讓模型學(xué)會(huì)自我反省,通過(guò)強(qiáng)化學(xué)習(xí)不斷優(yōu)化判斷,減少對(duì)人工干預(yù)的依賴。

推理時(shí),DeepSeek-GRM 還能并行生成多個(gè)答案,再由“元獎(jiǎng)勵(lì)模型”從中挑出最佳方案,這種多線程操作讓性能隨著計(jì)算資源增加而顯著提升。受 OpenAI o1 的啟發(fā),模型還融入了動(dòng)態(tài)調(diào)整的“思維鏈”,根據(jù)問(wèn)題難度靈活分配思考時(shí)間。這些創(chuàng)新共同打造了一個(gè)既聰明又高效的系統(tǒng),展現(xiàn)了推理時(shí)間擴(kuò)展的巨大潛力。

數(shù)據(jù)說(shuō)話:性能超預(yù)期

實(shí)驗(yàn)結(jié)果顯示,DeepSeek-GRM 在多個(gè)測(cè)試中擊敗了傳統(tǒng)方法,尤其是在需要復(fù)雜推理的任務(wù)上表現(xiàn)搶眼。比如,與那些只靠訓(xùn)練階段堆砌資源的模型相比,DeepSeek-GRM 在相同預(yù)算下往往能交出更優(yōu)的答卷。更重要的是,這種方法的擴(kuò)展性極強(qiáng)——只要多給它一點(diǎn)“思考時(shí)間”,性能就能持續(xù)攀升。

打開網(wǎng)易新聞 查看精彩圖片

表2:不同方法和模型在RM基準(zhǔn)上的綜合結(jié)果。下劃線數(shù)字表示最佳性能,粗體數(shù)字表示在基準(zhǔn)方法和我們的方法中的最佳性能,斜體字體表示標(biāo)量或半標(biāo)量RM。對(duì)于元RM引導(dǎo)投票(MetaRM),k_meta = 1/2 * k。

這一發(fā)現(xiàn)可能會(huì)改變游戲規(guī)則,它意味著未來(lái)的 AI 不一定需要無(wú)底洞般的訓(xùn)練成本,而是可以通過(guò)推理階段的優(yōu)化實(shí)現(xiàn)突破。

R2 的影子?

DeepSeek 的這篇論文來(lái)得正是時(shí)候。去年,其 R1 模型以開源姿態(tài)震撼業(yè)界,迅速成為開發(fā)者社區(qū)的寵兒。而隨著推理時(shí)間擴(kuò)展技術(shù)的亮相,外界普遍猜測(cè),DeepSeek 可能正在為下一代模型——傳聞中的 R2——鋪路。如果 R2 真的整合了這種技術(shù),它或許能進(jìn)一步以更低的訓(xùn)練成本挑戰(zhàn) OpenAI 的 o1 系列,甚至在某些任務(wù)上實(shí)現(xiàn)“以小博大”的逆襲。

DeepSeek 的節(jié)奏非常快,從 R1 到現(xiàn)在的論文,他們顯然在加速迭代。R2 如果能把推理時(shí)間擴(kuò)展做到極致,可能會(huì)重新定義性價(jià)比的標(biāo)桿。

下一步是什么?

與以往一樣,DeepSeek 再次承諾將 DeepSeek-GRM 開源。這一舉動(dòng)不僅延續(xù)了其“技術(shù)普惠”的品牌形象,也為全球開發(fā)者提供了一個(gè)低門檻的實(shí)驗(yàn)平臺(tái)。不過(guò),論文也坦言,這項(xiàng)技術(shù)并非完美無(wú)缺——在處理極端復(fù)雜問(wèn)題時(shí),模型仍有改進(jìn)空間。

盡管 DeepSeek 尚未正式公布 R2 的發(fā)布時(shí)間表,但這篇論文無(wú)疑點(diǎn)燃了業(yè)界的期待。AI 競(jìng)賽的下一幕,或許就藏在這套“多想幾步”的技術(shù)背后。正如一些國(guó)外媒體所言:“DeepSeek 正在用行動(dòng)證明,中國(guó) AI 不只是追趕者,更是規(guī)則的改寫者?!?/p>

無(wú)論 R2 是否即將來(lái)襲,DeepSeek 的最新突破已經(jīng)足夠引人注目。在這個(gè)技術(shù)日新月異的時(shí)代,他們的故事,才剛剛開始。

? AI范兒

要進(jìn)“交流群”,請(qǐng)關(guān)注公眾號(hào)獲取進(jìn)群方式

投稿、需求合作或報(bào)道請(qǐng)?zhí)砑庸娞?hào)獲取聯(lián)系方式

打開網(wǎng)易新聞 查看精彩圖片

DeepSeek 低調(diào)發(fā)布 V3-0324:性能比肩 Claude 3.5

打開網(wǎng)易新聞 查看精彩圖片

DeepSeek 開源周最后一天: 揭秘 545% 超高利潤(rùn)!

打開網(wǎng)易新聞 查看精彩圖片

DeepSeek R1 憑什么震驚全世界?

點(diǎn)這里關(guān)注我,記得標(biāo)星哦~