打開(kāi)網(wǎng)易新聞 查看精彩圖片

新智元報(bào)道

編輯:定慧

【新智元導(dǎo)讀】DeepSeek-R1是近年來(lái)推理模型領(lǐng)域的一顆新星,它不僅突破了傳統(tǒng)LLM的局限,還開(kāi)啟了全新的研究方向「思維鏈學(xué)」(Thoughtology)。這份長(zhǎng)達(dá)142頁(yè)的報(bào)告深入剖析了DeepSeek-R1的推理過(guò)程,揭示了其推理鏈的獨(dú)特結(jié)構(gòu)與優(yōu)勢(shì),為未來(lái)推理模型的優(yōu)化提供了重要啟示。

你是否曾想過(guò)DeepSeek-R1為什么能「思考」?

距離DeepSeek-R1這只「巨鯨」引發(fā)的全球AI海嘯似乎剛剛平靜下來(lái),但推理模型已經(jīng)成為了AI寵兒。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

不論是Gemini 2.5Pro,還是o3,o4-mini,以及所有人都在期待的DeepSeek-R2,都是推理模型。

R1的出現(xiàn)帶火了推理模型外,也催生了一個(gè)新的研究領(lǐng)域:思維鏈學(xué)(Thoughtology)。

魁北克人工智能研究所聯(lián)合麥吉爾大學(xué)和哥本哈根大學(xué)最近發(fā)布了這一研究領(lǐng)域的詳細(xì)研究,這份長(zhǎng)達(dá)142頁(yè)的報(bào)告深入探討了R1的思維鏈。

同時(shí)這份研究報(bào)告也登上了HuggingFace的Daily Papers。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

論文地址:https://arxiv.org/pdf/2504.07128

研究團(tuán)隊(duì)從DeepSeek-R1推理的基本構(gòu)件出發(fā),分析其推理鏈的長(zhǎng)度對(duì)性能的影響、對(duì)長(zhǎng)或混亂上下文的處理能力、安全性和文化問(wèn)題、以及它在人類(lèi)類(lèi)比語(yǔ)言處理和世界建模中的表現(xiàn)。

研究報(bào)告涵蓋了多個(gè)獨(dú)特的維度:安全性、世界建模、忠誠(chéng)度、長(zhǎng)情境等。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

研究結(jié)果發(fā)現(xiàn)幾個(gè)關(guān)鍵亮點(diǎn):

  • DeepSeek-R1 存在一個(gè)「推理甜點(diǎn)區(qū)」(sweet spot),即過(guò)多推理反而損害性能。

  • 模型傾向于反復(fù)沉溺在已探索的方案中,阻礙進(jìn)一步探索。

  • 相比不具備推理能力的版本,DeepSeek-R1展現(xiàn)出更高的安全風(fēng)險(xiǎn),這可能對(duì)安全對(duì)齊的LLM構(gòu)成挑戰(zhàn)。

還有更豐富的研究細(xì)節(jié),讓我們開(kāi)始吧。

DeepSeek-R1「思維鏈學(xué)」(Thoughtology)


一個(gè)人所取得的成就,或未能達(dá)成的目標(biāo),都是其思想的直接結(jié)果。

——James Allen,《As a Man Thinketh》

模型的推理能力正在發(fā)生一種質(zhì)變——推理不再僅靠提示引導(dǎo),而是內(nèi)嵌在模型本身中。

類(lèi)似DeepSeek-R1這樣的「大推理模型」(Large Reasoning Models, LRM)標(biāo)志著LLMs處理復(fù)雜問(wèn)題方式的根本轉(zhuǎn)變。

DeepSeek-R1首次公開(kāi)推理過(guò)程,但是最受傷的是OpenAI。

OpenAI的o1(2024)是首個(gè)展示LRM巨大潛力的模型,但OpenAI并未公開(kāi)其推理過(guò)程。

所以R1一亮相就驚艷了世人,把o1拍死在沙灘上,也讓AI的競(jìng)爭(zhēng)之路選擇了開(kāi)源。

另外一個(gè)讓R1備受尊崇的原因就是成本,R1模型不僅在性能上可以與o1媲美,而且計(jì)算效率更高,成本更低,相信你還記得550萬(wàn)美元,只有o1的3%等數(shù)據(jù)。

而DeepSeek-R1最讓人興奮的原因依然還是開(kāi)源:不僅訓(xùn)練過(guò)程、代碼和模型權(quán)重對(duì)外公開(kāi);而且「思維過(guò)程」也面向所有人開(kāi)放。

研究團(tuán)隊(duì)稱(chēng)「DeepSeek-R1思維鏈的透明訪問(wèn)權(quán)」是一種獨(dú)特的研究機(jī)會(huì)!

研究人員借此可以系統(tǒng)性地分析其推理行為,最終形成「思維鏈學(xué)」(Thoughtology)。圖1.1展示了普通LLM和LRM輸出之間的對(duì)比。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

雖然LLM的輸出中可能包含一些中間推理過(guò)程,但它們通常不會(huì)探索不同的思路。

而一旦模型出錯(cuò),也無(wú)法回退并嘗試其它解法。

相比之下,LRM則通過(guò)探索與驗(yàn)證多個(gè)方案來(lái)進(jìn)行推理,最終總結(jié)出最佳解法。

DeepSeek-R1的訓(xùn)練細(xì)節(jié)

DeepSeek-R1的訓(xùn)練始于DeepSeek-V3。

DeepSeek-V3是一個(gè)專(zhuān)家混合模型(Mixture-of-Experts),其總參數(shù)規(guī)模為6710億,其中活躍參數(shù)為370億。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

圖2.1展示了DeepSeek-R1的多階段訓(xùn)練過(guò)程。 從左到右依次為:

  1. 通過(guò)GRPO的強(qiáng)化學(xué)習(xí)訓(xùn)練DeepSeek-R1-Zero模型;

  2. 使用DeepSeek-R1-Zero生成的鏈?zhǔn)剿季S(CoT)數(shù)據(jù)以及其他來(lái)源數(shù)據(jù)進(jìn)行SFT(從冷啟動(dòng)開(kāi)始);

  3. 在以推理為主的數(shù)據(jù)上再次使用GRPO的強(qiáng)化學(xué)習(xí);

  4. 在約60萬(wàn)條推理類(lèi)樣本和20萬(wàn)條非推理樣本上進(jìn)行SFT。需要注意的是,此階段是從DeepSeek-V3-base模型重新開(kāi)始訓(xùn)練的;

  5. 在包含安全訓(xùn)練在內(nèi)的多樣化提示分布上,通過(guò)GRPO進(jìn)行強(qiáng)化學(xué)習(xí)微調(diào)。

整個(gè)訓(xùn)練過(guò)程覆蓋了約14.8萬(wàn)億個(gè)token。在發(fā)布之時(shí)(2024年12月),V3被認(rèn)為是表現(xiàn)最好的大語(yǔ)言模型之一。

DeepSeek-R1的推理能力為什么那么「像人」

DeepSeek-R1是在一個(gè)復(fù)雜的多階段訓(xùn)練流程中構(gòu)建出來(lái)的。

在這個(gè)流程中,多個(gè)階段都大量使用了由前一階段模型生成的合成訓(xùn)練數(shù)據(jù)。

盡管目前關(guān)于DeepSeek-R1的具體訓(xùn)練數(shù)據(jù)披露較少(訓(xùn)練數(shù)據(jù)目前沒(méi)有開(kāi)源)。

但可以合理推測(cè),這些數(shù)據(jù)經(jīng)過(guò)了大量篩選,甚至部分樣本在生成后還經(jīng)過(guò)了人工修正,以體現(xiàn)特定的推理模式。

當(dāng)加入「人的」因素,推理過(guò)程像人就說(shuō)的過(guò)去了,畢竟只是純強(qiáng)化學(xué)習(xí)得到的R1-Zero也并沒(méi)有作為最終的產(chǎn)品發(fā)布。

在討論DeepSeek-R1所展現(xiàn)出的類(lèi)人推理能力時(shí),有必要意識(shí)到:這些推理模式很可能是受到數(shù)據(jù)篩選與監(jiān)督微調(diào)的強(qiáng)烈影響,而不僅僅是模型「自發(fā)」學(xué)習(xí)到類(lèi)似人類(lèi)的推理思維。

研究人員通過(guò)Together API調(diào)用DeepSeek-R1(共 6710 億參數(shù),所謂滿血版)進(jìn)行實(shí)驗(yàn)。

所有模型回復(fù)均采用溫度值0.6進(jìn)行采樣,且不設(shè)置生成token的最大數(shù)量限制。

DeepSeek-R1推理過(guò)程

在了解R1的推理過(guò)程時(shí),先來(lái)看看人類(lèi)是如何推理的。

在多個(gè)推理研究范式中,人類(lèi)推理過(guò)程通常包含一些共通的術(shù)語(yǔ)和階段。大概包括:

  1. 問(wèn)題定義:首先,需要簡(jiǎn)化任務(wù)中的相關(guān)信息,識(shí)別出給定條件、已知信息以及需要被推斷的未知信息。

  2. 初步反應(yīng):根據(jù)問(wèn)題的復(fù)雜程度,個(gè)體可能會(huì)借鑒類(lèi)似問(wèn)題的解決方法,或是運(yùn)用啟發(fā)式策略給出一個(gè)即時(shí)答案。

  3. 規(guī)劃:面對(duì)更難的問(wèn)題時(shí),通常會(huì)采取更具策略性和分析性的思考方法。規(guī)劃的復(fù)雜程度取決于任務(wù)的復(fù)雜性。

  4. 執(zhí)行與監(jiān)控:在執(zhí)行過(guò)程中,人們會(huì)不斷監(jiān)控自己的進(jìn)展和信心水平,以決定是否需要調(diào)整原計(jì)劃。監(jiān)控能力越強(qiáng),通常任務(wù)完成的質(zhì)量也越高。

  5. 重構(gòu):在解題過(guò)程中,個(gè)體可能需要調(diào)整原有的思路或?qū)κ澜绲募僭O(shè),以克服由于問(wèn)題理解錯(cuò)誤造成的卡頓。

  6. 解答驗(yàn)證:無(wú)論是使用啟發(fā)式還是策略性的方法,在得出答案之后,人類(lèi)通常會(huì)反思自己的思路和結(jié)果,確認(rèn)它是否符合題目的要求。

不知道是否你平時(shí)的思考過(guò)程,看完了人的,再來(lái)看看DeepSeek-R1的推理流程。

圖3.1是R1推理過(guò)程的可視化展示,并在圖3.2中提供了一個(gè)詳細(xì)的標(biāo)注示例。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

問(wèn)題定義(Problem Definition)

模型會(huì)重新表述問(wèn)題,通常以一句明確表達(dá)目標(biāo)的信息作為結(jié)尾,比如“我需要找出……”之類(lèi)的句式,來(lái)界定需要解決的內(nèi)容。

綻放周期(Blooming Cycle)

這是模型進(jìn)入的第一個(gè)主要推理階段,會(huì)將問(wèn)題拆解為若干子問(wèn)題,并嘗試給出一個(gè)中間答案。

研究人員將其稱(chēng)為“綻放周期”,因?yàn)檫@一階段通常最長(zhǎng),且集中在對(duì)問(wèn)題的結(jié)構(gòu)性分解上。

模型有時(shí)會(huì)表達(dá)對(duì)該答案的信心,常見(jiàn)句式如:“嗯,我來(lái)驗(yàn)證一下……”

重構(gòu)周期(Reconstruction Cycle)

這是后續(xù)的推理周期,模型會(huì)重新思考“綻放周期”中所做的處理,例如:“等等”、“換個(gè)角度來(lái)看”、“有沒(méi)有其他理解方式?”等。

之后模型可能會(huì)給出一個(gè)新的中間答案,且不一定每次都會(huì)明確表明信心程度。這個(gè)過(guò)程可能會(huì)重復(fù)多次。

最終決策(Final Decision)

模型最終得出結(jié)論,常見(jiàn)句式如“我現(xiàn)在比較有把握了……”,并直接給出最終答案。

下圖為推理鏈中的各個(gè)步驟進(jìn)行顏色分類(lèi)標(biāo)注。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

重點(diǎn)標(biāo)出了模型在「綻放周期」中對(duì)問(wèn)題初步拆解內(nèi)容的反復(fù)回顧。

這種反復(fù)思考和重新評(píng)估的行為被稱(chēng)為「反芻式思考」(rumination)。

下圖則展示了模型在四類(lèi)任務(wù)中的不同推理階段所花的平均時(shí)間。

從圖中可以看出,「問(wèn)題定義」和「最終決策」階段的時(shí)間基本一致。

不同任務(wù)之間最大的差異體現(xiàn)在「重構(gòu)周期」的時(shí)長(zhǎng)上。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

進(jìn)一步分析,從「綻放周期」開(kāi)始,每一個(gè)后續(xù)「重構(gòu)周期」的長(zhǎng)度。

圖3.4展示了關(guān)于數(shù)學(xué)推理任務(wù)的數(shù)據(jù),這是所有任務(wù)中推理鏈最長(zhǎng)、周期最多的任務(wù)。

觀察到大約每經(jīng)歷5個(gè)重構(gòu)周期,就會(huì)出現(xiàn)一次更長(zhǎng)的重構(gòu)周期。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

這些觀察說(shuō)明,DeepSeek-R1 在推理過(guò)程中不僅執(zhí)行問(wèn)題拆解,還在后續(xù)階段對(duì)已有結(jié)論進(jìn)行多輪審視,有時(shí)會(huì)進(jìn)行較深入的反思。

下圖展示了來(lái)自MATH-500的一個(gè)更加復(fù)雜的推理示例(為簡(jiǎn)化展示,用 […] 省略了部分內(nèi)容)。

可以看到一些「重新綻放」(re-bloom,黃色和橘色部分)——即模型對(duì)問(wèn)題進(jìn)行了新的拆解。

打開(kāi)網(wǎng)易新聞 查看精彩圖片
打開(kāi)網(wǎng)易新聞 查看精彩圖片

研究人員確定DeepSeek-R1 的推理過(guò)程具有高度結(jié)構(gòu)化的特征,在不同任務(wù)中展現(xiàn)出一致的行為模式。

多個(gè)維度深入DeepSeek-R1思維內(nèi)部

研究人員引入了一種新的分類(lèi)法來(lái)描述大規(guī)模語(yǔ)言模型(LRM)的推理鏈,并利用該分類(lèi)法識(shí)別DeepSeek-R1在各種任務(wù)中的關(guān)鍵優(yōu)勢(shì)和劣勢(shì)。

主要分為四個(gè)方面:

  • 思維長(zhǎng)度的影響和可控性

  • 模型在長(zhǎng)或混亂上下文中的行為

  • LRM的文化和安全問(wèn)題

  • LRM在認(rèn)知現(xiàn)象中的地位

下面分別展開(kāi)介紹。

思維長(zhǎng)度的影響和可控性

LLM推理能力的進(jìn)步帶來(lái)了范式上的重大轉(zhuǎn)變:推理時(shí)擴(kuò)展思維鏈的長(zhǎng)度,即在模型推理階段生成更長(zhǎng)的推理過(guò)程,從而提升性能。

DeepSeek-R1-Zero通過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練學(xué)會(huì)了逐步生成越來(lái)越長(zhǎng)的推理鏈。

盡管更長(zhǎng)的推理鏈可能意味著更復(fù)雜的思考能力,但DeepSeek-R1即便已經(jīng)得出正確答案,仍會(huì)反復(fù)進(jìn)行自我驗(yàn)證。

這引發(fā)了對(duì)模型推理效率的擔(dān)憂:更高的準(zhǔn)確率是否值得花費(fèi)更多的計(jì)算資源?

首先,分析推理鏈變長(zhǎng)是否能提升模型在數(shù)學(xué)推理任務(wù)中的表現(xiàn)。

實(shí)驗(yàn)對(duì)象為AIME-24,AIME-24是一個(gè)極具挑戰(zhàn)性的數(shù)學(xué)推理基準(zhǔn),要求得到數(shù)值解。實(shí)驗(yàn)將temperature設(shè)為1.0,token上限設(shè)為32000。

DeepSeek-R1在多個(gè)題目中表現(xiàn)出如下趨勢(shì):隨著思維鏈長(zhǎng)度的增加,模型性能先提升、達(dá)到一個(gè)峰值,然后隨著推理過(guò)程的進(jìn)一步拉長(zhǎng),準(zhǔn)確率反而下降。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

如圖4.5所示,在不受限制的情況下,DeepSeek-R1的推理鏈平均長(zhǎng)度高達(dá)1388 個(gè)token,顯得非常冗長(zhǎng)。

即便將輸出token數(shù)量減少近一半,模型性能也幾乎沒(méi)有下降。

因此,限制推理鏈長(zhǎng)度是一種兼顧高性能和高效率的有效方式。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

對(duì)于推理模型,設(shè)置合理的 token 限額,可以顯著降低推理成本,而性能幾乎不受影響。

模型在長(zhǎng)或混亂上下文中的能力

檢測(cè)一個(gè)LLM的上下文窗口能力,有一個(gè)叫做「大海撈針」(Needle-In-a-Haystack)的辦法。

通俗的講,就是海量文本中,能否找到預(yù)設(shè)那根「針」。

研究人員使用GPT-4o生成了一組包含 100 條「?jìng)€(gè)性化」事實(shí)的信息,這些事實(shí)不是常識(shí)性知識(shí)。

每條事實(shí)都被隨機(jī)插入到一段由CHASE-QA 任務(wù)文檔采樣構(gòu)成的、總長(zhǎng)度為12萬(wàn)個(gè)token的上下文中。

這條事實(shí)(即「針」)被隨機(jī)安置在上下文前10%-50%的位置。

在100個(gè)測(cè)試樣本中,DeepSeek-R1在NIH任務(wù)上取得了 95% 的準(zhǔn)確率。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

在查看模型具體輸出時(shí),也發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象:面對(duì)如此大規(guī)模的上下文時(shí),DeepSeek-R1 有時(shí)會(huì)「被淹沒(méi)」。

R1無(wú)法正確執(zhí)行指令,開(kāi)始生成不連貫的文本,甚至還會(huì)出現(xiàn)一些語(yǔ)境不符的中文內(nèi)容,如圖5.2所示。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

除了「搜索能力」,在長(zhǎng)上下文中,DeepSeek-R1是否能「忠于用戶」也是一個(gè)考驗(yàn)。

為了評(píng)估DeepSeek-R1是否忠實(shí)于上下文,測(cè)試它在接收到錯(cuò)誤信息(與其內(nèi)在知識(shí)沖突)或干擾性信息(與問(wèn)題無(wú)關(guān))時(shí)的反應(yīng)。

圖6.1展示了模型接受到錯(cuò)誤信息后,雖然最終采納了這個(gè)錯(cuò)誤信息,但在推理過(guò)程中它明確指出了知識(shí)之間的沖突,并且表示是根據(jù)用戶提供的信息進(jìn)行的判斷。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

DeepSeek-R1的文化和安全問(wèn)題

像DeepSeek-R1這樣的推理模型在帶來(lái)新的能力的同時(shí),也引發(fā)了新的安全風(fēng)險(xiǎn)。

LRM不斷增強(qiáng)的推理能力不僅可能在缺乏適當(dāng)安全機(jī)制的情況下被用于有害用途,還可能被進(jìn)行「越獄」攻擊。

使用HarmBench基準(zhǔn)評(píng)估 DeepSeek-R1在面對(duì)有害請(qǐng)求時(shí)的回應(yīng)及其推理過(guò)程。

評(píng)估內(nèi)容覆蓋HarmBench的六個(gè)類(lèi)別:化學(xué)與生物武器/毒品、網(wǎng)絡(luò)犯罪與非法入侵、騷擾、非法活動(dòng)、虛假信息和一般性危害。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

DeepSeek-R1 在所有類(lèi)別中對(duì)虛假信息類(lèi)請(qǐng)求最為脆弱,其有害回應(yīng)比例高達(dá) 58.8%。

再來(lái)看下DeepSeek-R1的推理能力是否可以被「越獄」攻擊。

研究人員發(fā)現(xiàn)DeepSeek-R1能巧妙地將惡意請(qǐng)求「?jìng)窝b」成表面上看似無(wú)害的內(nèi)容。

下圖展示請(qǐng)求獲取蓖麻毒素的配方被改寫(xiě)為寫(xiě)作一部虛構(gòu)小說(shuō)中「研究過(guò)程」的一部分。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

DeepSeek-R1在認(rèn)知中的表現(xiàn)

認(rèn)知是人類(lèi)特有的現(xiàn)象。

盡管像DeepSeek-R1這類(lèi)模型的推理鏈被譽(yù)為「思考」過(guò)程,這些推理鏈?zhǔn)欠裾娴呐c人類(lèi)認(rèn)知過(guò)程相同?

為了對(duì)比,研究人員設(shè)定了一個(gè)研究背景,即是否能夠正確解析和理解句子。

人類(lèi)是如何處理具有挑戰(zhàn)性的句子呢?——這些挑戰(zhàn)或源于詞序,或源于最終含義。

花園路徑句是人類(lèi)在初次解析時(shí)會(huì)感到困難的典型句子范例。

舉一個(gè)經(jīng)典例子,當(dāng)遇到句子「The horse raced past the barn fell」 (那匹跑過(guò)谷倉(cāng)的馬摔倒了)時(shí),人類(lèi)通常會(huì)首先將子句 「The horse raced past the barn」解析為馬在奔跑,而「past the barn」是對(duì)這一行為的補(bǔ)充描述。

然而,讀完整句話后,會(huì)出現(xiàn)另一種解讀,其中動(dòng)詞 「raced」被用作及物動(dòng)詞:即那匹被驅(qū)趕跑過(guò)谷倉(cāng)的馬摔倒了。

DeepSeek-R1在回應(yīng)涉及花園路徑句和錯(cuò)覺(jué)句的提示時(shí),其推理鏈更長(zhǎng),而這些句子會(huì)在人類(lèi)中引起更大的處理成本。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

如圖9.1所示,DeepSeek-R1分別在接收花園路徑句和非花園路徑句輸入時(shí)產(chǎn)生的推理鏈長(zhǎng)度分布。

平均而言,花園路徑句提示產(chǎn)生的推理鏈比其對(duì)應(yīng)的非花園路徑句提示產(chǎn)生的推理鏈更長(zhǎng)。

進(jìn)一步,推理能力能否擴(kuò)展到視覺(jué)或物理推理,或者統(tǒng)稱(chēng)為「世界建模」?

由于DeepSeek-R1沒(méi)有經(jīng)過(guò)圖像能力方面的訓(xùn)練,研究人員另辟蹊徑的使用了ASCII字符作為「視覺(jué)輸出」。

研究人員分析了DeepSeek-R1在4個(gè)ASCII藝術(shù)對(duì)象上的推理:狗和房子,這些在訓(xùn)練期間可能遇到過(guò);以及長(zhǎng)曲棍球棒和飛盤(pán)高爾夫籃,這些在互聯(lián)網(wǎng)上很少作為ASCII藝術(shù)出現(xiàn)。

下圖是DeepSeek-R1用ASCII碼畫(huà)出來(lái)的狗,你覺(jué)得像不像?

打開(kāi)網(wǎng)易新聞 查看精彩圖片

最終研究人員認(rèn)為DeepSeek-R1在生成簡(jiǎn)單的ASCII物理模擬方面表現(xiàn)不佳。

從DeepSeek-R1看推理模型的未來(lái)

It is better to debate a question without settling it than to settle a question without debating it.

允許問(wèn)題在辯論中懸而未決,勝于不經(jīng)辯論就強(qiáng)行定論。

——法國(guó)道德家、散文家約瑟夫·儒貝爾(Joseph Joubert)

研究人員總結(jié)了DeepSeek-R1的推理過(guò)程為為定義、拆分、綻放、重構(gòu),并從中分析了目前LRM的一些特點(diǎn)。

DeepSeek-R1的思維長(zhǎng)度往往過(guò)長(zhǎng),即使在看似簡(jiǎn)單的任務(wù)中也是如此。

「思考過(guò)度」使得DeepSeek-R1在部署時(shí)計(jì)算成本高昂,而且影響性能。而過(guò)度推理也會(huì)損害性能,或?qū)е峦评礞溸^(guò)長(zhǎng)以至于影響回憶。

由此可以提供一些未來(lái)LRM的發(fā)展方向建議,比如進(jìn)行「顯示過(guò)程監(jiān)控」,減少無(wú)效思考、識(shí)別錯(cuò)誤路徑等。

未來(lái)的研究應(yīng)注重提升模型的過(guò)程監(jiān)控能力、策略多樣性、推理忠實(shí)度以及安全性。

當(dāng)然這篇文章的研究也存在一定的局限性,比如部分分析是定性的,定量分析的數(shù)據(jù)規(guī)模因成本等因素受限,可能影響統(tǒng)計(jì)顯著性。

從產(chǎn)品的角度,缺乏與其他關(guān)鍵模型(如OpenAI o1)推理過(guò)程的直接比較。

同時(shí)由于DeepSeek-R1 的訓(xùn)練數(shù)據(jù)不透明,限制了對(duì)其行為根源的理解。

DeepSeek-R1的出現(xiàn)標(biāo)志著推理模型領(lǐng)域的一次重要突破,代表了AI推理能力的質(zhì)變。

與傳統(tǒng)的大型語(yǔ)言模型(LLM)相比,DeepSeek-R1將推理過(guò)程內(nèi)嵌在模型本身,推動(dòng)了從「 提示驅(qū)動(dòng)」到「 內(nèi)生推理」模式的轉(zhuǎn)變。

其推理鏈的設(shè)計(jì)使得模型能像人類(lèi)一樣,通過(guò)分階段、反復(fù)檢視的方式進(jìn)行問(wèn)題解決,從而展現(xiàn)出更高的推理深度和靈活性。

此外,DeepSeek-R1的開(kāi)源特性也為AI領(lǐng)域帶來(lái)了新的機(jī)遇。

與OpenAI的封閉系統(tǒng)不同,DeepSeek-R1的透明性讓研究者能夠深入分析其推理行為,并在此基礎(chǔ)上推進(jìn)思維鏈學(xué)(Thoughtology)的研究。

這不僅拓展了AI推理模型的應(yīng)用場(chǎng)景,也為模型優(yōu)化、推理效率提升及安全性增強(qiáng)提供了寶貴的研究基礎(chǔ)。

DeepSeek-R1不僅代表了推理模型技術(shù)的前沿,也為開(kāi)源創(chuàng)新、AI思維機(jī)制的深入理解提供了新方向。

作者介紹

Xing Han Lu

打開(kāi)網(wǎng)易新聞 查看精彩圖片

麥吉爾大學(xué)的博士生,同時(shí)在Mila機(jī)構(gòu)工作,研究方向是對(duì)話式網(wǎng)頁(yè)導(dǎo)航 ,在西瓦·雷迪博士的指導(dǎo)下。

學(xué)習(xí)期間,訪問(wèn)了ServiceNow Research,與Harm de Vries博士合作從事對(duì)話式表格檢索。

在此之前,在Plotly領(lǐng)導(dǎo)了各種機(jī)器學(xué)習(xí)(ML)舉措,并開(kāi)發(fā)了開(kāi)源庫(kù);在Deloitte從事摘要引擎工作;以及在麥吉爾臨床和健康信息學(xué)實(shí)驗(yàn)室研究用于稅收政策的機(jī)器學(xué)習(xí)。

參考資料:

https://x.com/xhluca/status/1911092393824100525