丁香六月亚洲激情,午夜福利日韩在线观看,日韩免费86av网址,精品夜夜久久久,美女视频黄a视频专区一

新智元報(bào)道

編輯：英智

【新智元導(dǎo)讀】大模型雖然推理能力增強(qiáng)，卻常常「想太多」，回答簡(jiǎn)單問(wèn)題也冗長(zhǎng)復(fù)雜。Rice大學(xué)的華人研究者提出高效推理概念，探究了如何幫助LLM告別「過(guò)度思考」，提升推理效率。

LLM的推理能力顯著增強(qiáng)，然而，這個(gè)「超級(jí)大腦」也有自己的煩惱。

有時(shí)候回答會(huì)繞好大一個(gè)圈子，推理過(guò)程冗長(zhǎng)又復(fù)雜，雖能得出正確答案，但耗費(fèi)了不少時(shí)間和計(jì)算資源。

比如問(wèn)它「2加3等于多少」，它可能會(huì)從數(shù)字的概念、加法原理開(kāi)始，洋洋灑灑說(shuō)上一大通，這在實(shí)際應(yīng)用中可太影響效率啦。

來(lái)自Rice大學(xué)的華人研究者提出了「高效推理」的概念，在保證回答準(zhǔn)確的同時(shí)，更快、更簡(jiǎn)潔地給出答案。

論文鏈接：https://arxiv.org/abs/2503.16419

項(xiàng)目鏈接：https://github.com/Eclipsess/Awesome-Efficient-Reasoning-LLMs

接下來(lái)，深入探討LLM的高效推理，幫它們告別「過(guò)度思考」。

別讓模型「想太多」，邁向高效推理

LLM通過(guò)思維鏈（CoT）提示等技術(shù)，在復(fù)雜推理任務(wù)中表現(xiàn)亮眼。

CoT就像是給模型裝上了「思考引擎」，讓它能一步一步地推導(dǎo)，把推理過(guò)程清晰地展現(xiàn)出來(lái)。

不過(guò)，這份出色的表現(xiàn)，需要消耗大量計(jì)算資源。

LLM經(jīng)常出現(xiàn)「過(guò)度思考」的情況，生成長(zhǎng)而冗余的推理內(nèi)容，增加了延遲和資源消耗。

本文聚焦于如何在提升或保持模型性能的同時(shí)，優(yōu)化推理過(guò)程，這對(duì)計(jì)算資源有限的實(shí)際場(chǎng)景十分重要。

研究者梳理了應(yīng)對(duì)「過(guò)度思考」，實(shí)現(xiàn)高效推理的技術(shù)手段：

基于模型的高效推理：即考慮將模型優(yōu)化為更簡(jiǎn)潔的推理模型，或直接訓(xùn)練高效推理模型。
基于推理輸出：旨在推理過(guò)程中動(dòng)態(tài)減少推理步驟和長(zhǎng)度。
基于輸入提示：根據(jù)輸入提示的屬性（如難度或長(zhǎng)度控制）提高推理效率。

此外，研究者還介紹了用高效數(shù)據(jù)訓(xùn)練推理模型，探索小模型的推理能力，并討論了評(píng)估方法和基準(zhǔn)測(cè)試。

認(rèn)識(shí)「過(guò)度思考」

LLM產(chǎn)生冗長(zhǎng)、不必要的推理過(guò)程時(shí)，就出現(xiàn)了「過(guò)度思考」現(xiàn)象。

在回答「0.9和0.11哪個(gè)大」這個(gè)簡(jiǎn)單的問(wèn)題時(shí)，DeepSeek-R1和QwQ-32B這兩個(gè)模型給出的答案都十分冗長(zhǎng)。

它可能會(huì)從十進(jìn)制的原理開(kāi)始，分析小數(shù)點(diǎn)后的每一位數(shù)字，還會(huì)嘗試用各種方法驗(yàn)證，比如轉(zhuǎn)化為分?jǐn)?shù)或在數(shù)軸上表示，最后才給出答案。

雖然答案是對(duì)的，但推理過(guò)程又長(zhǎng)又啰嗦，耗費(fèi)了大量時(shí)間和計(jì)算資源。

DeepSeek-R1：好的，我得判斷0.9和0.11誰(shuí)更大。它們都是小數(shù)，但小數(shù)點(diǎn)后的位數(shù)不一樣。我先想想每個(gè)小數(shù)的含義，0.9就是十分之九，因?yàn)樾?shù)點(diǎn)后第一位是十分位。等等，我換個(gè)方法確認(rèn)下，把它們轉(zhuǎn)成百分?jǐn)?shù)試試……為了確保沒(méi)錯(cuò)，我在數(shù)軸上表示一下吧。還有其他驗(yàn)證方法嗎？用減法好像也行……或者……我確定答案是0.9。（616字，19秒）

QwQ-32B：要找出0.9和0.11哪個(gè)大。它們是小數(shù)，逐位比較看看？我回憶下小數(shù)比較的規(guī)則……0.9 小數(shù)點(diǎn)后有1位，0.11有2位，寫(xiě)法上是不是要調(diào)整下……不對(duì)，我再檢查下，是不是哪里搞錯(cuò)了。換個(gè)思路……另一種方法是……最終答案是0.9更大。（602字，42秒）

從這個(gè)例子，能看出「過(guò)度思考」的幾個(gè)特點(diǎn)：回答簡(jiǎn)單問(wèn)題，兩個(gè)模型都寫(xiě)了600多字。推理過(guò)程中有很多重復(fù)、多余的驗(yàn)證方法。

推理內(nèi)容越長(zhǎng)，處理所需的時(shí)間就越多。模型會(huì)反復(fù)懷疑自己的推理過(guò)程。

在資源有限的環(huán)境，或像自動(dòng)駕駛、智能交互助手這類(lèi)需要實(shí)時(shí)響應(yīng)的應(yīng)用場(chǎng)景中，「過(guò)度思考」帶來(lái)的效率低下問(wèn)題就會(huì)格外突出。

開(kāi)啟高效推理

高效推理方法有以下三類(lèi)，基于模型的有效推理、針對(duì)結(jié)果的優(yōu)化和借助輸入提示的有效推理。

基于模型的有效推理

一種有效的做法是在RL中加入長(zhǎng)度獎(jiǎng)勵(lì)，引導(dǎo)它生成簡(jiǎn)潔的推理。

以前，模型訓(xùn)練的時(shí)候主要關(guān)注答案是否正確、格式是否規(guī)范?，F(xiàn)在研究人員給它加了一個(gè)新的「考核指標(biāo)」——推理長(zhǎng)度。

就像老師不僅要求學(xué)生答對(duì)題，還要求答題過(guò)程簡(jiǎn)潔明了。

獎(jiǎng)勵(lì)函數(shù)通常是這樣的：

其中α用來(lái)調(diào)節(jié)長(zhǎng)度懲罰在獎(jiǎng)勵(lì)函數(shù)中的權(quán)重，R_length是根據(jù)推理響應(yīng)長(zhǎng)度設(shè)置的懲罰項(xiàng)，計(jì)算方式如下：

模型為了獲得更多獎(jiǎng)勵(lì)，就會(huì)在保證答案準(zhǔn)確的同時(shí)，盡量少用token。

利用可變長(zhǎng)度的CoT數(shù)據(jù)進(jìn)行監(jiān)督微調(diào)，也是提升推理效率的有效方法。

這就好比給模型提供了不同難度和長(zhǎng)度的「練習(xí)題」，讓它學(xué)會(huì)靈活應(yīng)對(duì)各種情況。

訓(xùn)練數(shù)據(jù)中既有完整詳細(xì)的推理鏈，也有簡(jiǎn)短、高效的推理路徑。

通過(guò)這些示例，模型就能學(xué)會(huì)在不降低準(zhǔn)確性的前提下，采用更簡(jiǎn)潔高效的推理模式。

在微調(diào)模型的時(shí)候，既可以采用像LoRA這樣的標(biāo)準(zhǔn)微調(diào)方法，對(duì)模型參數(shù)進(jìn)行小范圍的調(diào)整；也可以采用漸進(jìn)式微調(diào)，讓模型慢慢適應(yīng)新的思考節(jié)奏，逐步提高推理效率。

優(yōu)化推理輸出，精簡(jiǎn)思考過(guò)程

從推理輸出的角度，研究人員嘗試通過(guò)創(chuàng)新的方式來(lái)壓縮推理步驟，讓模型的「思考過(guò)程」更加精簡(jiǎn)。

這些方法不改變模型的參數(shù)，直接對(duì)推理輸出的結(jié)果進(jìn)行優(yōu)化。

潛在推理技術(shù)能把推理步驟壓縮為更精簡(jiǎn)的表達(dá)形式，圖中展示了多種以更高效的格式編碼的潛在推理方法：

Coconut：在訓(xùn)練過(guò)程中，逐漸減少推理內(nèi)容的冗長(zhǎng)部分。
CODI：運(yùn)用自蒸餾的方式，壓縮推理內(nèi)容。
CCOT：把CoT推理壓縮為潛在表征。
SoftCoT：借助小型輔助模型，將潛在思維投射到較大的模型中。

這些方法通常會(huì)用到嵌入函數(shù)，把冗長(zhǎng)的推理內(nèi)容映射到一個(gè)更緊湊的空間里，用公式表示就是：

E_compact是壓縮后的推理表示，f是學(xué)習(xí)到的變換函數(shù)。

除了利用潛在表示，在推理過(guò)程中動(dòng)態(tài)調(diào)整推理策略也是提高效率的關(guān)鍵。

動(dòng)態(tài)推理會(huì)根據(jù)每個(gè)問(wèn)題的具體情況，按需生成推理步驟，圖中介紹了兩種典型的技術(shù)。

在獎(jiǎng)勵(lì)引導(dǎo)方面，推測(cè)拒絕優(yōu)化了最佳N解碼算法。在生成多個(gè)響應(yīng)的過(guò)程中，根據(jù)獎(jiǎng)勵(lì)模型的評(píng)估，及時(shí)丟棄低質(zhì)量的輸出，減少不必要的計(jì)算開(kāi)銷(xiāo)。

面對(duì)復(fù)雜問(wèn)題時(shí)，它會(huì)先大量生成可能的推理路徑，然后快速排除那些沒(méi)有希望的路徑，只保留高質(zhì)量的路徑繼續(xù)推理，大大提高了推理效率。

這兩種技術(shù)的核心思路都是，根據(jù)問(wèn)題的復(fù)雜程度靈活調(diào)整推理深度，用公式表示為：

借助輸入提示，巧妙引導(dǎo)思考
從輸入提示的角度入手，也能讓模型推理變得更高效。

長(zhǎng)度約束提示簡(jiǎn)單又實(shí)用，直接在提示里要求模型控制推理長(zhǎng)度，比如「用不超過(guò)10個(gè)token回答下面的問(wèn)題」。

CoD方法則讓模型在逐步推理時(shí)，只保留每個(gè)思考步驟的最少草稿，最多用五個(gè)單詞。

比如在解答數(shù)學(xué)題時(shí)，模型不再詳細(xì)寫(xiě)出每一步的推導(dǎo)過(guò)程，而是用簡(jiǎn)潔的幾個(gè)詞概括關(guān)鍵思路，這樣在保證準(zhǔn)確性的同時(shí)，大大減少了token的使用。

不同的任務(wù)難度不同，對(duì)推理的要求也不一樣。

因此，根據(jù)輸入提示的屬性進(jìn)行推理路由也是一種提高效率的策略。

RouteLLM訓(xùn)練了一個(gè)查詢(xún)路由器，它根據(jù)問(wèn)題的復(fù)雜性將查詢(xún)分配給合適的模型。

簡(jiǎn)單的問(wèn)題就交給速度快但推理能力較弱的模型處理，復(fù)雜的問(wèn)題則交給能力更強(qiáng)的模型，這樣可以充分發(fā)揮不同模型的優(yōu)勢(shì)，提高整體推理效率。

Self-Ref方法讓LLM能根據(jù)自身的不確定性分?jǐn)?shù)來(lái)決定是否需要路由到更強(qiáng)大的模型。

如果模型對(duì)自己的答案不太確定，就會(huì)自動(dòng)尋求更強(qiáng)大模型的幫助，減少不必要的推理步驟。

其他探索

除了上述方向，研究人員還在數(shù)據(jù)、模型和評(píng)估等方面進(jìn)行了深入探索，以進(jìn)一步提升LLM的推理效率。

用更少數(shù)據(jù)，辦更多事

很多研究發(fā)現(xiàn)，訓(xùn)練數(shù)據(jù)的質(zhì)量和結(jié)構(gòu)，對(duì)模型的高效推理能力影響很大。

通過(guò)精心挑選和組織訓(xùn)練數(shù)據(jù)，即使數(shù)據(jù)量少，也能讓模型有出色的表現(xiàn)。

數(shù)據(jù)多樣性：讓模型接觸各種推理模式和問(wèn)題類(lèi)型。
數(shù)據(jù)質(zhì)量：選擇高質(zhì)量的樣本，而不只追求數(shù)量多。
推理結(jié)構(gòu)：明確教模型逐步推理，而不是直覺(jué)推理。

LIMO打破了傳統(tǒng)的觀念，不再追求數(shù)據(jù)的數(shù)量，而是專(zhuān)注于質(zhì)量。

它會(huì)從難度、通用性和知識(shí)多樣性等方面挑選高質(zhì)量的問(wèn)題，然后再配上結(jié)構(gòu)合理、驗(yàn)證嚴(yán)格的解決方案。

用這精心挑選的817個(gè)樣本，LIMO訓(xùn)練出來(lái)的模型就能超越那些用了10多萬(wàn)個(gè)樣本訓(xùn)練的模型，是不是很厲害？

S2R給LLM注入了自我驗(yàn)證和自我糾正的能力，就像給模型請(qǐng)了一個(gè)私人教練。

它先在一個(gè)精心挑選的數(shù)據(jù)集上對(duì)模型進(jìn)行微調(diào)，讓模型初步具備這些能力，然后再通過(guò)RL進(jìn)一步提升。

只用了3100個(gè)初始化樣本，S2R微調(diào)后的模型在推理任務(wù)中的表現(xiàn)，比很多用大量長(zhǎng)CoT蒸餾數(shù)據(jù)訓(xùn)練的模型還要好。

小模型的「逆襲之路」

LLM雖然能力很強(qiáng)，但它對(duì)計(jì)算資源的要求也很高，在一些資源有限的場(chǎng)景里就有點(diǎn)施展不開(kāi)。

這時(shí)候，小語(yǔ)言模型（SLM）就有了用武之地。

不過(guò)，要讓SLM在有限的資源下也能有強(qiáng)大的推理能力，還得給它來(lái)點(diǎn)「特殊訓(xùn)練」。

知識(shí)蒸餾是提升SLM推理能力的重要方法，簡(jiǎn)單來(lái)說(shuō)，就是把LLM的智慧傳遞給SLM。

混合蒸餾就像是把不同的「知識(shí)精華」混合在一起，有的把長(zhǎng)、短CoT推理示例混合，有的把CoT和PoT（Program of Thought）結(jié)合，讓SLM能吸收更全面的知識(shí)。

反事實(shí)蒸餾則像是給SLM創(chuàng)造了一些假設(shè)情境，通過(guò)對(duì)原始問(wèn)題進(jìn)行特殊處理，生成多視角的CoT，讓SLM從不同角度學(xué)習(xí)知識(shí)。

還有反饋驅(qū)動(dòng)的蒸餾技術(shù)，它會(huì)不斷優(yōu)化蒸餾數(shù)據(jù)集，像給SLM提供越來(lái)越精準(zhǔn)的學(xué)習(xí)資料。

另外，一些方法還把探測(cè)和檢索機(jī)制融入蒸餾過(guò)程，或者在蒸餾時(shí)讓模型根據(jù)任務(wù)動(dòng)態(tài)調(diào)整推理策略，這些都幫助SLM更好地學(xué)習(xí)LLM的推理能力。

評(píng)估推理能力

評(píng)估高效推理，需要綜合考慮準(zhǔn)確性和推理效率：

準(zhǔn)確性：看最終給出的答案是否正確。
效率：token使用數(shù)量、推理花費(fèi)的時(shí)間、消耗的計(jì)算資源。

實(shí)際評(píng)估時(shí)，通常會(huì)先把效率指標(biāo)標(biāo)準(zhǔn)化處理，再和準(zhǔn)確性指標(biāo)結(jié)合起來(lái)，形成一個(gè)綜合指標(biāo)：

既獎(jiǎng)勵(lì)正確性，又鼓勵(lì)推理的簡(jiǎn)潔性。

Sys2Bench涵蓋了算術(shù)、邏輯、常識(shí)、算法和規(guī)劃等多個(gè)領(lǐng)域的任務(wù)，用11個(gè)不同的數(shù)據(jù)集對(duì)LLM進(jìn)行全方位的測(cè)試。

通過(guò)這個(gè)測(cè)試，發(fā)現(xiàn)僅靠增加推理時(shí)的計(jì)算資源，并不能讓模型在所有任務(wù)中都表現(xiàn)出色，提升LLM的推理能力需要多種方法結(jié)合。

還有一些研究專(zhuān)門(mén)考察不同的推理策略對(duì)模型性能的影響，以及測(cè)試時(shí)擴(kuò)展（TTS）策略和模型性能之間的關(guān)系。

對(duì)LLM的過(guò)度思考問(wèn)題，也有專(zhuān)門(mén)的評(píng)估方法。

研究人員開(kāi)發(fā)了一個(gè)評(píng)估框架，可以深入分析模型的推理過(guò)程，找出像分析癱瘓、異常行為和過(guò)早放棄等模式。

他們提出了「過(guò)度思考分?jǐn)?shù)」，就像是一個(gè)健康指標(biāo)，分?jǐn)?shù)越高，說(shuō)明模型過(guò)度思考的問(wèn)題越嚴(yán)重，任務(wù)性能就越差。

通過(guò)選擇過(guò)度思考分?jǐn)?shù)低的解決方案，可以讓模型性能提高30%，同時(shí)降低43%的計(jì)算開(kāi)銷(xiāo)。

參考資料：

https://www.alphaxiv.org/overview/2503.16419

国产黄片av免费_在线观看看片_www第一精品久久久_成人毛片18女人毛片免_日日摸夜夜操av_国产精品热久久久久夜色精品三区 _中文字幕日韩欧美精品在线_欧美高清另类hdvideosex

LLM「想太多」有救了！高效推理讓大模型思考過(guò)程更精簡(jiǎn)

熱搜

熱門(mén)跟貼

国产黄片av免费_在线观看看片_www第一精品久久久_成人毛片18女人毛片免_日日摸夜夜操av_国产精品热久久久久夜色精品三区 _中文字幕日韩欧美精品在线_欧美高清另类hdvideosex

熱搜

熱門(mén)跟貼

相關(guān)推薦

請(qǐng)不要繼續(xù)盲目使用DeepSeek R1和QWQ等推理模型進(jìn)行RAG（檢索增強(qiáng)生成）

Llama 4首測(cè)來(lái)襲，多模態(tài)驚艷代碼卻翻車(chē)

1000萬(wàn)上下文+2880億參數(shù)的Llama4，卻讓DeepSeek們松了一口氣

Meta發(fā)布Llama 4系列模型，參數(shù)高達(dá)2萬(wàn)億

川普

一文看懂RFM：模型計(jì)算，分析思路，業(yè)務(wù)價(jià)值

多維表格+DeepSeek R1：批量處理信息的10倍速技巧

普通人逆襲神器！DeepSeek的5個(gè)超實(shí)用技巧，看完就能用！

3秒寫(xiě)出萬(wàn)字算法，當(dāng)DeepSeek玩起手游抽卡后，網(wǎng)友：真的懂行！

物理讓其感受知識(shí)力量，仿佛能解釋萬(wàn)物，這操作你真的看懂了嗎！

倆學(xué)霸穩(wěn)定輸出，精準(zhǔn)總結(jié)

智能大模型的應(yīng)用場(chǎng)景，直接用來(lái)哄孩子，以后別怪孩子不養(yǎng)你

Meta深夜開(kāi)源Llama 4！首次采用MoE，驚人千萬(wàn)token上下文，競(jìng)技場(chǎng)超越DeepSeek

美國(guó)生物數(shù)據(jù)庫(kù)禁止中國(guó)用戶(hù)使用，業(yè)內(nèi)人士：中國(guó)早有應(yīng)對(duì)預(yù)案

科學(xué)家發(fā)現(xiàn)AEI能提高催化劑層轉(zhuǎn)化活性，且能更好避免形成碳酸鹽

數(shù)學(xué)課兩名，同學(xué)展示中國(guó)算法，和印度算法！

臺(tái)名嘴談川普關(guān)稅大棒背后的邏輯

想破腦袋都不知道簡(jiǎn)便算法！不行就用計(jì)算器吧

共情泡沫：數(shù)字時(shí)代的集體幻覺(jué)與真實(shí)痛感

從春招市場(chǎng)看人工智能產(chǎn)業(yè)人才供需（經(jīng)濟(jì)新方位·從就業(yè)看產(chǎn)業(yè)）

Llama 4首測(cè)來(lái)襲，多模態(tài)驚艷代碼卻翻車(chē)

一文看懂RFM：模型計(jì)算，分析思路，業(yè)務(wù)價(jià)值

普通人逆襲神器！DeepSeek的5個(gè)超實(shí)用技巧，看完就能用！

3秒寫(xiě)出萬(wàn)字算法，當(dāng)DeepSeek玩起手游抽卡后，網(wǎng)友：真的懂行！

物理讓其感受知識(shí)力量，仿佛能解釋萬(wàn)物，這操作你真的看懂了嗎！

倆學(xué)霸穩(wěn)定輸出，精準(zhǔn)總結(jié)

智能大模型的應(yīng)用場(chǎng)景，直接用來(lái)哄孩子，以后別怪孩子不養(yǎng)你

Meta深夜開(kāi)源Llama 4！首次采用MoE，驚人千萬(wàn)token上下文，競(jìng)技場(chǎng)超越DeepSeek

科學(xué)家發(fā)現(xiàn)AEI能提高催化劑層轉(zhuǎn)化活性，且能更好避免形成碳酸鹽

數(shù)學(xué)課兩名，同學(xué)展示中國(guó)算法，和印度算法！

想破腦袋都不知道簡(jiǎn)便算法！不行就用計(jì)算器吧