国产麻豆成人久久,女人高潮被爽到呻吟在线,精品少妇人妻久久免费,国产精品久久久三级18,感觉男女在线视频观看

允中發(fā)自凹非寺
量子位 | 公眾號 QbitAI

拋棄替代損失函數(shù)，僅需優(yōu)化原始目標(biāo)，強(qiáng)化學(xué)習(xí)新范式來了:

消除critic和reference模型，避免KL散度約束；解決優(yōu)勢函數(shù)和梯度估計兩個偏差。

來自阿里-高德地圖的團(tuán)隊提出了一種相當(dāng)簡單的強(qiáng)化學(xué)習(xí)訓(xùn)練新方法：組策略梯度優(yōu)化GPG（Group Policy Gradient）。

GPG開創(chuàng)性地從底層重構(gòu)強(qiáng)化學(xué)習(xí)訓(xùn)練框架，僅需優(yōu)化原始目標(biāo)，解決已有方法偏差，提高訓(xùn)練效率。革新強(qiáng)化學(xué)習(xí)訓(xùn)練流程，推動智能體性能突破。

在實驗中，GPG在單模態(tài)和多模態(tài)兩類任務(wù)中表現(xiàn)遙遙領(lǐng)先，其極簡架構(gòu)與高性能表現(xiàn)，有望成為下一代基礎(chǔ)模型訓(xùn)練的關(guān)鍵方法。

以下是更多GPG有關(guān)細(xì)節(jié)。

一、背景介紹

近年來，以O(shè)penAI和DeepSeek R1為代表的LLMs模型表現(xiàn)亮眼，深究成功背后，是強(qiáng)化微調(diào)技術(shù)（RFT）聯(lián)合現(xiàn)有強(qiáng)化學(xué)習(xí)方法（如PPO、GPPO）在激勵模型構(gòu)建嚴(yán)謹(jǐn)?shù)耐评礞溕习l(fā)揮了關(guān)鍵作用。

但在面對高昂的訓(xùn)練成本與性能平衡，主流方法PPO也陷入巨大瓶頸，與此同時，其他研究團(tuán)隊也在嘗試使用ReMax、GRPO等簡化訓(xùn)練流程，并在性能上取得了很大的突破，但他們都依然存在一些問題。

研究團(tuán)隊認(rèn)為，當(dāng)前針對RL算法的優(yōu)化都在圍繞替代損失函數(shù)展開，但兩個核心問題始終懸而未決：

1.能否繞過替代策略，直接優(yōu)化原始目標(biāo)函數(shù)？
2.如何最大限度簡化學(xué)習(xí)策略的設(shè)計？

由此，團(tuán)隊提出了GPG，其核心創(chuàng)新包括：

直接目標(biāo)優(yōu)化：摒棄傳統(tǒng)替代損失函數(shù)設(shè)計，直接優(yōu)化原始強(qiáng)化學(xué)習(xí)目標(biāo)，突破算法效率瓶頸。
極簡訓(xùn)練架構(gòu)：無需評論模型和參考模型支持，擺脫分布約束，為模型擴(kuò)展性提供更大空間。
精準(zhǔn)梯度估計技術(shù)（AGE）：首次揭示現(xiàn)有方法的獎勵偏差問題，提出輕量化且高精度的梯度估計方案，顯著提升策略穩(wěn)定性。
單模態(tài)多模態(tài)任務(wù)SOTA驗證：在數(shù)學(xué)推理、視覺理解、跨模態(tài)推理等任務(wù)中，GPG性能全面超越現(xiàn)有方法，驗證其通用性與魯棒性。

二、組策略梯度GPG方法

1）方法對比

各種強(qiáng)化學(xué)習(xí)方法的比較，作者以最簡單的形式解釋：

下面是GPG方法和已有RL方法各個模塊的對比：

2）GPG方法

GPG旨在解決在沒有價值模型的情況下，策略梯度估計中的高方差問題。通過利用group-level的獎勵，GPG穩(wěn)定了訓(xùn)練過程并增強(qiáng)了強(qiáng)化學(xué)習(xí)訓(xùn)練的魯棒性。

具體而言，GPG利用每個Group內(nèi)的平均獎勵來歸一化獎勵，從而有效降低方差。這個方法可以移除傳統(tǒng)的價值模型，從而簡化了訓(xùn)練過程并提高了計算效率。 GPG的名稱反映了作者方法核心機(jī)制，即利用group-level的平均獎勵來穩(wěn)定和優(yōu)化學(xué)習(xí)。

GPG的核心優(yōu)化目標(biāo)定義為：

作者提出的GPG方法通過組內(nèi)優(yōu)勢函數(shù)計算梯度校正機(jī)制實現(xiàn)了高效穩(wěn)定的策略優(yōu)化。在優(yōu)勢函數(shù)設(shè)計上，采用組內(nèi)獎勵均值歸一化方法

3）現(xiàn)有RL方法中的兩個bias

優(yōu)勢函數(shù)中的bias

組內(nèi)樣本全對全錯時，引入梯度估計的bias

針對組內(nèi)全對/全錯樣本的梯度估計bias問題，GPG創(chuàng)新性地引入動態(tài)梯度校正因子。

實驗表明該機(jī)制可使模型準(zhǔn)確率從43.9%提升至47.8%，顯著改善訓(xùn)練穩(wěn)定性。

三、實驗

1）在單模態(tài)數(shù)據(jù)集上的結(jié)果

2）在多模態(tài)數(shù)據(jù)集上的結(jié)果

四、結(jié)論

在本文中，作者介紹了GPG，它有效地解決了強(qiáng)化微調(diào)方法（如PPO和GRPO）中現(xiàn)有的關(guān)鍵挑戰(zhàn)。

通過將基于組內(nèi)的決策動態(tài)直接納入標(biāo)準(zhǔn)的PG方法，GPG簡化了訓(xùn)練過程，并顯著減少了計算開銷，而不削弱模型效果。這一突破為訓(xùn)練能夠進(jìn)行復(fù)雜推理的先進(jìn)LLM提供了更高效的框架，從而為更具資源效率和可擴(kuò)展性的人工智能系統(tǒng)做出了貢獻(xiàn)。

此外，團(tuán)隊將本文代碼全面開源，希望促進(jìn)技術(shù)透明化發(fā)展，也鼓勵更多人參與到該項工作中來。

論文鏈接：https://arxiv.org/pdf/2504.02546
代碼鏈接：https://github.com/AMAP-ML/GPG