
新智元報(bào)道
編輯:編輯部 YZH
【新智元導(dǎo)讀】昆侖萬(wàn)維Skywork-R1V 2.0版本,開源了!這一次,它的多模態(tài)推理實(shí)現(xiàn)了再進(jìn)化,成為最強(qiáng)高考數(shù)理解題利器,直接就是985水平。而團(tuán)隊(duì)也大方公開了各項(xiàng)技術(shù)秘籍,亮點(diǎn)滿滿??梢哉f,R1V 2.0已成為團(tuán)隊(duì)AGI之路上的又一里程碑。
就在剛剛,全球首個(gè)工業(yè)界多模態(tài)推理模型Skywork-R1V,再次重磅升級(jí)!
此前,R1V 1.0首次成功實(shí)現(xiàn)了「強(qiáng)文本推理能力向視覺模態(tài)的遷移」,才短短一個(gè)月后,Skywork-R1V 2.0就強(qiáng)勢(shì)上線了。
現(xiàn)在,R1V 2.0的所有資源已全面開源,可以預(yù)見,多模態(tài)推理社區(qū)將迎來(lái)新一輪發(fā)展。

模型權(quán)重:https://huggingface.co/Skywork/Skywork-R1V2-38B
技術(shù)報(bào)告:https://arxiv.org/abs/2504.16656
代碼倉(cāng)庫(kù):https://github.com/SkyworkAI/Skywork-R1V
可以說,R1V 2.0的誕生,不僅推動(dòng)了開源多模態(tài)大模型在能力邊界上的突破,更為多模態(tài)智能體的搭建提供了全新的基座模型!
R1V 2.0參加高考,已是優(yōu)秀的985選手
可以毫不夸張地說,R1V 2.0是目前最好、最開放的開源多模態(tài)推理模型。
話不多說,我們直接給它上高考題。
首先,就是2022江蘇的高考物理真題。

R1V2.0拿到題后,開啟了思考模式。
首先,它回憶了一下法拉第電磁感應(yīng)定律的內(nèi)容,然后分析了題目的具體條件,得出結(jié)論:關(guān)鍵點(diǎn)就在于,確定哪個(gè)區(qū)域內(nèi)的磁場(chǎng)變化會(huì)對(duì)產(chǎn)生電動(dòng)勢(shì)起作用。
代入法拉第定律后,模型計(jì)算得出了感應(yīng)電動(dòng)勢(shì)的大小。然后還進(jìn)行了一番額外思考,確定選A沒錯(cuò)。


再來(lái)看2021年的一道高考物理真題。

在經(jīng)過嚴(yán)謹(jǐn)而詳細(xì)的分析后,R1V 2.0給出了正確的推理和答案。
接下來(lái),是2022廣東高考物理卷。

經(jīng)過思考后,模型得出結(jié)論:每個(gè)線圈的電動(dòng)勢(shì)振幅可能只與匝數(shù)相關(guān),而頻率則完全一致,因?yàn)樗鼈児蚕硗吹拇艌?chǎng)變化來(lái)源,因而選項(xiàng)B是對(duì)的。
在后續(xù)分析中,它還相繼排除了其他答案的正確性。


下面是一道生物選擇題,來(lái)自2022年的福州模擬生物卷。

在思考過程中,模型首先回顧了隱性突變、等位基因等基本概念。
然后逐步判斷出,選項(xiàng)B是錯(cuò)誤的,因?yàn)樗雎粤瞬迦胍鸬囊拼a效應(yīng)所導(dǎo)致的更多氨基酸變化。

而后,它還逐一分析出,選項(xiàng)A、C、D都是正確的。

2022年的福建高考化學(xué)選擇題,模型也給出了正確選項(xiàng)B。

它經(jīng)過思考,逐一判斷出了A、C、D的錯(cuò)誤在哪里。
總之,面對(duì)圖文并茂、邏輯復(fù)雜的高考題目,R1V 2.0展現(xiàn)出了完整的圖像理解與推理能力,答案準(zhǔn)確率極高,充分展示了自己的實(shí)戰(zhàn)水平。
可以說,現(xiàn)在就是直接讓R1V 2.0去參加高考,考上985也不在話下了。
數(shù)學(xué)推理、編程能力,又有顯著躍升
總的來(lái)說,R1V 2.0不僅在高考難題的深度推理中表現(xiàn)出色,還在通用任務(wù)場(chǎng)景中展現(xiàn)出強(qiáng)大的廣度。
它真正實(shí)現(xiàn)了「深度+廣度」統(tǒng)一,成為開源多模態(tài)模型新標(biāo)桿。
在多個(gè)權(quán)威基準(zhǔn)測(cè)試中,R1V 2.0相較于R1V 1.0在文本與視覺推理任務(wù)中均實(shí)現(xiàn)顯著躍升。
在數(shù)學(xué)推理、編程競(jìng)賽、科學(xué)分析這類專業(yè)領(lǐng)域,以及創(chuàng)意寫作、開放式問答這類通用任務(wù),它的表現(xiàn)都令人眼前一亮。
在視覺能力上,R1V 2.0的視覺理解和深度思考能力讓人印象深刻。
它在MMMU上拿下了73.6分的開源SOTA;在Olympiad Bench上以62.6分遙遙領(lǐng)先;并在MathVision,MMMU-PRO與MathVista等視覺推理榜單上,都取得極佳的成績(jī),在開源模型中一騎絕塵,甚至可以追平部分閉源商業(yè)模型。

R1V2.0的視覺推理能力,在開源模型中明顯脫穎而出

R1V2.0已有潛力追趕閉源模型
而在文本推理方面,在AIME2024和LiveCodeBench等挑戰(zhàn)中,R1V 2.0直接拿下了78.9和63.6的高分,表現(xiàn)出的數(shù)學(xué)和代碼理解能力,已經(jīng)達(dá)到了人類專家級(jí)別。

與專業(yè)推理模型相比,R1V2.0展現(xiàn)出良好文本推理能力
下圖中,是一道高考幾何題,R1V 2.0在理解題干基礎(chǔ)上,還要理解圖中幾何要素,然后根據(jù)視覺推理,逐步得出正確的答案。

如此可見,R1V2.0是目前最兼顧視覺和文本推理,且最開放的開源多模態(tài)推理模型之一。
突破性技術(shù)創(chuàng)新,持續(xù)迭代
多模態(tài)大模型,如何在「深度推理」和「通用能力」上取得最佳平衡?
這個(gè)問題,已經(jīng)在業(yè)界被多次提出。
過度集中于推理任務(wù)的訓(xùn)練,可能就會(huì)犧牲模型在通用任務(wù)上的泛化能力。
昆侖萬(wàn)維團(tuán)隊(duì)對(duì)此進(jìn)行了深入探索,他們的對(duì)策是——引入全新的多模態(tài)獎(jiǎng)勵(lì)模型Skywork?VL Reward及規(guī)則驅(qū)動(dòng)的混合強(qiáng)化訓(xùn)練機(jī)制。
它們?cè)陲@著增強(qiáng)推理能力的同時(shí),進(jìn)一步穩(wěn)固了模型在多任務(wù)、多模態(tài)場(chǎng)景中的穩(wěn)定表現(xiàn)與泛化能力。
為多模態(tài)、強(qiáng)化學(xué)習(xí)而生的獎(jiǎng)勵(lì)模型
強(qiáng)化學(xué)習(xí)在VLM領(lǐng)域之所以難以進(jìn)一步發(fā)展,關(guān)鍵瓶頸就在于多模態(tài)獎(jiǎng)勵(lì)模型的缺乏,因?yàn)楝F(xiàn)有的獎(jiǎng)勵(lì)建模方法,多聚焦于純文本。
為此,昆侖萬(wàn)維推出了融合多模態(tài)推理與通用獎(jiǎng)勵(lì)模型的Skywork-VL Reward——不僅支持多元化獎(jiǎng)勵(lì)判別,還可覆蓋各種任務(wù)場(chǎng)景。
憑借獨(dú)特設(shè)計(jì)與強(qiáng)大性能,它既可為通用視覺語(yǔ)言模型(VLM)提供高質(zhì)量獎(jiǎng)勵(lì)信號(hào),又能精準(zhǔn)評(píng)估多模態(tài)推理模型長(zhǎng)序列輸出的整體質(zhì)量,一舉成為多模態(tài)強(qiáng)化學(xué)習(xí)任務(wù)中的「殺手锏」。
目前,7B權(quán)重和詳細(xì)技術(shù)報(bào)告全面開源。

模型權(quán)重:https://huggingface.co/Skywork/Skywork-VL-Reward-7B
技術(shù)報(bào)告:https://github.com/SkyworkAI/Skywork-R1V/blob/main/SkyworkVL_RM.pdf
在多個(gè)專業(yè)評(píng)測(cè)榜單中,Skywork-VL Reward的表現(xiàn)都極其突出。
在視覺獎(jiǎng)勵(lì)模型VL-RewardBench基準(zhǔn)上,它取得73.1的SOTA,同時(shí)在純文本獎(jiǎng)勵(lì)基準(zhǔn)RewardBench上更是拿下了90.1的高分。


實(shí)驗(yàn)證明,Skywork-VL Reward有效實(shí)現(xiàn)了推理能力與通用能力的協(xié)同提升,成功實(shí)現(xiàn)「魚與熊掌兼得」。
引入MPO機(jī)制,增強(qiáng)深度推理能力
另外,R1V 2.0引入了MPO(Mixed Preference Optimization,混合偏好優(yōu)化)機(jī)制,充分利用了Skywork-VL Reward獎(jiǎng)勵(lì)模型提供的偏好信號(hào)。
比如在這道視覺推理數(shù)學(xué)題上,Skywork-VL Reward就會(huì)給推理簡(jiǎn)明扼要的答案高分;而充滿了無(wú)效token「wait」的則直接負(fù)分。

再比如,Skywork-VL Reward還能對(duì)識(shí)別出表格問答中,糟糕答案里的多次重復(fù)給予負(fù)分,并對(duì)精煉的回答給出正反饋得分。

通過這些信號(hào),模型能夠進(jìn)行偏好一致性優(yōu)化,確保在多任務(wù)、多領(lǐng)域的場(chǎng)景下,具備強(qiáng)大的能力。
R1V 2.0的設(shè)計(jì)延續(xù)了R1V 1.0的核心思路,通過提前訓(xùn)練好的MLP適配器,將強(qiáng)大視覺編碼器internVIT-6B與原始的強(qiáng)推理語(yǔ)言模型QwQ-32B無(wú)縫連接,構(gòu)建出初始權(quán)重位38B多模態(tài)模型。
這一巧妙的設(shè)計(jì),讓R1V 2.0在訓(xùn)練伊始,就具備了初步的多模態(tài)推理能力,為后續(xù)優(yōu)化奠定了堅(jiān)實(shí)的基礎(chǔ)。
MPO的訓(xùn)練目標(biāo)為三種損失函數(shù)的加權(quán)組合:L=wp?Lp+wq?Lq+wg?Lg。其中,Lp是偏好損失(Preference Loss),Lq是質(zhì)量損失(Quality Loss),Lg是生成損失(Generation Loss)。
通過引入MPO目標(biāo),可以讓模型學(xué)習(xí):
響應(yīng)對(duì)之間的相對(duì)偏好
單個(gè)響應(yīng)的絕對(duì)質(zhì)量
以及生成優(yōu)選響應(yīng)的完整過程
團(tuán)隊(duì)發(fā)現(xiàn),基于MPO的訓(xùn)練策略在提升多模態(tài)推理能力方面表現(xiàn)出顯著優(yōu)勢(shì)。
不僅如此,模型在VisualVQA和幻覺檢測(cè)基準(zhǔn)測(cè)試中的表現(xiàn)也優(yōu)于其未采用MPO 的版本,這就表明,其通用能力得益于更強(qiáng)的推理能力,同時(shí)幻覺也得到了大幅度的減弱。
而且,MPO顯著優(yōu)于DPO和傳統(tǒng)的SFT方法。
直接偏好優(yōu)化(DPO)在思維鏈(CoT)推理任務(wù)中,更容易導(dǎo)致響應(yīng)重復(fù)或推理過程混亂,而MPO通過引入多種損失協(xié)同優(yōu)化,有效緩解了這一問題。
此外,研究團(tuán)隊(duì)還發(fā)現(xiàn),直接用蒸餾后的SFT數(shù)據(jù)訓(xùn)練,會(huì)導(dǎo)致模型推理能力下跌。
這一點(diǎn),進(jìn)一步說明了僅靠監(jiān)督信號(hào),是難以覆蓋復(fù)雜推理場(chǎng)景,因此需要更具指導(dǎo)性偏好優(yōu)化方法去提升模型性能。
為了進(jìn)一步增強(qiáng)R1V 2.0的深度推理能力,團(tuán)隊(duì)采用了「基于規(guī)則的群體相對(duì)策略優(yōu)化」(Group Relative Policy Optimization, GRPO)的強(qiáng)化學(xué)習(xí)算法。
通過同組候選響應(yīng)之間的相對(duì)獎(jiǎng)勵(lì)比較,這一策略引導(dǎo)模型學(xué)會(huì)更精準(zhǔn)選擇和推理路徑。
然而在實(shí)際訓(xùn)練過程中,他們發(fā)現(xiàn)了GRPO的一個(gè)核心挑戰(zhàn):優(yōu)勢(shì)消失(Vanishing Advantages)。
當(dāng)某個(gè)查詢組內(nèi)的所有候選響應(yīng)均為「全部正確」或「全部錯(cuò)誤」時(shí),組內(nèi)響應(yīng)的相對(duì)獎(jiǎng)勵(lì)差異趨于消失,導(dǎo)致優(yōu)勢(shì)歸零,無(wú)法產(chǎn)生有效的策略梯度。
這種現(xiàn)象在訓(xùn)練后期愈發(fā)嚴(yán)重,有效樣本從初期60%暴降至10%以下,嚴(yán)重影響了策略更新的效率。
與此同時(shí),另一個(gè)獨(dú)特現(xiàn)象是:視覺模態(tài)推理能力與文本模態(tài)之間存在互補(bǔ)性。
若是對(duì)視覺推理能力進(jìn)行過度優(yōu)化,則可能誘發(fā)模型產(chǎn)生更多的「幻覺」,進(jìn)而影響推理準(zhǔn)確性與穩(wěn)定性。
選擇性樣本緩沖區(qū)(SSB)
為此,團(tuán)隊(duì)引入了創(chuàng)新性的「選擇性樣本緩沖區(qū)機(jī)制」(Selective Sample Buffer, SSB)。
這種高效的樣本復(fù)用技術(shù)可以作用于在線和離線采樣過程中,通過保留歷史訓(xùn)練中帶有非零優(yōu)勢(shì)的關(guān)鍵樣本,并在后續(xù)訓(xùn)練中優(yōu)先抽樣使用,大幅提升了訓(xùn)練信號(hào)的質(zhì)量與密度。
同樣,SSB具備三大核心優(yōu)勢(shì):
優(yōu)先采樣機(jī)制:基于樣本優(yōu)勢(shì)值的絕對(duì)值進(jìn)行加權(quán)抽樣,強(qiáng)化對(duì)非零優(yōu)勢(shì)樣本的學(xué)習(xí)。
低成本高回報(bào):通過反復(fù)利用高價(jià)值樣本,極大降低訓(xùn)練所需成本
效果顯著:即使使用少量樣本,模型依然能夠獲得高效的訓(xùn)練效果

選擇性樣本緩沖區(qū)(SSB)機(jī)制通過保留并優(yōu)先選擇具有非零優(yōu)勢(shì)的高價(jià)值樣本來(lái)解決優(yōu)勢(shì)消失問題
SSB的引入,不僅顯著提高了訓(xùn)練的有效樣本密度,還有效緩解了模型在訓(xùn)練中期優(yōu)化空間趨于飽和的問題。
實(shí)驗(yàn)已經(jīng)證明,SSB在R1V 2.0中的應(yīng)用,是提升推理能力與訓(xùn)練效率的關(guān)鍵一環(huán)。
總之,R1V 2.0所采用的多模態(tài)強(qiáng)化訓(xùn)練方案,標(biāo)志著大模型訓(xùn)練范式的又一次重要革新。
Skywork-VL Reward、MPO和SSB的引入,不僅讓團(tuán)隊(duì)提升了模型在復(fù)雜任務(wù)中的推理能力,也實(shí)現(xiàn)了在多模態(tài)任務(wù)上的廣泛泛化與持續(xù)進(jìn)化。
持續(xù)開源,邁向AGI
今年的開源社區(qū),一直在被昆侖萬(wàn)維震撼。
2025年以來(lái),他們不僅在視覺、推理,以及視頻生成等領(lǐng)域開源了多款模型,而且還進(jìn)行了前沿「空間智能」探索。
由此,一步步地構(gòu)建出了一個(gè)全新的模型版圖:
Skywork-R1V系列:38B視覺思維鏈推理模型,開啟多模態(tài)思考時(shí)代;
Skywork-OR1(Open Reasoner 1)系列:中文邏輯推理大模型,7B和32B最強(qiáng)數(shù)學(xué)代碼推理模型;
SkyReels系列:面向AI短劇創(chuàng)作的視頻生成模型;
Skywork-Reward:性能卓越的文本獎(jiǎng)勵(lì)模型。
值得一提的是,這些項(xiàng)目無(wú)一例外都在ModelScope與Hugging Face上大受歡迎,贏得了社區(qū)的熱烈反響。



不論是在多模態(tài)AI、推理模型,還是視頻生成等領(lǐng)域,這些成就恰恰體現(xiàn)了昆侖萬(wàn)維的技術(shù)領(lǐng)導(dǎo)力。
自從DeepSeek的誕生,全球的AI模型大勢(shì)已經(jīng)逆轉(zhuǎn)。
很明顯,如今開源模型和閉源系統(tǒng)的差距,正在一步步縮小。

開源不僅僅是技術(shù)的共享,更是創(chuàng)新的催化劑。昆侖萬(wàn)維堅(jiān)信,通過開放權(quán)重、技術(shù)報(bào)告、代碼倉(cāng)庫(kù),全球開發(fā)者、研究人員能夠站在巨人肩膀上,加速AI的迭代和應(yīng)用。
在這個(gè)時(shí)代背景下,R1V2的誕生,又多了一重意義。
可以說,它不僅是當(dāng)前最好的開源多模態(tài)推理模型之一,也是昆侖萬(wàn)維邁向AGI路上的又一里程碑。
在未來(lái),昆侖萬(wàn)維還會(huì)將「開源、開發(fā)、共創(chuàng)」持續(xù)到底,推出更多領(lǐng)先大模型和數(shù)據(jù)集,加速整個(gè)行業(yè)向AGI的邁進(jìn)。
參考資料:
https://github.com/SkyworkAI/Skywork-R1V
熱門跟貼