打開網(wǎng)易新聞 查看精彩圖片

新智元報(bào)道

編輯:編輯部 YZH

【新智元導(dǎo)讀】昆侖萬(wàn)維Skywork-R1V 2.0版本,開源了!這一次,它的多模態(tài)推理實(shí)現(xiàn)了再進(jìn)化,成為最強(qiáng)高考數(shù)理解題利器,直接就是985水平。而團(tuán)隊(duì)也大方公開了各項(xiàng)技術(shù)秘籍,亮點(diǎn)滿滿??梢哉f,R1V 2.0已成為團(tuán)隊(duì)AGI之路上的又一里程碑。

就在剛剛,全球首個(gè)工業(yè)界多模態(tài)推理模型Skywork-R1V,再次重磅升級(jí)!

此前,R1V 1.0首次成功實(shí)現(xiàn)了「強(qiáng)文本推理能力向視覺模態(tài)的遷移」,才短短一個(gè)月后,Skywork-R1V 2.0就強(qiáng)勢(shì)上線了。

現(xiàn)在,R1V 2.0的所有資源已全面開源,可以預(yù)見,多模態(tài)推理社區(qū)將迎來(lái)新一輪發(fā)展。

打開網(wǎng)易新聞 查看精彩圖片

模型權(quán)重:https://huggingface.co/Skywork/Skywork-R1V2-38B

技術(shù)報(bào)告:https://arxiv.org/abs/2504.16656

代碼倉(cāng)庫(kù):https://github.com/SkyworkAI/Skywork-R1V

可以說,R1V 2.0的誕生,不僅推動(dòng)了開源多模態(tài)大模型在能力邊界上的突破,更為多模態(tài)智能體的搭建提供了全新的基座模型!

R1V 2.0參加高考,已是優(yōu)秀的985選手

可以毫不夸張地說,R1V 2.0是目前最好、最開放的開源多模態(tài)推理模型。

話不多說,我們直接給它上高考題。

首先,就是2022江蘇的高考物理真題。

打開網(wǎng)易新聞 查看精彩圖片

R1V2.0拿到題后,開啟了思考模式。

首先,它回憶了一下法拉第電磁感應(yīng)定律的內(nèi)容,然后分析了題目的具體條件,得出結(jié)論:關(guān)鍵點(diǎn)就在于,確定哪個(gè)區(qū)域內(nèi)的磁場(chǎng)變化會(huì)對(duì)產(chǎn)生電動(dòng)勢(shì)起作用。

打開網(wǎng)易新聞 查看精彩圖片

代入法拉第定律后,模型計(jì)算得出了感應(yīng)電動(dòng)勢(shì)的大小。然后還進(jìn)行了一番額外思考,確定選A沒錯(cuò)。

打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片

再來(lái)看2021年的一道高考物理真題。

打開網(wǎng)易新聞 查看精彩圖片

在經(jīng)過嚴(yán)謹(jǐn)而詳細(xì)的分析后,R1V 2.0給出了正確的推理和答案。

打開網(wǎng)易新聞 查看精彩圖片

接下來(lái),是2022廣東高考物理卷。

打開網(wǎng)易新聞 查看精彩圖片

經(jīng)過思考后,模型得出結(jié)論:每個(gè)線圈的電動(dòng)勢(shì)振幅可能只與匝數(shù)相關(guān),而頻率則完全一致,因?yàn)樗鼈児蚕硗吹拇艌?chǎng)變化來(lái)源,因而選項(xiàng)B是對(duì)的。

在后續(xù)分析中,它還相繼排除了其他答案的正確性。

打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片

下面是一道生物選擇題,來(lái)自2022年的福州模擬生物卷。

打開網(wǎng)易新聞 查看精彩圖片

在思考過程中,模型首先回顧了隱性突變、等位基因等基本概念。

然后逐步判斷出,選項(xiàng)B是錯(cuò)誤的,因?yàn)樗雎粤瞬迦胍鸬囊拼a效應(yīng)所導(dǎo)致的更多氨基酸變化。

打開網(wǎng)易新聞 查看精彩圖片

而后,它還逐一分析出,選項(xiàng)A、C、D都是正確的。

打開網(wǎng)易新聞 查看精彩圖片

2022年的福建高考化學(xué)選擇題,模型也給出了正確選項(xiàng)B。

打開網(wǎng)易新聞 查看精彩圖片

它經(jīng)過思考,逐一判斷出了A、C、D的錯(cuò)誤在哪里。

打開網(wǎng)易新聞 查看精彩圖片

總之,面對(duì)圖文并茂、邏輯復(fù)雜的高考題目,R1V 2.0展現(xiàn)出了完整的圖像理解與推理能力,答案準(zhǔn)確率極高,充分展示了自己的實(shí)戰(zhàn)水平。

可以說,現(xiàn)在就是直接讓R1V 2.0去參加高考,考上985也不在話下了。

數(shù)學(xué)推理、編程能力,又有顯著躍升

總的來(lái)說,R1V 2.0不僅在高考難題的深度推理中表現(xiàn)出色,還在通用任務(wù)場(chǎng)景中展現(xiàn)出強(qiáng)大的廣度。

它真正實(shí)現(xiàn)了「深度+廣度」統(tǒng)一,成為開源多模態(tài)模型新標(biāo)桿。

在多個(gè)權(quán)威基準(zhǔn)測(cè)試中,R1V 2.0相較于R1V 1.0在文本與視覺推理任務(wù)中均實(shí)現(xiàn)顯著躍升。

數(shù)學(xué)推理、編程競(jìng)賽、科學(xué)分析這類專業(yè)領(lǐng)域,以及創(chuàng)意寫作、開放式問答這類通用任務(wù),它的表現(xiàn)都令人眼前一亮。

在視覺能力上,R1V 2.0的視覺理解和深度思考能力讓人印象深刻。

它在MMMU上拿下了73.6分的開源SOTA;在Olympiad Bench上以62.6分遙遙領(lǐng)先;并在MathVision,MMMU-PRO與MathVista等視覺推理榜單上,都取得極佳的成績(jī),在開源模型中一騎絕塵,甚至可以追平部分閉源商業(yè)模型。

打開網(wǎng)易新聞 查看精彩圖片

R1V2.0的視覺推理能力,在開源模型中明顯脫穎而出

打開網(wǎng)易新聞 查看精彩圖片

R1V2.0已有潛力追趕閉源模型

而在文本推理方面,在AIME2024和LiveCodeBench等挑戰(zhàn)中,R1V 2.0直接拿下了78.9和63.6的高分,表現(xiàn)出的數(shù)學(xué)和代碼理解能力,已經(jīng)達(dá)到了人類專家級(jí)別。

打開網(wǎng)易新聞 查看精彩圖片

與專業(yè)推理模型相比,R1V2.0展現(xiàn)出良好文本推理能力

下圖中,是一道高考幾何題,R1V 2.0在理解題干基礎(chǔ)上,還要理解圖中幾何要素,然后根據(jù)視覺推理,逐步得出正確的答案。

打開網(wǎng)易新聞 查看精彩圖片

如此可見,R1V2.0是目前最兼顧視覺和文本推理,且最開放的開源多模態(tài)推理模型之一。

突破性技術(shù)創(chuàng)新,持續(xù)迭代

多模態(tài)大模型,如何在「深度推理」和「通用能力」上取得最佳平衡?

這個(gè)問題,已經(jīng)在業(yè)界被多次提出。

過度集中于推理任務(wù)的訓(xùn)練,可能就會(huì)犧牲模型在通用任務(wù)上的泛化能力。

昆侖萬(wàn)維團(tuán)隊(duì)對(duì)此進(jìn)行了深入探索,他們的對(duì)策是——引入全新的多模態(tài)獎(jiǎng)勵(lì)模型Skywork?VL Reward規(guī)則驅(qū)動(dòng)的混合強(qiáng)化訓(xùn)練機(jī)制。

它們?cè)陲@著增強(qiáng)推理能力的同時(shí),進(jìn)一步穩(wěn)固了模型在多任務(wù)、多模態(tài)場(chǎng)景中的穩(wěn)定表現(xiàn)與泛化能力。

為多模態(tài)、強(qiáng)化學(xué)習(xí)而生的獎(jiǎng)勵(lì)模型

強(qiáng)化學(xué)習(xí)在VLM領(lǐng)域之所以難以進(jìn)一步發(fā)展,關(guān)鍵瓶頸就在于多模態(tài)獎(jiǎng)勵(lì)模型的缺乏,因?yàn)楝F(xiàn)有的獎(jiǎng)勵(lì)建模方法,多聚焦于純文本。

為此,昆侖萬(wàn)維推出了融合多模態(tài)推理與通用獎(jiǎng)勵(lì)模型的Skywork-VL Reward——不僅支持多元化獎(jiǎng)勵(lì)判別,還可覆蓋各種任務(wù)場(chǎng)景。

憑借獨(dú)特設(shè)計(jì)與強(qiáng)大性能,它既可為通用視覺語(yǔ)言模型(VLM)提供高質(zhì)量獎(jiǎng)勵(lì)信號(hào),又能精準(zhǔn)評(píng)估多模態(tài)推理模型長(zhǎng)序列輸出的整體質(zhì)量,一舉成為多模態(tài)強(qiáng)化學(xué)習(xí)任務(wù)中的「殺手锏」。

目前,7B權(quán)重和詳細(xì)技術(shù)報(bào)告全面開源。

打開網(wǎng)易新聞 查看精彩圖片

模型權(quán)重:https://huggingface.co/Skywork/Skywork-VL-Reward-7B

技術(shù)報(bào)告:https://github.com/SkyworkAI/Skywork-R1V/blob/main/SkyworkVL_RM.pdf

在多個(gè)專業(yè)評(píng)測(cè)榜單中,Skywork-VL Reward的表現(xiàn)都極其突出。

在視覺獎(jiǎng)勵(lì)模型VL-RewardBench基準(zhǔn)上,它取得73.1的SOTA,同時(shí)在純文本獎(jiǎng)勵(lì)基準(zhǔn)RewardBench上更是拿下了90.1的高分。

打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片

實(shí)驗(yàn)證明,Skywork-VL Reward有效實(shí)現(xiàn)了推理能力與通用能力的協(xié)同提升,成功實(shí)現(xiàn)「魚與熊掌兼得」。

引入MPO機(jī)制,增強(qiáng)深度推理能力

另外,R1V 2.0引入了MPO(Mixed Preference Optimization,混合偏好優(yōu)化)機(jī)制,充分利用了Skywork-VL Reward獎(jiǎng)勵(lì)模型提供的偏好信號(hào)。

比如在這道視覺推理數(shù)學(xué)題上,Skywork-VL Reward就會(huì)給推理簡(jiǎn)明扼要的答案高分;而充滿了無(wú)效token「wait」的則直接負(fù)分。

打開網(wǎng)易新聞 查看精彩圖片

再比如,Skywork-VL Reward還能對(duì)識(shí)別出表格問答中,糟糕答案里的多次重復(fù)給予負(fù)分,并對(duì)精煉的回答給出正反饋得分。

打開網(wǎng)易新聞 查看精彩圖片

通過這些信號(hào),模型能夠進(jìn)行偏好一致性優(yōu)化,確保在多任務(wù)、多領(lǐng)域的場(chǎng)景下,具備強(qiáng)大的能力。

R1V 2.0的設(shè)計(jì)延續(xù)了R1V 1.0的核心思路,通過提前訓(xùn)練好的MLP適配器,將強(qiáng)大視覺編碼器internVIT-6B與原始的強(qiáng)推理語(yǔ)言模型QwQ-32B無(wú)縫連接,構(gòu)建出初始權(quán)重位38B多模態(tài)模型。

這一巧妙的設(shè)計(jì),讓R1V 2.0在訓(xùn)練伊始,就具備了初步的多模態(tài)推理能力,為后續(xù)優(yōu)化奠定了堅(jiān)實(shí)的基礎(chǔ)。

MPO的訓(xùn)練目標(biāo)為三種損失函數(shù)的加權(quán)組合:L=wp?Lp+wq?Lq+wg?Lg。其中,Lp是偏好損失(Preference Loss),Lq是質(zhì)量損失(Quality Loss),Lg是生成損失(Generation Loss)。

通過引入MPO目標(biāo),可以讓模型學(xué)習(xí):

  • 響應(yīng)對(duì)之間的相對(duì)偏好

  • 單個(gè)響應(yīng)的絕對(duì)質(zhì)量

  • 以及生成優(yōu)選響應(yīng)的完整過程

團(tuán)隊(duì)發(fā)現(xiàn),基于MPO的訓(xùn)練策略在提升多模態(tài)推理能力方面表現(xiàn)出顯著優(yōu)勢(shì)。

不僅如此,模型在VisualVQA和幻覺檢測(cè)基準(zhǔn)測(cè)試中的表現(xiàn)也優(yōu)于其未采用MPO 的版本,這就表明,其通用能力得益于更強(qiáng)的推理能力,同時(shí)幻覺也得到了大幅度的減弱。

而且,MPO顯著優(yōu)于DPO和傳統(tǒng)的SFT方法。

直接偏好優(yōu)化(DPO)在思維鏈(CoT)推理任務(wù)中,更容易導(dǎo)致響應(yīng)重復(fù)或推理過程混亂,而MPO通過引入多種損失協(xié)同優(yōu)化,有效緩解了這一問題。

此外,研究團(tuán)隊(duì)還發(fā)現(xiàn),直接用蒸餾后的SFT數(shù)據(jù)訓(xùn)練,會(huì)導(dǎo)致模型推理能力下跌。

這一點(diǎn),進(jìn)一步說明了僅靠監(jiān)督信號(hào),是難以覆蓋復(fù)雜推理場(chǎng)景,因此需要更具指導(dǎo)性偏好優(yōu)化方法去提升模型性能。

為了進(jìn)一步增強(qiáng)R1V 2.0的深度推理能力,團(tuán)隊(duì)采用了「基于規(guī)則的群體相對(duì)策略優(yōu)化」(Group Relative Policy Optimization, GRPO)的強(qiáng)化學(xué)習(xí)算法。

通過同組候選響應(yīng)之間的相對(duì)獎(jiǎng)勵(lì)比較,這一策略引導(dǎo)模型學(xué)會(huì)更精準(zhǔn)選擇和推理路徑。

然而在實(shí)際訓(xùn)練過程中,他們發(fā)現(xiàn)了GRPO的一個(gè)核心挑戰(zhàn):優(yōu)勢(shì)消失(Vanishing Advantages)。

當(dāng)某個(gè)查詢組內(nèi)的所有候選響應(yīng)均為「全部正確」或「全部錯(cuò)誤」時(shí),組內(nèi)響應(yīng)的相對(duì)獎(jiǎng)勵(lì)差異趨于消失,導(dǎo)致優(yōu)勢(shì)歸零,無(wú)法產(chǎn)生有效的策略梯度。

這種現(xiàn)象在訓(xùn)練后期愈發(fā)嚴(yán)重,有效樣本從初期60%暴降至10%以下,嚴(yán)重影響了策略更新的效率。

與此同時(shí),另一個(gè)獨(dú)特現(xiàn)象是:視覺模態(tài)推理能力與文本模態(tài)之間存在互補(bǔ)性。

若是對(duì)視覺推理能力進(jìn)行過度優(yōu)化,則可能誘發(fā)模型產(chǎn)生更多的「幻覺」,進(jìn)而影響推理準(zhǔn)確性與穩(wěn)定性。

選擇性樣本緩沖區(qū)(SSB)

為此,團(tuán)隊(duì)引入了創(chuàng)新性的「選擇性樣本緩沖區(qū)機(jī)制」(Selective Sample Buffer, SSB)。

這種高效的樣本復(fù)用技術(shù)可以作用于在線和離線采樣過程中,通過保留歷史訓(xùn)練中帶有非零優(yōu)勢(shì)的關(guān)鍵樣本,并在后續(xù)訓(xùn)練中優(yōu)先抽樣使用,大幅提升了訓(xùn)練信號(hào)的質(zhì)量與密度。

同樣,SSB具備三大核心優(yōu)勢(shì):

  • 優(yōu)先采樣機(jī)制:基于樣本優(yōu)勢(shì)值的絕對(duì)值進(jìn)行加權(quán)抽樣,強(qiáng)化對(duì)非零優(yōu)勢(shì)樣本的學(xué)習(xí)。

  • 低成本高回報(bào):通過反復(fù)利用高價(jià)值樣本,極大降低訓(xùn)練所需成本

  • 效果顯著:即使使用少量樣本,模型依然能夠獲得高效的訓(xùn)練效果

打開網(wǎng)易新聞 查看精彩圖片

選擇性樣本緩沖區(qū)(SSB)機(jī)制通過保留并優(yōu)先選擇具有非零優(yōu)勢(shì)的高價(jià)值樣本來(lái)解決優(yōu)勢(shì)消失問題

SSB的引入,不僅顯著提高了訓(xùn)練的有效樣本密度,還有效緩解了模型在訓(xùn)練中期優(yōu)化空間趨于飽和的問題。

實(shí)驗(yàn)已經(jīng)證明,SSB在R1V 2.0中的應(yīng)用,是提升推理能力與訓(xùn)練效率的關(guān)鍵一環(huán)。

總之,R1V 2.0所采用的多模態(tài)強(qiáng)化訓(xùn)練方案,標(biāo)志著大模型訓(xùn)練范式的又一次重要革新。

Skywork-VL Reward、MPO和SSB的引入,不僅讓團(tuán)隊(duì)提升了模型在復(fù)雜任務(wù)中的推理能力,也實(shí)現(xiàn)了在多模態(tài)任務(wù)上的廣泛泛化與持續(xù)進(jìn)化。

持續(xù)開源,邁向AGI

今年的開源社區(qū),一直在被昆侖萬(wàn)維震撼。

2025年以來(lái),他們不僅在視覺、推理,以及視頻生成等領(lǐng)域開源了多款模型,而且還進(jìn)行了前沿「空間智能」探索。

由此,一步步地構(gòu)建出了一個(gè)全新的模型版圖:

  • Skywork-R1V系列:38B視覺思維鏈推理模型,開啟多模態(tài)思考時(shí)代;

  • Skywork-OR1(Open Reasoner 1)系列:中文邏輯推理大模型,7B和32B最強(qiáng)數(shù)學(xué)代碼推理模型;

  • SkyReels系列:面向AI短劇創(chuàng)作的視頻生成模型;

  • Skywork-Reward:性能卓越的文本獎(jiǎng)勵(lì)模型。

值得一提的是,這些項(xiàng)目無(wú)一例外都在ModelScope與Hugging Face上大受歡迎,贏得了社區(qū)的熱烈反響。

打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片

不論是在多模態(tài)AI、推理模型,還是視頻生成等領(lǐng)域,這些成就恰恰體現(xiàn)了昆侖萬(wàn)維的技術(shù)領(lǐng)導(dǎo)力。

自從DeepSeek的誕生,全球的AI模型大勢(shì)已經(jīng)逆轉(zhuǎn)。

很明顯,如今開源模型和閉源系統(tǒng)的差距,正在一步步縮小。

打開網(wǎng)易新聞 查看精彩圖片

開源不僅僅是技術(shù)的共享,更是創(chuàng)新的催化劑。昆侖萬(wàn)維堅(jiān)信,通過開放權(quán)重、技術(shù)報(bào)告、代碼倉(cāng)庫(kù),全球開發(fā)者、研究人員能夠站在巨人肩膀上,加速AI的迭代和應(yīng)用。

在這個(gè)時(shí)代背景下,R1V2的誕生,又多了一重意義。

可以說,它不僅是當(dāng)前最好的開源多模態(tài)推理模型之一,也是昆侖萬(wàn)維邁向AGI路上的又一里程碑。

在未來(lái),昆侖萬(wàn)維還會(huì)將「開源、開發(fā)、共創(chuàng)」持續(xù)到底,推出更多領(lǐng)先大模型和數(shù)據(jù)集,加速整個(gè)行業(yè)向AGI的邁進(jìn)。

參考資料:

https://github.com/SkyworkAI/Skywork-R1V