亚洲天堂av视频,成人亚洲精品在线,美女上床娇喘高潮爽死视频,国产凹凸熟女91视频,亚洲欧洲国内

新智元報(bào)道

編輯：編輯部 YZH

【新智元導(dǎo)讀】昆侖萬(wàn)維Skywork-R1V 2.0版本，開源了！這一次，它的多模態(tài)推理實(shí)現(xiàn)了再進(jìn)化，成為最強(qiáng)高考數(shù)理解題利器，直接就是985水平。而團(tuán)隊(duì)也大方公開了各項(xiàng)技術(shù)秘籍，亮點(diǎn)滿滿?？梢哉f，R1V 2.0已成為團(tuán)隊(duì)AGI之路上的又一里程碑。

就在剛剛，全球首個(gè)工業(yè)界多模態(tài)推理模型Skywork-R1V，再次重磅升級(jí)！

此前，R1V 1.0首次成功實(shí)現(xiàn)了「強(qiáng)文本推理能力向視覺模態(tài)的遷移」，才短短一個(gè)月后，Skywork-R1V 2.0就強(qiáng)勢(shì)上線了。

現(xiàn)在，R1V 2.0的所有資源已全面開源，可以預(yù)見，多模態(tài)推理社區(qū)將迎來(lái)新一輪發(fā)展。

模型權(quán)重：https://huggingface.co/Skywork/Skywork-R1V2-38B

技術(shù)報(bào)告：https://arxiv.org/abs/2504.16656

代碼倉(cāng)庫(kù)：https://github.com/SkyworkAI/Skywork-R1V

可以說，R1V 2.0的誕生，不僅推動(dòng)了開源多模態(tài)大模型在能力邊界上的突破，更為多模態(tài)智能體的搭建提供了全新的基座模型！

R1V 2.0參加高考，已是優(yōu)秀的985選手

可以毫不夸張地說，R1V 2.0是目前最好、最開放的開源多模態(tài)推理模型。

話不多說，我們直接給它上高考題。

首先，就是2022江蘇的高考物理真題。

R1V2.0拿到題后，開啟了思考模式。

首先，它回憶了一下法拉第電磁感應(yīng)定律的內(nèi)容，然后分析了題目的具體條件，得出結(jié)論：關(guān)鍵點(diǎn)就在于，確定哪個(gè)區(qū)域內(nèi)的磁場(chǎng)變化會(huì)對(duì)產(chǎn)生電動(dòng)勢(shì)起作用。

代入法拉第定律后，模型計(jì)算得出了感應(yīng)電動(dòng)勢(shì)的大小。然后還進(jìn)行了一番額外思考，確定選A沒錯(cuò)。

再來(lái)看2021年的一道高考物理真題。

在經(jīng)過嚴(yán)謹(jǐn)而詳細(xì)的分析后，R1V 2.0給出了正確的推理和答案。

接下來(lái)，是2022廣東高考物理卷。

經(jīng)過思考后，模型得出結(jié)論：每個(gè)線圈的電動(dòng)勢(shì)振幅可能只與匝數(shù)相關(guān)，而頻率則完全一致，因?yàn)樗鼈児蚕硗吹拇艌?chǎng)變化來(lái)源，因而選項(xiàng)B是對(duì)的。

在后續(xù)分析中，它還相繼排除了其他答案的正確性。

下面是一道生物選擇題，來(lái)自2022年的福州模擬生物卷。

在思考過程中，模型首先回顧了隱性突變、等位基因等基本概念。

然后逐步判斷出，選項(xiàng)B是錯(cuò)誤的，因?yàn)樗雎粤瞬迦胍鸬囊拼a效應(yīng)所導(dǎo)致的更多氨基酸變化。

而后，它還逐一分析出，選項(xiàng)A、C、D都是正確的。

2022年的福建高考化學(xué)選擇題，模型也給出了正確選項(xiàng)B。

它經(jīng)過思考，逐一判斷出了A、C、D的錯(cuò)誤在哪里。

總之，面對(duì)圖文并茂、邏輯復(fù)雜的高考題目，R1V 2.0展現(xiàn)出了完整的圖像理解與推理能力，答案準(zhǔn)確率極高，充分展示了自己的實(shí)戰(zhàn)水平。

可以說，現(xiàn)在就是直接讓R1V 2.0去參加高考，考上985也不在話下了。

數(shù)學(xué)推理、編程能力，又有顯著躍升

總的來(lái)說，R1V 2.0不僅在高考難題的深度推理中表現(xiàn)出色，還在通用任務(wù)場(chǎng)景中展現(xiàn)出強(qiáng)大的廣度。

它真正實(shí)現(xiàn)了「深度+廣度」統(tǒng)一，成為開源多模態(tài)模型新標(biāo)桿。

在多個(gè)權(quán)威基準(zhǔn)測(cè)試中，R1V 2.0相較于R1V 1.0在文本與視覺推理任務(wù)中均實(shí)現(xiàn)顯著躍升。

在數(shù)學(xué)推理、編程競(jìng)賽、科學(xué)分析這類專業(yè)領(lǐng)域，以及創(chuàng)意寫作、開放式問答這類通用任務(wù)，它的表現(xiàn)都令人眼前一亮。

在視覺能力上，R1V 2.0的視覺理解和深度思考能力讓人印象深刻。

它在MMMU上拿下了73.6分的開源SOTA；在Olympiad Bench上以62.6分遙遙領(lǐng)先；并在MathVision，MMMU-PRO與MathVista等視覺推理榜單上，都取得極佳的成績(jī)，在開源模型中一騎絕塵，甚至可以追平部分閉源商業(yè)模型。

R1V2.0的視覺推理能力，在開源模型中明顯脫穎而出

R1V2.0已有潛力追趕閉源模型

而在文本推理方面，在AIME2024和LiveCodeBench等挑戰(zhàn)中，R1V 2.0直接拿下了78.9和63.6的高分，表現(xiàn)出的數(shù)學(xué)和代碼理解能力，已經(jīng)達(dá)到了人類專家級(jí)別。

與專業(yè)推理模型相比，R1V2.0展現(xiàn)出良好文本推理能力

下圖中，是一道高考幾何題，R1V 2.0在理解題干基礎(chǔ)上，還要理解圖中幾何要素，然后根據(jù)視覺推理，逐步得出正確的答案。

如此可見，R1V2.0是目前最兼顧視覺和文本推理，且最開放的開源多模態(tài)推理模型之一。

突破性技術(shù)創(chuàng)新，持續(xù)迭代

多模態(tài)大模型，如何在「深度推理」和「通用能力」上取得最佳平衡？

這個(gè)問題，已經(jīng)在業(yè)界被多次提出。

過度集中于推理任務(wù)的訓(xùn)練，可能就會(huì)犧牲模型在通用任務(wù)上的泛化能力。

昆侖萬(wàn)維團(tuán)隊(duì)對(duì)此進(jìn)行了深入探索，他們的對(duì)策是——引入全新的多模態(tài)獎(jiǎng)勵(lì)模型Skywork?VL Reward及規(guī)則驅(qū)動(dòng)的混合強(qiáng)化訓(xùn)練機(jī)制。

它們?cè)陲@著增強(qiáng)推理能力的同時(shí)，進(jìn)一步穩(wěn)固了模型在多任務(wù)、多模態(tài)場(chǎng)景中的穩(wěn)定表現(xiàn)與泛化能力。

為多模態(tài)、強(qiáng)化學(xué)習(xí)而生的獎(jiǎng)勵(lì)模型

強(qiáng)化學(xué)習(xí)在VLM領(lǐng)域之所以難以進(jìn)一步發(fā)展，關(guān)鍵瓶頸就在于多模態(tài)獎(jiǎng)勵(lì)模型的缺乏，因?yàn)楝F(xiàn)有的獎(jiǎng)勵(lì)建模方法，多聚焦于純文本。

為此，昆侖萬(wàn)維推出了融合多模態(tài)推理與通用獎(jiǎng)勵(lì)模型的Skywork-VL Reward——不僅支持多元化獎(jiǎng)勵(lì)判別，還可覆蓋各種任務(wù)場(chǎng)景。

憑借獨(dú)特設(shè)計(jì)與強(qiáng)大性能，它既可為通用視覺語(yǔ)言模型（VLM）提供高質(zhì)量獎(jiǎng)勵(lì)信號(hào)，又能精準(zhǔn)評(píng)估多模態(tài)推理模型長(zhǎng)序列輸出的整體質(zhì)量，一舉成為多模態(tài)強(qiáng)化學(xué)習(xí)任務(wù)中的「殺手锏」。

目前，7B權(quán)重和詳細(xì)技術(shù)報(bào)告全面開源。

模型權(quán)重：https://huggingface.co/Skywork/Skywork-VL-Reward-7B

技術(shù)報(bào)告：https://github.com/SkyworkAI/Skywork-R1V/blob/main/SkyworkVL_RM.pdf

在多個(gè)專業(yè)評(píng)測(cè)榜單中，Skywork-VL Reward的表現(xiàn)都極其突出。

在視覺獎(jiǎng)勵(lì)模型VL-RewardBench基準(zhǔn)上，它取得73.1的SOTA，同時(shí)在純文本獎(jiǎng)勵(lì)基準(zhǔn)RewardBench上更是拿下了90.1的高分。

實(shí)驗(yàn)證明，Skywork-VL Reward有效實(shí)現(xiàn)了推理能力與通用能力的協(xié)同提升，成功實(shí)現(xiàn)「魚與熊掌兼得」。

引入MPO機(jī)制，增強(qiáng)深度推理能力

另外，R1V 2.0引入了MPO（Mixed Preference Optimization，混合偏好優(yōu)化）機(jī)制，充分利用了Skywork-VL Reward獎(jiǎng)勵(lì)模型提供的偏好信號(hào)。

比如在這道視覺推理數(shù)學(xué)題上，Skywork-VL Reward就會(huì)給推理簡(jiǎn)明扼要的答案高分；而充滿了無(wú)效token「wait」的則直接負(fù)分。

再比如，Skywork-VL Reward還能對(duì)識(shí)別出表格問答中，糟糕答案里的多次重復(fù)給予負(fù)分，并對(duì)精煉的回答給出正反饋得分。

通過這些信號(hào)，模型能夠進(jìn)行偏好一致性優(yōu)化，確保在多任務(wù)、多領(lǐng)域的場(chǎng)景下，具備強(qiáng)大的能力。

R1V 2.0的設(shè)計(jì)延續(xù)了R1V 1.0的核心思路，通過提前訓(xùn)練好的MLP適配器，將強(qiáng)大視覺編碼器internVIT-6B與原始的強(qiáng)推理語(yǔ)言模型QwQ-32B無(wú)縫連接，構(gòu)建出初始權(quán)重位38B多模態(tài)模型。

這一巧妙的設(shè)計(jì)，讓R1V 2.0在訓(xùn)練伊始，就具備了初步的多模態(tài)推理能力，為后續(xù)優(yōu)化奠定了堅(jiān)實(shí)的基礎(chǔ)。

MPO的訓(xùn)練目標(biāo)為三種損失函數(shù)的加權(quán)組合：L=wp?Lp+wq?Lq+wg?Lg。其中，Lp是偏好損失（Preference Loss），Lq是質(zhì)量損失（Quality Loss），Lg是生成損失（Generation Loss）。

通過引入MPO目標(biāo)，可以讓模型學(xué)習(xí)：

響應(yīng)對(duì)之間的相對(duì)偏好
單個(gè)響應(yīng)的絕對(duì)質(zhì)量
以及生成優(yōu)選響應(yīng)的完整過程

團(tuán)隊(duì)發(fā)現(xiàn)，基于MPO的訓(xùn)練策略在提升多模態(tài)推理能力方面表現(xiàn)出顯著優(yōu)勢(shì)。

不僅如此，模型在VisualVQA和幻覺檢測(cè)基準(zhǔn)測(cè)試中的表現(xiàn)也優(yōu)于其未采用MPO 的版本，這就表明，其通用能力得益于更強(qiáng)的推理能力，同時(shí)幻覺也得到了大幅度的減弱。

而且，MPO顯著優(yōu)于DPO和傳統(tǒng)的SFT方法。

直接偏好優(yōu)化（DPO）在思維鏈（CoT）推理任務(wù)中，更容易導(dǎo)致響應(yīng)重復(fù)或推理過程混亂，而MPO通過引入多種損失協(xié)同優(yōu)化，有效緩解了這一問題。

此外，研究團(tuán)隊(duì)還發(fā)現(xiàn)，直接用蒸餾后的SFT數(shù)據(jù)訓(xùn)練，會(huì)導(dǎo)致模型推理能力下跌。

這一點(diǎn)，進(jìn)一步說明了僅靠監(jiān)督信號(hào)，是難以覆蓋復(fù)雜推理場(chǎng)景，因此需要更具指導(dǎo)性偏好優(yōu)化方法去提升模型性能。

為了進(jìn)一步增強(qiáng)R1V 2.0的深度推理能力，團(tuán)隊(duì)采用了「基于規(guī)則的群體相對(duì)策略優(yōu)化」（Group Relative Policy Optimization, GRPO）的強(qiáng)化學(xué)習(xí)算法。

通過同組候選響應(yīng)之間的相對(duì)獎(jiǎng)勵(lì)比較，這一策略引導(dǎo)模型學(xué)會(huì)更精準(zhǔn)選擇和推理路徑。

然而在實(shí)際訓(xùn)練過程中，他們發(fā)現(xiàn)了GRPO的一個(gè)核心挑戰(zhàn)：優(yōu)勢(shì)消失（Vanishing Advantages）。

當(dāng)某個(gè)查詢組內(nèi)的所有候選響應(yīng)均為「全部正確」或「全部錯(cuò)誤」時(shí)，組內(nèi)響應(yīng)的相對(duì)獎(jiǎng)勵(lì)差異趨于消失，導(dǎo)致優(yōu)勢(shì)歸零，無(wú)法產(chǎn)生有效的策略梯度。

這種現(xiàn)象在訓(xùn)練后期愈發(fā)嚴(yán)重，有效樣本從初期60%暴降至10%以下，嚴(yán)重影響了策略更新的效率。

與此同時(shí)，另一個(gè)獨(dú)特現(xiàn)象是：視覺模態(tài)推理能力與文本模態(tài)之間存在互補(bǔ)性。

若是對(duì)視覺推理能力進(jìn)行過度優(yōu)化，則可能誘發(fā)模型產(chǎn)生更多的「幻覺」，進(jìn)而影響推理準(zhǔn)確性與穩(wěn)定性。

選擇性樣本緩沖區(qū)（SSB）

為此，團(tuán)隊(duì)引入了創(chuàng)新性的「選擇性樣本緩沖區(qū)機(jī)制」（Selective Sample Buffer, SSB）。

這種高效的樣本復(fù)用技術(shù)可以作用于在線和離線采樣過程中，通過保留歷史訓(xùn)練中帶有非零優(yōu)勢(shì)的關(guān)鍵樣本，并在后續(xù)訓(xùn)練中優(yōu)先抽樣使用，大幅提升了訓(xùn)練信號(hào)的質(zhì)量與密度。

同樣，SSB具備三大核心優(yōu)勢(shì)：

優(yōu)先采樣機(jī)制：基于樣本優(yōu)勢(shì)值的絕對(duì)值進(jìn)行加權(quán)抽樣，強(qiáng)化對(duì)非零優(yōu)勢(shì)樣本的學(xué)習(xí)。
低成本高回報(bào)：通過反復(fù)利用高價(jià)值樣本，極大降低訓(xùn)練所需成本
效果顯著：即使使用少量樣本，模型依然能夠獲得高效的訓(xùn)練效果