打開網(wǎng)易新聞 查看精彩圖片

新智元報道

編輯:LRST 好困

【新智元導讀】通過蒙特卡洛樹搜索篩選高難度樣本,ThinkLite-VL僅用少量數(shù)據(jù)就能顯著提升視覺語言模型的推理能力,無需知識蒸餾,為高效訓練提供了新思路。

在大模型時代,視覺語言模型(Vision-Language Models, VLMs)正在從感知走向推理。在諸如圖像問答、圖表理解、科學推理等任務中,VLM不再只需要「看見」和「描述」,而是要能「看懂」和「想清楚」。

然而,當前主流的推理能力提升方法普遍存在兩個問題:

1.訓練樣本質量參差不齊:常見的數(shù)據(jù)集雖然體量龐大,但真正「有挑戰(zhàn)性」的樣本比例較低。

2.過度依賴知識蒸餾:許多模型在訓練時依賴大型模型(如GPT-4o)的推理過程作為教師信號,使得訓練流程復雜且難以推廣。

這使得訓練一個高性能的VLM成本極高,也限制了模型的自主學習能力。

能否通過自我提升,訓練出高性能的推理模型?

近日,來自馬里蘭大學,密歇根大學,和微軟的團隊聯(lián)合提出了ThinkLite-VL模型試圖打破這種依賴,探索「數(shù)據(jù)更少、能力更強」的可能性。

打開網(wǎng)易新聞 查看精彩圖片

論文鏈接:https://arxiv.org/pdf/2504.07934

GitHub項目主頁:https://github.com/si0wang/ThinkLite-VL

Hugging Face主頁:https://huggingface.co/russwang/ThinkLite-VL-7B

論文主要關注一個核心問題:如果不給VLM額外的「教師指導」(如知識蒸餾),能否僅通過自身的反饋機制和強化學習訓練,獲得強大的推理能力?

直覺上,答案是肯定的:人類也可以通過不斷嘗試、失敗和總結來提升自己的推理能力。但對模型而言,這需要我們解決一個關鍵挑戰(zhàn)——如何準確判斷哪些訓練樣本是「值得學」的?

打開網(wǎng)易新聞 查看精彩圖片

用MCTS判斷「樣本難度」,篩選高質量訓練集

ThinkLite-VL的最大創(chuàng)新在于:蒙特卡洛樹搜索(Monte Carlo Tree Search, MCTS)來重新定義「樣本難度」。

研究人員首先從廣泛使用的開源多模態(tài)訓練數(shù)據(jù)集中收集了70k的樣本,涵蓋了三個關鍵的視覺任務:數(shù)學推理,自然圖像理解和圖表理解,具體的數(shù)據(jù)分布和來源如下表所示。

打開網(wǎng)易新聞 查看精彩圖片

值得注意的是,為了避免大模型在回答過程中因為選擇題選項中提供了正確答案而「蒙對」,研究人員將大部分的樣本從選擇題格式改成了開放問答格式,這樣一來模型就必須依靠自身的推理能力真正理解題目并解決問題,真正的把題做對。

之后,研究人員提出了一種基于蒙特卡洛樹搜索(MCTS)的樣本選擇方式。

具體來說,大模型將問題和圖像作為輸入,讓模型通過蒙特卡洛樹搜索進行一步步推理,然后記錄模型需要通過多少次推理迭代才能得到正確答案。模型所需要的MCTS迭代次數(shù)越多,說明模型需要通過更多的探索和思考才能解決問題,表明該問題對于模型來說更難。

整個過程中,只使用了VLM本身的LLM部分判斷MCTS final answer的正確與否,模型通過解題成功的探索次數(shù)認識到哪些題是「難題」,并將其作為學習重點。

在對所有的樣本都進行MCTS之后,作者最終篩選出迭代次數(shù)大于5或在50次迭代內模型都無法解決的樣本,總共11k,作為最終的訓練集。

打開網(wǎng)易新聞 查看精彩圖片

強化學習訓練:少樣本+困難樣本,推理效果更強

研究人員基于Qwen2.5-VL-7B-Instruct,在選出的11k樣本上使用GRPO進行了強化學習訓練,得到了最終的模型 ThinkLite-VL-7B。相比于其他reasoning model來說,ThinkLite-VL-7B大大減少了訓練數(shù)據(jù)量,并且沒有蒸餾任何外部推理模型的知識。

打開網(wǎng)易新聞 查看精彩圖片

在八個主流視覺推理任務上進行測試,包括MathVista, MathVerse, MathVision,MMMU,MMStar, MMVet, MMBench和AI2D, 結果發(fā)現(xiàn)ThinkLite-VL-7B的平均性能相比base model Qwen2.5-VL-7B-Instruct提升了7%,從59.69 提高到 63.89,并且顯著優(yōu)于使用隨機采樣選擇相同大小數(shù)據(jù)量進行強化學習訓練的模型。

此外,相比7B級別的其他reasoning VLM,ThinkLite-VL-7B同樣具有明顯優(yōu)勢,包括OpenVLThinker-7B,MM-Eureka-Qwen-7B等。

特別地,在MathVista上ThinkLite-VL-7B達到了75.1的SoTA準確率,超過了GPT-4o和o1等閉源模型和Qwen2.5-VL-72B等開源更大參數(shù)量的模型。

打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片

這意味著,即使在沒有額外監(jiān)督、沒有知識蒸餾、沒有大規(guī)模數(shù)據(jù)的前提下,只需要正確選擇少量對于VLM具有挑戰(zhàn)性的高質量樣本,VLM也能通過self-improve顯著提升推理能力。

研究人員進一步對不同難度組合的訓練集進行了消融分析,發(fā)現(xiàn):

  1. 僅用最難的樣本(無法解出)可以提升能力,但效果不及中等+困難樣本的組合;

  2. 簡單樣本雖然在訓練過程中快速提升reward,但對最終推理能力提升作用有限;

  3. 使用中等難度加上困難樣本的組合才能最大程度提升模型的推理能力,即使模型在訓練中無法解決全部的樣本。

這一發(fā)現(xiàn)對未來的模型訓練有重要啟示:合理的樣本難度分布比樣本數(shù)量更關鍵。

論文一作王璽堯是馬里蘭大學計算機系三年級phd,導師為Furong Huang教授,主要研究方向為強化學習在大語言模型和視覺語言模型訓練中的應用,在ICML, NeurIPS, ICLR, ACL, EMNLP, NAACL, CVPR等會議上發(fā)表過多篇論文。

打開網(wǎng)易新聞 查看精彩圖片

參考資料:

https://arxiv.org/pdf/2504.07934