本文提出了 MedVLM-R1,這是一種集成 DeepSeek GRPO 強(qiáng)化學(xué)習(xí)的醫(yī)學(xué) VLM,旨在彌合放射學(xué) VQA 中的準(zhǔn)確性、可解釋性和穩(wěn)健性差距。模型通過顯式推理提升透明度和可信度,這在高風(fēng)險(xiǎn)臨床環(huán)境中至關(guān)重要。結(jié)果顯示,強(qiáng)化學(xué)習(xí)比純 SFT 方法在 OOD 設(shè)置下泛化能力更強(qiáng)。盡管醫(yī)學(xué) VLM 仍處于早期且面臨挑戰(zhàn),研究人員認(rèn)為其在提供更安全透明的醫(yī)療解決方案方面具有潛力,并應(yīng)得到行業(yè)重視與鼓勵。

射學(xué)影像是現(xiàn)代醫(yī)療診斷的關(guān)鍵,每年全球約有 80 億次影像檢查。隨著 AI 技術(shù)的快速發(fā)展,醫(yī)學(xué)視覺語言模型 (VLM) 在放射學(xué)任務(wù)中顯示出良好的前景,但大多數(shù)現(xiàn)有的 VLM 僅產(chǎn)生最終答案而不展示底層推理。

醫(yī)學(xué)推理在臨床應(yīng)用中扮演著至關(guān)重要的角色。一方面,醫(yī)生對于 AI 診斷結(jié)果的「可理解、可追溯」有著強(qiáng)烈需求;另一方面,監(jiān)管部門也往往更關(guān)注模型輸出的透明度,以確保臨床安全性和合規(guī)性。

當(dāng)前大多數(shù)醫(yī)學(xué)視覺語言模型往往只輸出最終答案或「偽解釋」,缺少完整推理鏈條,難以獲得信任。因此,如何既保持高準(zhǔn)確率,又能為醫(yī)生和監(jiān)管部門提供透明可信的推理過程,一直是擺在醫(yī)療 AI 面前的重大挑戰(zhàn)。

為了彌補(bǔ)這一差距,慕尼黑工業(yè)大學(xué)(Technische Universit?t München,TUM)、牛津大學(xué)(University of Oxford)、帝國理工學(xué)院(Imperial College London)、麻省總醫(yī)院(Massachusetts General Hospital)、謝菲爾德大學(xué)(University of Sheffield)的合作團(tuán)隊(duì)推出了 MedVLM-R1,一款在關(guān)注提供高準(zhǔn)確率的同時(shí),具備明確自然語言推理能力的醫(yī)學(xué)視覺語言模型。

通過采用 DeepSeek 的強(qiáng)化學(xué)習(xí)框架,激勵模型在不使用任何推理參考的情況下發(fā)現(xiàn)人類可解釋的推理路徑。它在僅有 600 個(gè)視覺問答(VQA)樣本、2B參數(shù)規(guī)模的輕量級條件下,在 MRI、CT 和 X 射線基準(zhǔn)測試中的準(zhǔn)確率從 55.11% 提高到了 78.22% 準(zhǔn)確率,遠(yuǎn)超在大規(guī)模數(shù)據(jù)上訓(xùn)練的同類大模型,為可解釋的醫(yī)學(xué)影像分析開辟了新思路。

通過將醫(yī)學(xué)圖像分析與顯式推理相結(jié)合,MedVLM-R1 標(biāo)志著邁向臨床實(shí)踐中值得信賴和可解釋的 AI 的關(guān)鍵一步。

打開網(wǎng)易新聞 查看精彩圖片

論文標(biāo)題: MedVLM-R1: Incentivizing Medical Reasoning Capability of Vision-Language Models (VLMs) via Reinforcement Learning 論文鏈接: https://arxiv.org/abs/2502.19634 模型開源地址: https://huggingface.co/JZPeterPan/MedVLM-R1

放射學(xué)影像在現(xiàn)代醫(yī)療中至關(guān)重要,每年會進(jìn)行超過 80 億次掃描。隨著診斷需求增長,AI 驅(qū)動的影像解讀需求日益迫切。

醫(yī)學(xué)視覺語言模型(VLMs)在 MRI、CT 和 X 射線影像的視覺問答(VQA)中展現(xiàn)出潛力,可輔助醫(yī)生和患者,但現(xiàn)有模型多依賴監(jiān)督微調(diào)(SFT),存在過擬合、捷徑學(xué)習(xí)以及對分布外數(shù)據(jù)(OOD)表現(xiàn)不佳的問題,且僅提供最終答案或「偽解釋」,缺乏逐步推理能力,難以滿足臨床對可解釋性和可信度的需求。

強(qiáng)化學(xué)習(xí)(RL)通過獎勵模型自主發(fā)現(xiàn)邏輯步驟,顯示出優(yōu)于 SFT 的泛化能力,但傳統(tǒng)RL依賴神經(jīng)獎勵模型,資源消耗大。近日,DeepSeek推出的群體相對策略優(yōu)化(GRPO)通過規(guī)則化策略減少計(jì)算需求,在資源有限的醫(yī)療領(lǐng)域具有潛力,但尚未得到充分探索和應(yīng)用。在最新的研究中,研究人員提出了 MedVLM-R1,這是第一個(gè)能夠通過使用DeepSeek GRPO 技術(shù)進(jìn)行訓(xùn)練來生成具有明確推理的答案的醫(yī)學(xué)視覺語言模型,可用于放射學(xué) VQA 任務(wù)。主要貢獻(xiàn)如下:

  • 具有明確推理的醫(yī)學(xué) VLM:他們推出了 MedVLM-R1,這是第一個(gè)輕量級醫(yī)學(xué) VLM,能夠在最終答案的同時(shí)生成明確推理,而不僅僅是提供最終答案。

  • 無需明確監(jiān)督的新興推理:與需要具有復(fù)雜推理步驟的數(shù)據(jù)的傳統(tǒng) SFT 方法不同,MedVLM R1 使用 GRPO 和僅包含最終答案的數(shù)據(jù)集進(jìn)行訓(xùn)練,展示了無需明確監(jiān)督的新興推理能力。

  • 卓越的泛化能力和效率:MedVLM-R1 實(shí)現(xiàn)了對分布外數(shù)據(jù)(例如 MRI → CT/X 射線)的穩(wěn)健泛化,并且盡管是一個(gè)僅在 600 個(gè)樣本上訓(xùn)練的緊湊型 2B 參數(shù)模型,但它的表現(xiàn)優(yōu)于 Qwen2VL-72B 和 Huatuo-GPT-Vision-7B 等更大的模型。

打開網(wǎng)易新聞 查看精彩圖片

圖示:團(tuán)隊(duì)使用的提示的模板,模型響應(yīng)和獎勵標(biāo)準(zhǔn)的一個(gè)例子。(來源:論文)
一、總體表現(xiàn)

下表總結(jié)了各種 VLM 的域內(nèi) (ID) 和域外(OOD)性能。ID/OOD 專門指在 MRI 數(shù)據(jù)上微調(diào)的模型。

打開網(wǎng)易新聞 查看精彩圖片

比較結(jié)果顯示,使用 GRPO 和 SFT 微調(diào)的 VLM 在域內(nèi)任務(wù)上的表現(xiàn)明顯優(yōu)于零樣本通用 VLM。團(tuán)隊(duì)的 GRPO 訓(xùn)練模型表現(xiàn)出非常強(qiáng)大的 OOD 性能,與 SFT 同類模型相比,CT 圖像提高了 16%,X 射線圖像提高了 35%,凸顯了 GRPO 卓越的通用性。

此外,盡管 MedVLM-R1 是一個(gè)僅使用 600 個(gè)樣本進(jìn)行訓(xùn)練的緊湊型 2B 參數(shù)模型,但它的表現(xiàn)優(yōu)于 Qwen2-VL-72B 和 HuatuoGPT-Vision-7B 等大型模型,后者專門針對大規(guī)模醫(yī)療數(shù)據(jù)進(jìn)行訓(xùn)練。這凸顯了基于 RL 的訓(xùn)練方法在高效且可擴(kuò)展的醫(yī)療 VLM 開發(fā)方面的巨大潛力。

二、推理能力和可解釋性

除了強(qiáng)大的泛化能力之外,MedVLM-R1 的核心優(yōu)勢在于它能夠產(chǎn)生明確的推理能力——這是所有基線所不具備的能力。如下圖所示,MedVLM-R1 在標(biāo)簽內(nèi)呈現(xiàn)了一個(gè)邏輯思維過程,最終決策包含在標(biāo)簽中。

打開網(wǎng)易新聞 查看精彩圖片

圖示:MedVLM-R1 在 X 射線(1、2)、MRI(3)和 CT(4)上的醫(yī)學(xué) VQA 示例。(來源:論文)

值得注意的是,對于相對較簡單的問題(問題 1 和 2),推理似乎很有說服力,并且與醫(yī)學(xué)知識相符。然而,更復(fù)雜的查詢有時(shí)會顯示啟發(fā)式或只是部分推理。

例如,在第三個(gè)樣本中,模型通過排除法而不是詳細(xì)的醫(yī)學(xué)分析得出了正確答案,這表明它利用了基于線索的推理,而不是領(lǐng)域?qū)I(yè)知識。

同樣,在某些情況下(例如問題 4),推理和結(jié)論之間的因果關(guān)系仍然不清楚,這引發(fā)了一個(gè)問題:模型是否只是在預(yù)測正確答案后編造了相對應(yīng)的解釋。盡管存在這些缺陷,但 MedVLM-R1 代表了放射學(xué)決策可解釋性方面邁出的顯著一步。

三、局限性

盡管 MedVLM-R1 在 MRI、CT 和 X 射線數(shù)據(jù)集中表現(xiàn)出色,但仍存在一些局限性:

  1. 模式差距:在其他醫(yī)學(xué)模式(例如病理學(xué)或 OCT 圖像)上進(jìn)行測試時(shí),該模型無法收斂。研究人員假設(shè)這是由于基礎(chǔ)模型在預(yù)訓(xùn)練期間對這些模式的接觸不足造成的。

  2. 封閉集依賴性:當(dāng)前方法適用于多項(xiàng)選擇(封閉集)VQA。在沒有提供預(yù)定義選項(xiàng)的開放式問題設(shè)置中,模型的性能會大幅下降。這也是許多 VLM 面臨的共同挑戰(zhàn)。

  3. 膚淺/幻覺推理:在難度較大的任務(wù)推理任務(wù)中,MedVLM-R1有時(shí)仍能 提供正確答案,但僅僅會提供膚淺的推理過程(例如,“思考:讓我們來看一下這張核磁共振圖片。答案:A。”)。此外在這些難度較大的任務(wù)中,模型推理得出的結(jié)論可能會與最終給出的答案自相矛盾。這種現(xiàn)象說明,即使是為可解釋性而設(shè)計(jì)的模型有時(shí)也會出現(xiàn)膚淺/幻覺的論證,凸顯了在生成始終透明且合乎邏輯的合理性方面仍然存在挑戰(zhàn)。

關(guān)于所有這些問題,團(tuán)隊(duì)認(rèn)為他們基礎(chǔ)模型的當(dāng)前 2B 參數(shù)規(guī)模構(gòu)成了潛在的瓶頸,接下來計(jì)劃在更大的 VLM 主干上評估 MedVLM-R1 以解決這些問題。

四、結(jié)語

總之,團(tuán)隊(duì)提出了 MedVLM-R1,一種集成了基于DeepSeek GRPO 的強(qiáng)化學(xué)習(xí)的醫(yī)學(xué) VLM,用于彌合放射學(xué) VQA 中準(zhǔn)確性、可解釋性和穩(wěn)健性能之間的差距。通過專注于顯式推理,該模型提高了透明度和可信度——這些能力在高風(fēng)險(xiǎn)臨床環(huán)境中必不可少。

他們的結(jié)果表明,基于 強(qiáng)化學(xué)習(xí)的方法比純 SFT 方法具有更好的泛化能力,尤其是在 OOD 設(shè)置下。雖然基于 視覺語言模型 的醫(yī)學(xué)推理仍處于起步階段并面臨相當(dāng)大的挑戰(zhàn),但研究人員相信,它在提供更安全、更透明的醫(yī)療解決方案的潛力會受到行業(yè)的重視并應(yīng)受行業(yè)的到鼓勵。

來源: 公眾號【ScienceAI】

llustration From IconScout By IconScout Store

-The End-

掃碼觀看!

本周上新!

“AI技術(shù)流”原創(chuàng)投稿計(jì)劃

TechBeat是由將門創(chuàng)投建立的AI學(xué)習(xí)社區(qū)(

www.techbeat.net
) 。 社區(qū)上線600+期talk視頻,3000+篇技術(shù)干貨文章,方向覆蓋CV/NLP/ML/Robotis等;每月定期舉辦頂會及其他線上交流活動,不定期舉辦技術(shù)人線下聚會交流活動。我們正在努力成為AI人才喜愛的高質(zhì)量、知識型交流平臺,希望為AI人才打造更專業(yè)的服務(wù)和體驗(yàn),加速并陪伴其成長。

投稿內(nèi)容

// 最新技術(shù)解讀/系統(tǒng)性知識分享 //

// 前沿資訊解說/心得經(jīng)歷講述 //

投稿須知

稿件需要為原創(chuàng)文章,并標(biāo)明作者信息。

我們會選擇部分在深度技術(shù)解析及科研心得方向,對用戶啟發(fā)更大的文章,做原創(chuàng)性內(nèi)容獎勵

投稿方式

發(fā)送郵件到

melodybai@thejiangmen.com

或添加工作人員微信(yellowsubbj)投稿,溝通投稿詳情;還可以關(guān)注“將門創(chuàng)投”公眾號,后臺回復(fù)“投稿”二字,獲得投稿說明。

關(guān)于我“門”

將門是一家以專注于數(shù)智核心科技領(lǐng)域新型創(chuàng)投機(jī)構(gòu),也是北京市標(biāo)桿型孵化器。 公司致力于通過連接技術(shù)與商業(yè),發(fā)掘和培育具有全球影響力的科技創(chuàng)新企業(yè),推動企業(yè)創(chuàng)新發(fā)展與產(chǎn)業(yè)升級。

將門成立于2015年底,創(chuàng)始團(tuán)隊(duì)由微軟創(chuàng)投在中國的創(chuàng)始團(tuán)隊(duì)原班人馬構(gòu)建而成,曾為微軟優(yōu)選和深度孵化了126家創(chuàng)新的技術(shù)型創(chuàng)業(yè)公司。

如果您是技術(shù)領(lǐng)域的初創(chuàng)企業(yè),不僅想獲得投資,還希望獲得一系列持續(xù)性、有價(jià)值的投后服務(wù),歡迎發(fā)送或者推薦項(xiàng)目給我“門”:

bp@thejiangmen.com

打開網(wǎng)易新聞 查看精彩圖片

點(diǎn)擊右上角,把文章分享到朋友圈