MedKGEval團(tuán)隊(duì) 投稿
量子位 | 公眾號(hào) QbitAI
醫(yī)療大模型知識(shí)覆蓋度首次被精準(zhǔn)量化!
在醫(yī)療領(lǐng)域,大語言模型(LLM)的潛力令人振奮,但其知識(shí)儲(chǔ)備是否足夠可靠?騰訊優(yōu)圖實(shí)驗(yàn)室天衍研究中心的最新研究給出了答案。
他們提出的MedKGEval框架,首次通過醫(yī)療知識(shí)圖譜(KG)的多層級(jí)評(píng)估,系統(tǒng)揭示了GPT-4o等主流模型的醫(yī)學(xué)知識(shí)覆蓋度。
該研究已被WWW 2025會(huì)議Web4Good Track錄用為口頭報(bào)告(oral)。目前,WWW 2025正在悉尼舉行,會(huì)議時(shí)間從4月28日持續(xù)至5月2日。

背景
大語言模型(LLM)在醫(yī)療領(lǐng)域的快速發(fā)展凸顯了其知識(shí)存儲(chǔ)與處理的潛力,但其臨床部署前的可靠性驗(yàn)證亟需更系統(tǒng)化的評(píng)估框架。
當(dāng)前主流的Prompt-CBLUE、Medbench和MedJourney等評(píng)估體系雖通過醫(yī)學(xué)問答基準(zhǔn)測(cè)試LLM的任務(wù)執(zhí)行能力,卻存在三個(gè)明顯的局限:
1)其長尾數(shù)據(jù)分布導(dǎo)致罕見病癥覆蓋不足,評(píng)測(cè)結(jié)果存在偏差;
2)任務(wù)導(dǎo)向的設(shè)計(jì)聚焦疾病預(yù)測(cè)、用藥咨詢等單一場(chǎng)景,難以量化模型內(nèi)在醫(yī)學(xué)知識(shí)儲(chǔ)量;
3)傳統(tǒng)問答形式局限于表面對(duì)錯(cuò)判斷,無法捕捉醫(yī)學(xué)概念間的復(fù)雜拓?fù)潢P(guān)聯(lián)。
為解決這些問題,本文提出基于醫(yī)療知識(shí)圖譜(KG)的多層級(jí)評(píng)估框架MedKGEval。
醫(yī)療KG通過結(jié)構(gòu)化存儲(chǔ)復(fù)雜實(shí)體關(guān)系網(wǎng)絡(luò),為評(píng)估提供天然基準(zhǔn)。框架創(chuàng)新性地設(shè)計(jì)三級(jí)評(píng)估體系:實(shí)體層評(píng)估醫(yī)學(xué)概念理解,關(guān)系層檢驗(yàn)醫(yī)學(xué)關(guān)聯(lián)區(qū)分能力,子圖層驗(yàn)證結(jié)構(gòu)化推理水平。
通過真?zhèn)闻袛嗪投噙x題形式,同時(shí)實(shí)現(xiàn)任務(wù)導(dǎo)向(task-oriented)的粗粒度性能評(píng)估與知識(shí)導(dǎo)向(knowledge-oriented)的細(xì)粒度三重覆蓋度測(cè)量(實(shí)體/關(guān)系/知識(shí)三元組)。
醫(yī)療知識(shí)覆蓋度評(píng)估框架MedKGEval
在MedKGEval中研究團(tuán)隊(duì)設(shè)計(jì)了多層級(jí)的任務(wù)體系,其中包含3個(gè)層級(jí)的9項(xiàng)核心任務(wù),通過真?zhèn)闻袛啵═FQ)與多選題(MCQ)任務(wù)形式,實(shí)現(xiàn)任務(wù)導(dǎo)向與知識(shí)導(dǎo)向的雙重評(píng)測(cè)。
具體評(píng)估流程框架見下圖。

任務(wù)架構(gòu)設(shè)計(jì)
基于醫(yī)療知識(shí)圖譜的實(shí)體、關(guān)系、三元組結(jié)構(gòu),構(gòu)建三級(jí)評(píng)估體系:
實(shí)體層面(3項(xiàng)任務(wù)):驗(yàn)證醫(yī)學(xué)概念理解
- 實(shí)體類型標(biāo)注(ET):通過多選題識(shí)別“糖尿病”等實(shí)體的分類標(biāo)簽(如疾病/癥狀)
- 實(shí)體聚類(EC):從5個(gè)實(shí)體中辨識(shí)類型異常項(xiàng)(如混入癥狀類別的藥物實(shí)體)
- 實(shí)體消歧(ED):判斷兩個(gè)實(shí)體是否等價(jià),比如“阿司匹林”與“乙酰水楊酸”是否為等價(jià)實(shí)體
關(guān)系層面(3項(xiàng)任務(wù)):檢驗(yàn)醫(yī)學(xué)關(guān)聯(lián)認(rèn)知
- 關(guān)系類型標(biāo)注(RT):選擇“并發(fā)癥”關(guān)系可連接的實(shí)體類型對(duì)(如疾病→疾病)
- 事實(shí)核驗(yàn)(FC):判斷三元組的真?zhèn)?,比如“布洛?治療-偏頭痛”
- 關(guān)系預(yù)測(cè)(RP):補(bǔ)全實(shí)體之間缺失的關(guān)系,比如“冠狀動(dòng)脈硬化→(?)→心肌梗死”
子圖層面(3項(xiàng)任務(wù)):評(píng)估結(jié)構(gòu)化推理
- 錯(cuò)誤識(shí)別(ER):從5個(gè)三元組中檢測(cè)異常項(xiàng)(如錯(cuò)誤藥物禁忌關(guān)系)
- 子圖推理1(R1):基于多跳關(guān)系推理,比如基于“高血壓→并發(fā)癥→腦出血→影像檢查→CT”路徑,推斷“高血壓→影像檢查→CT”是否成立
- 子圖推理2(R2):在相同推理鏈中,從候選關(guān)系中選擇正確關(guān)聯(lián)

隨著利用的KG信息增多,任務(wù)難度也在逐漸升高,這樣階梯式、多層級(jí)的評(píng)估更有利用全面了解LLMs的性能。
任務(wù)導(dǎo)向和知識(shí)導(dǎo)向的評(píng)估機(jī)制
在每項(xiàng)任務(wù)中均配備評(píng)估核心實(shí)體/關(guān)系映射(如上圖 core E and R),實(shí)現(xiàn)細(xì)粒度知識(shí)覆蓋分析:
任務(wù)導(dǎo)向評(píng)估:計(jì)算準(zhǔn)確率指標(biāo)
知識(shí)導(dǎo)向評(píng)估:
- 實(shí)體覆蓋率:實(shí)體正確率均值(CovAvg-E)、引入節(jié)點(diǎn)中心度加權(quán)(CovDeg-E)
- 關(guān)系覆蓋率:關(guān)系正確率均值(CovAvg-R)、按關(guān)系出現(xiàn)頻次加權(quán)(CovDeg-R)
- 三元組覆蓋率Cov-T:反映知識(shí)單元整體掌握度

實(shí)驗(yàn)及評(píng)估結(jié)果
MedKGEval選用中文醫(yī)療領(lǐng)域主流知識(shí)圖譜CPubMedKG和CMeKG作為基準(zhǔn),經(jīng)下采樣構(gòu)建實(shí)驗(yàn)數(shù)據(jù)集。
評(píng)估模型涵蓋三大類:1)開源通用模型;2)醫(yī)療垂類模型;3)閉源模型。
下表展示了11個(gè)LLM的任務(wù)導(dǎo)向評(píng)估結(jié)果,可以看到:GPT-4o以70.65%平均準(zhǔn)確率領(lǐng)先;同架構(gòu)LLM參數(shù)量翻倍帶來3-5%準(zhǔn)確率提升;大多LLM在實(shí)體層面任務(wù)上表現(xiàn)優(yōu)于關(guān)系和子圖層面;通用模型性能超越醫(yī)療垂類模型(歸因分析:垂類模型微調(diào)數(shù)據(jù)側(cè)重具體任務(wù)(如用藥咨詢、醫(yī)患對(duì)話摘要),導(dǎo)致醫(yī)學(xué)知識(shí)廣度受限)。

下表展示了11個(gè)LLM的知識(shí)導(dǎo)向評(píng)估結(jié)果,可以看到:GPT-4o在CPubMedKG (small)上覆蓋了65.66%的實(shí)體、55.60%的關(guān)系、62.31%的三元組;更大的參數(shù)量通常會(huì)帶來更高的知識(shí)覆蓋度;CovAvg 和 CovDeg 的對(duì)比體現(xiàn)出了LLM對(duì)高關(guān)聯(lián)度實(shí)體(如糖尿病)和高頻關(guān)系(如鑒別診斷)的偏好性:CovAvg < CovDeg 說明 LLM 在高關(guān)聯(lián)度實(shí)體的上表現(xiàn)更好、反之說明 LLM 在低關(guān)聯(lián)度實(shí)體上表現(xiàn)更好。

接下來,研究團(tuán)隊(duì)使用MedKGEval評(píng)估框架對(duì)四個(gè)示例LLM在關(guān)聯(lián)度最高的15個(gè)實(shí)體和最高頻的15個(gè)關(guān)系上的知識(shí)覆蓋情況進(jìn)行分析。
以常用臨床實(shí)體“超聲”為例,可以看到GPT-4o以94.16%正確率領(lǐng)先,Qwen2-7B(88.83%)、WiNGPT2(85.41%)次之。

在醫(yī)學(xué)關(guān)系覆蓋度上,4個(gè)LLM也表現(xiàn)出了類似的特點(diǎn)。

分析結(jié)果表明,MedKGEval能有效定位LLM在特定醫(yī)學(xué)知識(shí)領(lǐng)域的認(rèn)知缺陷。
這些發(fā)現(xiàn)對(duì)模型優(yōu)化具有重要指導(dǎo)價(jià)值:如上圖所示,WiNGPT在“肺結(jié)核”實(shí)體相關(guān)問答中表現(xiàn)欠佳、Baichuan2-13B在“相關(guān)(轉(zhuǎn)換)”關(guān)系中存在明顯短板。
因此,在下輪微調(diào)中建議針對(duì)性補(bǔ)充結(jié)核病診療指南和病理轉(zhuǎn)化機(jī)制相關(guān)數(shù)據(jù),通過基于知識(shí)缺陷診斷的定向增強(qiáng)策略,可顯著提升醫(yī)療領(lǐng)域LLM的整體性能。
總結(jié)
本文提出的MedKGEval框架通過醫(yī)療KG視角,構(gòu)建了評(píng)估LLM醫(yī)學(xué)知識(shí)覆蓋度的多維度體系。
該框架在實(shí)體、關(guān)系和子圖三個(gè)層級(jí)展開評(píng)估,系統(tǒng)揭示了當(dāng)前大語言模型在醫(yī)學(xué)知識(shí)存儲(chǔ)與推理能力方面的優(yōu)勢(shì)與局限。
研究團(tuán)隊(duì)提出的的任務(wù)導(dǎo)向與知識(shí)導(dǎo)向雙軌評(píng)估機(jī)制,不僅能夠精準(zhǔn)定位模型的知識(shí)薄弱環(huán)節(jié),更為提升醫(yī)療領(lǐng)域LLM的可靠性和臨床應(yīng)用價(jià)值提供了量化依據(jù)。
論文地址:https://dl.acm.org/doi/10.1145/3696410.3714535
代碼地址:https://github.com/ZihengZZH/MedKGEval
熱門跟貼