IT之家 4 月 21 日消息,大阪都會大學(xué)醫(yī)學(xué)研究生院 Hirotaka Takita 博士和 Daiju Ueda 副教授領(lǐng)導(dǎo)的研究小組近期發(fā)布一項(xiàng)系統(tǒng)性回顧和薈萃分析,深入評估了生成式人工智能(AI)在診斷醫(yī)療狀況方面的表現(xiàn),并將其與醫(yī)生進(jìn)行了對比。

研究團(tuán)隊(duì)篩選了總計 18371 項(xiàng)研究,最終確定 83 項(xiàng)進(jìn)行詳細(xì)分析。這些研究涉及多種生成式 AI 模型,包括 GPT-4、Llama3 70B、Gemini 1.5 Pro 和 Claude 3 Sonnet 等,覆蓋了多個醫(yī)療領(lǐng)域。其中,GPT-4 是研究最多的模型。結(jié)果顯示,這些 AI 模型的平均診斷準(zhǔn)確率為 52.1%(95% 置信區(qū)間:47.0% - 57.1%)。部分模型的診斷準(zhǔn)確率與非專家醫(yī)生相當(dāng),兩者之間沒有顯著統(tǒng)計差異(準(zhǔn)確率差異:0.6% [95% 置信區(qū)間:-14.5% 至 15.7%],p=0.93)。然而,專家醫(yī)生的表現(xiàn)仍優(yōu)于 AI,其準(zhǔn)確率差距為 15.8%(95% 置信區(qū)間:4.4% - 27.1%,p=0.007)。盡管如此,隨著技術(shù)的不斷進(jìn)步,這一差距可能會逐漸縮小。
研究還發(fā)現(xiàn),AI 在大多數(shù)醫(yī)學(xué)專科的表現(xiàn)較為一致,但有兩個例外:皮膚科和泌尿科。在皮膚科,AI 的表現(xiàn)更為出色,這可能是因?yàn)樵擃I(lǐng)域涉及模式識別,而這是 AI 的強(qiáng)項(xiàng)。但皮膚科同樣需要復(fù)雜的推理和針對患者的決策,因此 AI 的優(yōu)勢并不能完全反映其在該領(lǐng)域的實(shí)際應(yīng)用價值。對于泌尿科,研究結(jié)果僅基于一項(xiàng)大型研究,因此其結(jié)論的普適性受到一定限制。
“這項(xiàng)研究表明,生成式 AI 的診斷能力與非專家醫(yī)生相當(dāng)。它可以用于醫(yī)學(xué)教育,支持非專家醫(yī)生,并在醫(yī)療資源有限的地區(qū)協(xié)助診斷。”Hirotaka Takita 博士表示,“未來的研究需要在更復(fù)雜的臨床場景中進(jìn)行評估,使用實(shí)際病歷進(jìn)行性能評估,提高 AI 決策的透明度,并在不同患者群體中進(jìn)行驗(yàn)證,以進(jìn)一步證實(shí) AI 的能力?!?/p>
IT之家注意到,除了診斷領(lǐng)域,該研究還強(qiáng)調(diào)了生成式 AI 在醫(yī)學(xué)教育中的潛力。研究人員指出:“當(dāng)前生成式 AI 模型在非專家環(huán)境下的表現(xiàn)與醫(yī)生相當(dāng),這為將 AI 整合到醫(yī)學(xué)培訓(xùn)中提供了機(jī)會。” AI 可以用于模擬真實(shí)病例,幫助醫(yī)學(xué)生和受訓(xùn)者學(xué)習(xí)和評估他們的技能。
然而,研究也對這些模型的透明度和偏見提出了擔(dān)憂。許多 AI 系統(tǒng)并未公開其訓(xùn)練數(shù)據(jù)的詳細(xì)信息,這引發(fā)了關(guān)于其結(jié)果是否適用于所有人群的疑問。研究人員強(qiáng)調(diào),“透明度確保了對模型知識、背景和局限性的理解”,并強(qiáng)調(diào)需要開發(fā)清晰、符合倫理且經(jīng)過充分驗(yàn)證的 AI 應(yīng)用。
目前,盡管生成式 AI 具有巨大潛力,但在涉及詳細(xì)患者信息的復(fù)雜病例中仍面臨挑戰(zhàn)。醫(yī)生們是否需要擔(dān)心失去工作?目前尚難定論,但在診斷領(lǐng)域,這種情況是有可能發(fā)生的。
熱門跟貼