·研究人員發(fā)現(xiàn),在生物醫(yī)療領(lǐng)域,盡管“定制版”垂類模型應(yīng)用對(duì)于醫(yī)學(xué)自然語言處理上仍有優(yōu)勢(shì),但涉及復(fù)雜的推理,尤其是醫(yī)學(xué)問答方面,閉源通用大模型GPT-4則更有明顯優(yōu)勢(shì)。

打開網(wǎng)易新聞 查看精彩圖片

澎湃新聞?dòng)浾?蔣立冬 AI創(chuàng)意

大模型在生物醫(yī)療領(lǐng)域的應(yīng)用情況如何?哪種模型更加適用?4月6日,《自然·通訊》(Nature Communications)雜志刊登了一項(xiàng)由耶魯大學(xué)醫(yī)學(xué)院的研究人員對(duì)大語言模型(LLMs)在生物醫(yī)學(xué)自然語言處理(BioNLP)中的全面評(píng)估與應(yīng)用指南(《Benchmarking large language models for biomedical natural language processing applications and recommendations》,以下簡(jiǎn)稱“指南”)。在該份指南中,研究人員選擇了12個(gè)來自 BioNLP 不同應(yīng)用領(lǐng)域的數(shù)據(jù)集,評(píng)估了四種具有代表性的大模型GPT-3.5、GPT-4、LLaMA 2 和 PMC LLaMA在零樣本、少樣本和微調(diào)設(shè)置下的性能。

生物醫(yī)學(xué)自然語言處理(BioNLP)技術(shù)是一種將自然語言處理技術(shù)應(yīng)用于生物醫(yī)學(xué)領(lǐng)域的交叉學(xué)科技術(shù),核心是從大量的生物醫(yī)學(xué)文本比如醫(yī)學(xué)論文、電子病歷、基因數(shù)據(jù)庫(kù)等中自動(dòng)提取有用的信息。

研究人員發(fā)現(xiàn),在生物醫(yī)療領(lǐng)域,僅靠持續(xù)擴(kuò)充預(yù)訓(xùn)練數(shù)據(jù)并不能顯著提升開源生物醫(yī)學(xué)大語言模型的整體表現(xiàn),針對(duì)具體醫(yī)學(xué)任務(wù)的微調(diào)才是關(guān)鍵。比如生物醫(yī)學(xué)領(lǐng)域特定大模型的代表PMC -LLaMA,使用了32個(gè)A100 GPU對(duì)模型進(jìn)行預(yù)訓(xùn)練,但最終評(píng)估并未發(fā)現(xiàn)該模型的性能有顯著提升。PMC -LLaMA是由上海交通大學(xué)長(zhǎng)聘軌副教授謝偉迪研究團(tuán)隊(duì)于2023年4月研發(fā)的垂類模型,基座模型使用的是LLaMA 2;研究人員發(fā)現(xiàn),直接微調(diào)LLaMA 2可以獲得更好或至少相似的性能。通過微調(diào),模型可以針對(duì)性地學(xué)習(xí)醫(yī)學(xué)領(lǐng)域的專業(yè)知識(shí)和復(fù)雜推理要求,從而在信息抽取、醫(yī)學(xué)問答等任務(wù)上實(shí)現(xiàn)顯著性能提升。

研究人員建議,未來在生物醫(yī)療應(yīng)用中,應(yīng)更多關(guān)注如何優(yōu)化微調(diào)策略,以彌補(bǔ)預(yù)訓(xùn)練在處理專業(yè)醫(yī)學(xué)文本時(shí)的不足?!靶枰环N更有效、更可持續(xù)的方法來開發(fā)特定于生物醫(yī)學(xué)領(lǐng)域的大語言模型?!毖芯咳藛T稱。

相較于通用大模型,針對(duì)生物醫(yī)療領(lǐng)域里的“定制版”模型BioBERT和PubMedBERT(注釋:Bert是一款由谷歌開發(fā)的預(yù)訓(xùn)練語言模型),在醫(yī)學(xué)自然語言處理表現(xiàn)更出色。由于經(jīng)過專業(yè)的醫(yī)學(xué)數(shù)據(jù)訓(xùn)練,BioBERT和PubMedBERT這類“定制版”模型能夠更精準(zhǔn)地識(shí)別疾病名稱、基因、化學(xué)物質(zhì)以及理解醫(yī)學(xué)術(shù)語,這一點(diǎn)表現(xiàn)比GPT-3.5和GPT-4為代表的通用大型語言模型更好。但涉及較為復(fù)雜的推理任務(wù),尤其是醫(yī)學(xué)問答方面,GPT-4則更有明顯優(yōu)勢(shì),能夠“看懂并能思考”,生成更合理以及準(zhǔn)確的回應(yīng)。

對(duì)于生物醫(yī)藥行業(yè)普遍關(guān)心的大模型幻覺問題,此次研究結(jié)果表明,GPT-4在兩個(gè)數(shù)據(jù)集上幾乎沒有出現(xiàn)幻覺問題。在零樣本條件下,通用開源模型LLaMA 2則更容易出現(xiàn)幻覺問題,比如輸出時(shí)常常出現(xiàn)信息不完整、格式不一致或提示無關(guān)內(nèi)容的情況,它產(chǎn)生的幻覺案例約占測(cè)試樣本的32%,比例遠(yuǎn)超GPT-3.5和GPT-4。

盡管GPT-4在眾多評(píng)估任務(wù)中表現(xiàn)優(yōu)異,但研究人員指出,其調(diào)用成本相當(dāng)于GPT-3.5的60至100倍。對(duì)于預(yù)算有限的實(shí)際應(yīng)用場(chǎng)景,醫(yī)學(xué)機(jī)構(gòu)可能會(huì)傾向于選用成本較低且效果可接受的GPT-3.5;而對(duì)于準(zhǔn)確性要求極高、尤其是醫(yī)學(xué)問答這類依賴復(fù)雜推理的任務(wù)中,GPT-4可能會(huì)是更理想的選擇。