著名投資人朱嘯虎指出,AI 領(lǐng)域中大廠與創(chuàng)業(yè)公司正上演一場(chǎng) “資源錯(cuò)位戰(zhàn)”—— 大廠聚焦參數(shù)升級(jí)的 “軍備競(jìng)賽”,而中小創(chuàng)業(yè)者的破局點(diǎn)在于深耕大廠無(wú)暇或不愿顧及的細(xì)分賽道。

醫(yī)療行業(yè)具有高風(fēng)險(xiǎn)性,容錯(cuò)率極低,對(duì)準(zhǔn)確性和嚴(yán)謹(jǐn)性有著極高要求,通用大模型難以完全滿足其獨(dú)特需求,醫(yī)療行業(yè)常被視為“數(shù)字化攻堅(jiān)的最難陣地”。從全國(guó)各地AI企業(yè)的發(fā)展情況來(lái)看,越來(lái)越多的企業(yè)已經(jīng)意識(shí)到細(xì)分賽道的重要性,并在垂直領(lǐng)域的行業(yè)大模型上加大投入,積極發(fā)力。

為什么醫(yī)療行業(yè)需要垂直大模型

方舟健客技術(shù)高級(jí)副總裁郭陟認(rèn)為,AI在醫(yī)療場(chǎng)景的落地應(yīng)用,靠算力和通用模型可達(dá)到60分及格線,但要達(dá)到80分以上,需依賴專業(yè)算法和高質(zhì)量數(shù)據(jù)。我們換一個(gè)更通俗的說(shuō)法,在醫(yī)療領(lǐng)域,通用大模型和垂直大模型的關(guān)系可以用"醫(yī)學(xué)生"和"婦科專家"的成長(zhǎng)路徑來(lái)理解:

通用大模型就像

真正要成為一個(gè)專家,還需要經(jīng)過(guò)長(zhǎng)年累月,多達(dá)上萬(wàn)例門診、手術(shù)等臨床實(shí)踐經(jīng)驗(yàn),還包含一直有經(jīng)驗(yàn)更豐富的醫(yī)生不斷地進(jìn)行糾正,還有做科研項(xiàng)目、不斷地學(xué)習(xí)最深指南和研究發(fā)表論文,最終形成如在普通婦科、婦科內(nèi)分泌、婦科腫瘤、生殖醫(yī)學(xué)等細(xì)分領(lǐng)域有著專家級(jí)診療能力的主任醫(yī)生

打開(kāi)網(wǎng)易新聞 查看精彩圖片

壹生檢康是一家專注于女性精準(zhǔn)健康檢測(cè)的科技生命公司,已在女性健康領(lǐng)域深耕3年多,積累了豐富的行業(yè)經(jīng)驗(yàn)和龐大用戶群體。然而,隨著業(yè)務(wù)的發(fā)展,公司也面臨著如何更好地服務(wù)用戶的難題,我們也嘗試用通用大模型來(lái)解決問(wèn)題,但事實(shí)發(fā)現(xiàn),通用大模型確實(shí)會(huì)存在很多“幻覺(jué)”,回答的問(wèn)題看著挺專業(yè),但還是會(huì)有很多不夠準(zhǔn)確的地方,很多特定的場(chǎng)景甚至無(wú)法控制通用大模型的自由發(fā)揮。

開(kāi)源DeepSeek的出現(xiàn)為行業(yè)和個(gè)人用戶帶來(lái)了對(duì)大模型概念更深層次的理解,隨著更多“Aha-moment”的復(fù)現(xiàn),更為垂直大模型低成本的技術(shù)實(shí)現(xiàn)提供了清晰的路徑。同時(shí),它還推動(dòng)了通用大模型廠商的快速迭代,使其逐漸成為像水電煤一樣的基礎(chǔ)設(shè)施。在這種背景下,團(tuán)隊(duì)里的四個(gè)理工男達(dá)成高度共識(shí),決定自研婦科垂直大模型,以下是我們團(tuán)隊(duì)自研婦科大模型的一些過(guò)程和總結(jié),供大家參考。

基礎(chǔ)模型選擇

對(duì)于創(chuàng)業(yè)公司來(lái)說(shuō),無(wú)論技術(shù)人員和算力資源都是非常有限的,我們不可能做滿血版的大模型,婦科領(lǐng)域只要婦科的專家就行了。我們對(duì)比了7B、14B、32B、72B四種參數(shù)量的模型的推理成本和回復(fù)效果,即評(píng)估多大參數(shù)量的模型在婦科診斷領(lǐng)域掌握了足夠的醫(yī)學(xué)知識(shí)。經(jīng)技術(shù)人員多次測(cè)試和比較,32B參數(shù)量的模型在計(jì)算資源和回復(fù)效果之間取得了最佳平衡,基于以下幾點(diǎn)考量:

  1. 有良好的醫(yī)學(xué)知識(shí)預(yù)訓(xùn)練基礎(chǔ),足夠應(yīng)對(duì)復(fù)雜癥狀分析。

  2. 參數(shù)規(guī)模適中,不會(huì)造成資源浪費(fèi),在英偉達(dá)4090 GPU上即可進(jìn)行訓(xùn)練和推理,解決創(chuàng)業(yè)公司算力限制。

  3. 推理速度滿足實(shí)時(shí)診斷咨詢需求,具備現(xiàn)實(shí)可行性。

在基礎(chǔ)模型的選型上,選擇一個(gè)醫(yī)學(xué)能力優(yōu)秀的基礎(chǔ)模型,在上面做微調(diào)(SFT)和強(qiáng)化訓(xùn)練(RL),這樣的方式才是最有性價(jià)比的。考慮到臨床診斷對(duì)可解釋性有較高要求,基礎(chǔ)模型需要有輸出推理的能力,所以重點(diǎn)對(duì)比了開(kāi)源的推理模型Deepseek_Distill_Qwen2.5_32B和QwQ_32B,在醫(yī)生評(píng)估了輸出結(jié)果中的診斷推理過(guò)程的專業(yè)性和可讀性、診斷結(jié)果(含處理建議)的準(zhǔn)確性和完整性后,最終選擇了QwQ_32B作為基礎(chǔ)模型,評(píng)估標(biāo)準(zhǔn)是:

  1. 診斷推理思路條理清晰,與專業(yè)醫(yī)學(xué)診斷基本保持一致,無(wú)大幅度的偏差。

  2. 診斷結(jié)果和處理建議相對(duì)完整,表達(dá)通俗易懂,既不過(guò)于簡(jiǎn)略或啰嗦,也沒(méi)有過(guò)多的專業(yè)術(shù)語(yǔ)。

數(shù)據(jù)準(zhǔn)備與訓(xùn)練策略

閨蜜醫(yī)生(壹生檢康旗下的toC應(yīng)用)平臺(tái)在月經(jīng)不調(diào)、異常出血、白帶異常、外陰瘙癢、下腹疼痛、下腹包塊六大典型婦科癥狀上積累了大量的真實(shí)病例。我們篩選出 1400 例有代表性的數(shù)據(jù)樣本,對(duì)數(shù)據(jù)脫敏后,通過(guò)DeepSeek_R1_671B蒸餾出診斷過(guò)程、診斷結(jié)果和處理建議,將蒸餾數(shù)據(jù)直接用于第一輪訓(xùn)練。訓(xùn)練結(jié)果準(zhǔn)確率為 50%,說(shuō)明未經(jīng)標(biāo)注的純蒸餾數(shù)據(jù),對(duì)基礎(chǔ)模型的能力提升影響甚微。

第二輪的訓(xùn)練數(shù)據(jù),由醫(yī)生團(tuán)對(duì)隊(duì)進(jìn)行逐條審核與專業(yè)標(biāo)注和優(yōu)化,確保每一個(gè)診斷流程、每一條推理邏輯都符合臨床實(shí)踐標(biāo)準(zhǔn)。經(jīng)標(biāo)注數(shù)據(jù)訓(xùn)練的模型,模型診斷準(zhǔn)確率提升至 60%,有大幅度提升,但離目標(biāo)仍有較大差距。

經(jīng)分析,數(shù)據(jù)失衡成為關(guān)鍵瓶頸:其一,下腹包塊病例數(shù)據(jù)量?jī)H為其他癥狀的 1/10,導(dǎo)致該類診斷得分顯著偏低;其二,下腹疼痛數(shù)據(jù)中左下腹病例占比超 70%,致使其他部位疼痛診斷效果不佳。為此,團(tuán)隊(duì)通過(guò)規(guī)則合成再補(bǔ)充了 600 例數(shù)據(jù),并經(jīng)醫(yī)生團(tuán)隊(duì)多輪審核標(biāo)注,最終構(gòu)建起覆蓋全癥狀、均衡化的數(shù)據(jù)集,最終準(zhǔn)確率提升至 77.1%,符合這一階段的預(yù)期目標(biāo)。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

模型診斷準(zhǔn)確率評(píng)估自動(dòng)化評(píng)估

臨床診斷的推理過(guò)程和結(jié)果并非標(biāo)準(zhǔn)化的答案,不適合把訓(xùn)練模型生成的答案是否等于測(cè)試集的標(biāo)準(zhǔn)答案,直接作為模型生成結(jié)果對(duì)錯(cuò)的衡量標(biāo)準(zhǔn),但如果每次訓(xùn)練都需要醫(yī)生進(jìn)行人工評(píng)估,人工成本和時(shí)間成本都過(guò)高,影響模型的迭代速度。所以我們基于診斷邏輯設(shè)計(jì)了自動(dòng)化評(píng)估裁判模型,在每次測(cè)試中能夠通過(guò)裁判模型快速對(duì)比訓(xùn)練前后的準(zhǔn)確率變化。

專家人工評(píng)估

我們邀請(qǐng)了10多位三甲醫(yī)院的婦科醫(yī)生對(duì)豆蔻大模型的診斷結(jié)果和處理建議進(jìn)行人工評(píng)估,為了保證公正客觀,我們將同一份測(cè)試病例數(shù)據(jù)輸入給Deepseek 671B和豆蔻大模型,將兩個(gè)模型的輸出診斷結(jié)果混合后交給醫(yī)生評(píng)估,醫(yī)生評(píng)估完成后我們?cè)俳y(tǒng)計(jì)兩個(gè)模型的準(zhǔn)確率。

附評(píng)估標(biāo)準(zhǔn)

打開(kāi)網(wǎng)易新聞 查看精彩圖片

最終訓(xùn)練成果

經(jīng)過(guò)多位婦科專家的對(duì)比,豆蔻婦科大模型在月經(jīng)不調(diào)、異常出血、白帶異常、外陰瘙癢、下腹疼痛、下腹包塊六個(gè)癥狀上的診斷結(jié)果,準(zhǔn)確率達(dá)到了77.1%,高出DeepSeek 7%。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

在某些特定疾病的診斷上,豆蔻婦科大模型展現(xiàn)出了更優(yōu)的性能和專業(yè)度。例如,在月經(jīng)推遲的診斷中,豆蔻婦科大模型首先考慮了用戶近期服用激素類藥物(如緊急避孕藥、糖皮質(zhì)激素等)可能干擾內(nèi)分泌穩(wěn)態(tài)。而deepseek沒(méi)有考慮激素類藥物對(duì)月經(jīng)的影響。除此之外,影響月經(jīng)周期的內(nèi)分泌疾病除了甲功異常外也需要考慮高泌乳素血癥。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

對(duì)比同時(shí)發(fā)現(xiàn),DeepSeek在輸出結(jié)果中使用大量醫(yī)療詞匯,專業(yè)性太強(qiáng),用戶理解有門檻。豆蔻婦科大模型由于進(jìn)行了標(biāo)注和微調(diào),針對(duì)醫(yī)生推敲后對(duì)醫(yī)學(xué)專業(yè)內(nèi)容的回答的強(qiáng)化和干預(yù),結(jié)果表述避免了使用過(guò)于專業(yè)的術(shù)語(yǔ),同時(shí)保持了專業(yè)的嚴(yán)謹(jǐn)性。

此外,團(tuán)隊(duì)在微調(diào)過(guò)程中全力優(yōu)化成本。本次成本支出的主要部分是數(shù)據(jù)準(zhǔn)備階段的人工成本,特別是專業(yè)醫(yī)生進(jìn)行數(shù)據(jù)標(biāo)注的人力成本。在算力方面,監(jiān)督微調(diào)僅使用了貝聯(lián)珠貫平臺(tái)上一張英偉達(dá)4090 GPU卡,數(shù)據(jù)量超過(guò)2000條,單次訓(xùn)練耗時(shí)約4小時(shí)。

總體而言,最終形成的大型模型參數(shù)量更小,僅為DeepSeek R1的1/20,顯著降低了推理成本。該模型僅需兩張英偉達(dá)4090 GPU卡即可正常運(yùn)行推理,不僅保證了推理速度,還能支持一定量的并發(fā)處理。

模型部署

訓(xùn)練完成后,考慮部署推理的成本,我們希望把模型量化成更小的精度,以便于在更少資源的英偉達(dá)4090上實(shí)現(xiàn)可承受一定量的業(yè)務(wù)并發(fā)請(qǐng)求。基于此我們對(duì)訓(xùn)練后的模型分別做了INT8、INT4精度的量化,并測(cè)試精度下降后對(duì)結(jié)果準(zhǔn)確率的影響。經(jīng)測(cè)試,量化到INT4后的模型診斷準(zhǔn)確率降低了5%,有較為明顯的下滑,而INT8的量化的影響很小,可以忽略不計(jì),所以最終選擇了8位的量化版本。

應(yīng)用場(chǎng)景toC:用更精準(zhǔn)專業(yè)的婦科能力服務(wù)C端用戶

中國(guó)留守兒童女孩子的青春期保健問(wèn)題值得關(guān)注,許多女孩面臨月經(jīng)痛經(jīng)等問(wèn)題,但這些問(wèn)題常被家長(zhǎng)忽視,且學(xué)校缺乏相關(guān)知識(shí)的詳細(xì)宣教。例如,痛經(jīng)時(shí)常見(jiàn)的“解決辦法”僅僅是喝紅糖水。此外,女孩們的性行為年齡逐漸提前,部分是受互聯(lián)網(wǎng)影響的主動(dòng)選擇,部分則是被男友誘導(dǎo)。一旦意外懷孕,她們往往不知如何處理,也不敢告知家長(zhǎng),容易導(dǎo)致不科學(xué)的應(yīng)對(duì)方式,給生理和心理帶來(lái)雙重傷害。事實(shí)上,中國(guó)很多成人女性也因?yàn)榇嬖诓u感或?qū)膊≌J(rèn)知不足,導(dǎo)致拖延就診。這不僅使得疾病無(wú)法及時(shí)得到解決,還可能持續(xù)影響女性的日常生活,甚至發(fā)展為更嚴(yán)重的健康問(wèn)題和家庭問(wèn)題。

基于豆蔻婦科大模型構(gòu)建的閨蜜醫(yī)生APP上,在一定程度上解決用戶不好意思說(shuō),不會(huì)描述病情的情況,結(jié)合分析透出用戶可能想問(wèn)什么,讓用戶更加坦然清晰地描述自己遇到的健康問(wèn)題,從而提供私密、專業(yè)、精準(zhǔn)、個(gè)性化的處置建議。在日常中,用戶還通過(guò)婦科AI醫(yī)生,可以了解更多關(guān)于女性健康的科普知識(shí),而不必在多個(gè)平臺(tái)上自行搜索然后困難地作選擇。

toB:賦能婦科醫(yī)生缺乏的基層診所、大健康機(jī)構(gòu)

豆蔻婦科大模型設(shè)計(jì)之初,更考慮到了toB的應(yīng)用場(chǎng)景,這也是為什么我們要堅(jiān)持一定要帶推理過(guò)程的原因,這樣專業(yè)人員也可以非常透明地評(píng)估,模型的思考是否是正確的。我們希望為專業(yè)婦科醫(yī)生資源相對(duì)匱乏的行業(yè)提供可靠專業(yè)的婦科醫(yī)生,這些機(jī)構(gòu)可以通過(guò)簡(jiǎn)單的自有知識(shí)庫(kù)+RAG訓(xùn)練,快速上線企業(yè)自己的婦科AI醫(yī)生,特別在基層診所、大健康等行業(yè),為業(yè)務(wù)賦能。

對(duì)于未來(lái)的思考

監(jiān)督微調(diào)能夠使模型記住大量經(jīng)過(guò)標(biāo)注的數(shù)據(jù),其本質(zhì)是讓模型與人類的認(rèn)知和行為模式進(jìn)行對(duì)齊。然而,這并不能使模型變得比人類更聰明。相比之下,強(qiáng)化學(xué)習(xí)則具備這樣的潛力。強(qiáng)化學(xué)習(xí)的核心在于通過(guò)不斷試錯(cuò)來(lái)探索解決問(wèn)題的最優(yōu)策略。在訓(xùn)練數(shù)據(jù)集中,無(wú)需明確告知模型具體的解題步驟,只需提供規(guī)則和目標(biāo)(例如棋局的規(guī)則和輸贏條件),模型便能夠自主探索并找到獲勝的方法。

強(qiáng)化學(xué)習(xí)的算法邏輯與我們?cè)诂F(xiàn)實(shí)工作和生活中解決問(wèn)題的思維方式非常接近。因此,它能夠使模型在訓(xùn)練過(guò)程中習(xí)得解決通用問(wèn)題的能力,并具備向外延伸和泛化的能力。例如,通過(guò)強(qiáng)化學(xué)習(xí),大模型可以從專注于婦科診斷的垂直領(lǐng)域,逐步拓展到婦科的全領(lǐng)域,甚至未來(lái)可以延伸到內(nèi)分泌科、皮膚科等其他醫(yī)學(xué)領(lǐng)域。

對(duì)于壹生檢康而言,強(qiáng)化學(xué)習(xí)更有可能使豆蔻婦科大模型成為一個(gè)既優(yōu)秀又全面的醫(yī)生。