打開(kāi)網(wǎng)易新聞 查看精彩圖片

圖|Bo Wang,多倫多大學(xué)醫(yī)學(xué)生物物理學(xué)助理教授

隨著 AlphaFold 在蛋白質(zhì)折疊上的突破,以及 AI for Science 領(lǐng)域的不斷創(chuàng)新,人工智能(AI)正勢(shì)不可擋地重構(gòu)生命科學(xué)的研究范式。

高通量組學(xué)技術(shù)的快速發(fā)展,使生物學(xué)數(shù)據(jù)量呈指數(shù)級(jí)增長(zhǎng),遠(yuǎn)遠(yuǎn)超出了我們從中提取分子層面信息的能力。大語(yǔ)言模型(LLM)通過(guò)整合海量數(shù)據(jù)并實(shí)現(xiàn)多任務(wù)應(yīng)用,為解決海量數(shù)據(jù)處理問(wèn)題提供了思路。

受此啟發(fā),華裔學(xué)者、多倫多大學(xué)醫(yī)學(xué)生物物理學(xué)助理教授 Bo Wang 團(tuán)隊(duì)及其合作者提出了“開(kāi)發(fā)面向分子細(xì)胞生物學(xué)的多模態(tài)基礎(chǔ)模型(MFM)”的構(gòu)想,這類(lèi)模型在基因組學(xué)、轉(zhuǎn)錄組學(xué)、表觀基因組學(xué)、蛋白質(zhì)組學(xué)、代謝組學(xué)和空間剖析進(jìn)行預(yù)訓(xùn)練,能夠表征細(xì)胞分子狀態(tài),構(gòu)建細(xì)胞、基因和組織的整體圖譜。

相關(guān)觀點(diǎn)文章以“

Towards multimodal foundation models in molecular cell biology
”為題,已發(fā)布在國(guó)際權(quán)威科學(xué)期刊
Nature
上。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

文章鏈接:

https://www.nature.com/articles/s41586-025-08710-y

研究團(tuán)隊(duì)表示,通過(guò)遷移學(xué)習(xí),MFM 可以應(yīng)用于多種下游任務(wù),例如新型細(xì)胞類(lèi)型識(shí)別、生物標(biāo)志物發(fā)現(xiàn)、基因調(diào)控推斷和虛擬擾動(dòng)等,有望開(kāi)啟 AI 賦能的生物學(xué)分析新時(shí)代,揭示分子細(xì)胞生物學(xué)的復(fù)雜機(jī)制,支持實(shí)驗(yàn)設(shè)計(jì),并擴(kuò)展我們對(duì)生命科學(xué)的理解。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

圖|多模態(tài)分析技術(shù)及其應(yīng)用。A. 各種分析技術(shù)可提供豐富多樣的單細(xì)胞分辨率和空間剖析數(shù)據(jù);B. 來(lái)自分析方法的數(shù)據(jù)可揭示跨越中心法則的多個(gè)步驟;C. 重建細(xì)胞動(dòng)力學(xué)的重要潛在應(yīng)用機(jī)會(huì)。箭頭表示這些應(yīng)用的基本機(jī)制是相互關(guān)聯(lián)的,使用 MFM 解決一項(xiàng)任務(wù)可以促進(jìn)其他任務(wù)的完成。

MFM 與分子細(xì)胞生物學(xué):Lab-in-the-loop

基礎(chǔ)模型是通過(guò)對(duì)海量數(shù)據(jù)集進(jìn)行自監(jiān)督學(xué)習(xí)訓(xùn)練的深度神經(jīng)網(wǎng)絡(luò)計(jì)算模型,因此通過(guò)遷移學(xué)習(xí)在廣泛的下游任務(wù)中展現(xiàn)出強(qiáng)大的能力。

在自然語(yǔ)言處理領(lǐng)域,基于 Transformer 的基礎(chǔ)模型,如 GPT 和 Llama 系列,在龐大的文本語(yǔ)料庫(kù)上進(jìn)行訓(xùn)練,可以通過(guò)微調(diào)或上下文學(xué)習(xí)快速適應(yīng)各種下游任務(wù)?;A(chǔ)模型也已擴(kuò)展到了自然圖像和視頻,并具備了語(yǔ)言與圖像之間的跨模態(tài)生成能力。

在分子細(xì)胞生物學(xué)領(lǐng)域,基礎(chǔ)模型為整合多樣生物過(guò)程的認(rèn)知提供了一種方法。生物基礎(chǔ)模型的核心優(yōu)勢(shì)在于其能夠?qū)W習(xí)并表征細(xì)胞系統(tǒng)復(fù)雜的相互關(guān)聯(lián)特性。通過(guò)在多組學(xué)數(shù)據(jù)上進(jìn)行訓(xùn)練,這些模型能夠揭示孤立實(shí)驗(yàn)或單一模態(tài)分析中不易察覺(jué)的細(xì)微模式與關(guān)聯(lián),可能揭示出在更狹窄研究中被掩蓋的普遍生物學(xué)原理。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

圖|傳統(tǒng)機(jī)器學(xué)習(xí)模型與分子細(xì)胞生物學(xué) MFM 的比較

MFM 通過(guò)自監(jiān)督學(xué)習(xí)在海量多組學(xué)數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練,能夠捕捉生物分子間隱秘的交互模式。例如,基于 Transformer 架構(gòu)的 MFM 利用注意力機(jī)制模擬 DNA 序列到基因表達(dá)的動(dòng)態(tài)過(guò)程,其核心優(yōu)勢(shì)在于打破單一模態(tài)分析的局限,揭示跨組學(xué)數(shù)據(jù)的深層關(guān)聯(lián)。這種能力使得 MFM 在下游任務(wù)中展現(xiàn)出驚人潛力:從重建細(xì)胞發(fā)育軌跡,到預(yù)測(cè)基因擾動(dòng)響應(yīng),再到發(fā)現(xiàn)新型生物標(biāo)志物,均能提供超越傳統(tǒng)方法的精準(zhǔn)洞察。

研究團(tuán)隊(duì)特別強(qiáng)調(diào)了 Lab-in-the-loop 的創(chuàng)新工作流程。在這種模式下,實(shí)驗(yàn)設(shè)計(jì)與計(jì)算模擬形成閉環(huán)反饋:MFM 通過(guò)預(yù)測(cè)未知細(xì)胞系的藥物敏感性指導(dǎo)實(shí)驗(yàn)方向,實(shí)驗(yàn)結(jié)果又反哺模型訓(xùn)練,形成知識(shí)迭代。這種數(shù)據(jù)驅(qū)動(dòng)的跨領(lǐng)域知識(shí)遷移,突破了傳統(tǒng)假設(shè)驅(qū)動(dòng)研究的局限,為復(fù)雜生物系統(tǒng)建模提供了全新思路。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

圖|不同數(shù)據(jù)背景下的預(yù)訓(xùn)練和 Lab-in-the-loop 迭代改進(jìn)。a. MFM 在來(lái)自豐富背景的生物數(shù)據(jù)上進(jìn)行訓(xùn)練。在預(yù)訓(xùn)練期間,可以概括來(lái)自特定上下文條件的多樣化數(shù)據(jù),豐富已知和未知條件下的生物學(xué)知識(shí)表示。面板中的示例場(chǎng)景說(shuō)明了在不同細(xì)胞狀態(tài)下概括基因功能的想法,這有助于在應(yīng)用中推斷出未見(jiàn)過(guò)的功能;b. 模型 - 數(shù)據(jù) - 實(shí)驗(yàn),形成一個(gè)主動(dòng)學(xué)習(xí)循環(huán)。Lab-in-the-loop 模式產(chǎn)生迭代反饋,以不斷提升多模態(tài)基礎(chǔ)模型的能力和生成的生物學(xué)假設(shè)的質(zhì)量。

機(jī)遇

通過(guò)整合多模態(tài)數(shù)據(jù),MFM 在表征細(xì)胞狀態(tài)、預(yù)測(cè)基因功能以及重建基因調(diào)控網(wǎng)絡(luò)等方面展示出了獨(dú)特的優(yōu)勢(shì)。

在表征細(xì)胞狀態(tài)方面,MFM 能夠通過(guò)整合不同組學(xué)數(shù)據(jù),更全面地理解細(xì)胞狀態(tài)的連續(xù)性,從而更準(zhǔn)確地比較不同細(xì)胞狀態(tài),并補(bǔ)全缺失的組學(xué)數(shù)據(jù),例如在臨床樣本中預(yù)測(cè)代謝組學(xué)數(shù)據(jù)。

在預(yù)測(cè)基因功能和調(diào)控方面,MFM 能夠?qū)W習(xí)多組學(xué)數(shù)據(jù)中的統(tǒng)一模式,從而預(yù)測(cè)基因功能,并重建特定環(huán)境下的基因調(diào)控網(wǎng)絡(luò),例如結(jié)合轉(zhuǎn)錄組和染色質(zhì)可及性數(shù)據(jù),揭示重要的調(diào)控因子。

在虛擬擾動(dòng)方面,MFM 能夠預(yù)測(cè)遺傳或化學(xué)擾動(dòng)對(duì)細(xì)胞狀態(tài)的影響,從而加速基因調(diào)控理解和新治療方法發(fā)現(xiàn),例如預(yù)測(cè)藥物在未知細(xì)胞系上的療效,并指導(dǎo)實(shí)驗(yàn)驗(yàn)證。

為了實(shí)現(xiàn)這些潛在應(yīng)用,研究團(tuán)隊(duì)指出了分子細(xì)胞生物學(xué) MFM 應(yīng)具備的一些關(guān)鍵技術(shù)特性。

首先,MFM 的訓(xùn)練需要大規(guī)模、多樣化的多組學(xué)數(shù)據(jù),包括單細(xì)胞測(cè)序、空間轉(zhuǎn)錄組學(xué)和縱向樣本等,這些數(shù)據(jù)可以從全球細(xì)胞圖譜等資源中獲得,但需要進(jìn)一步整合和標(biāo)準(zhǔn)化。研究團(tuán)隊(duì)表示,為了解決數(shù)據(jù)量不足的問(wèn)題,可以考慮利用合成數(shù)據(jù)作為補(bǔ)充。

其次,研究團(tuán)隊(duì)提出了 MFM 的計(jì)算組件,包括統(tǒng)一的多模態(tài)數(shù)據(jù)表示、混合多層注意力機(jī)制、提示驅(qū)動(dòng)的訓(xùn)練任務(wù)和人類(lèi)知識(shí)的整合。

為了應(yīng)對(duì)不同尺度的生物分子相互作用,MFM 需要構(gòu)建統(tǒng)一 token,實(shí)現(xiàn)早期融合,并采用混合多層注意力機(jī)制,區(qū)分局部(單模態(tài))和全局(跨模態(tài))注意力。為了實(shí)現(xiàn)多種下游任務(wù),MFM 需要設(shè)計(jì)提示 token 控制的統(tǒng)一框架,并包含單模態(tài)和跨模態(tài)的自監(jiān)督學(xué)習(xí)任務(wù),例如掩碼語(yǔ)言模型、對(duì)比學(xué)習(xí)、跨模態(tài)預(yù)測(cè)和條件生成等。

此外,研究團(tuán)隊(duì)認(rèn)為,將人類(lèi)知識(shí)融入 MFM 預(yù)訓(xùn)練過(guò)程十分重要,例如將通路、基因本體、蛋白質(zhì)相互作用網(wǎng)絡(luò)和文獻(xiàn)等知識(shí)以圖嵌入或向量嵌入的形式加入模型,從而提供有用的歸納偏差,增強(qiáng)模型的預(yù)測(cè)能力。

挑戰(zhàn)和展望

然而,在推廣應(yīng)用 MFM 的過(guò)程中,仍然存在技術(shù)和監(jiān)管方面的挑戰(zhàn)和限制。盡管在構(gòu)建分子細(xì)胞生物學(xué) MFM 時(shí)遇到的這些挑戰(zhàn)與一般領(lǐng)域的基礎(chǔ)模型有一些相似之處,但研究團(tuán)隊(duì)發(fā)現(xiàn),該領(lǐng)域的具體要求和潛在解決方案往往獨(dú)特。他們強(qiáng)調(diào)了以下幾個(gè)問(wèn)題:

  1. 數(shù)據(jù)和計(jì)算資源:需要多樣化和大量的多原子數(shù)據(jù);并行和加速計(jì)算資源;努力擴(kuò)大訓(xùn)練和部署基礎(chǔ)模型。

  2. 開(kāi)放科學(xué)與倫理考慮:生物基礎(chǔ)模型應(yīng)向公眾開(kāi)放;明確傳達(dá)能力、局限性和使用案例;保障數(shù)據(jù)隱私。

  3. 嚴(yán)格的評(píng)估:標(biāo)準(zhǔn)化數(shù)據(jù)集上的各種基準(zhǔn);評(píng)估包括預(yù)測(cè)、生成、擾動(dòng)和其他生物洞察力在內(nèi)的能力;公開(kāi)的排行榜和競(jìng)賽。

  4. 可解釋性和幻覺(jué)風(fēng)險(xiǎn):解讀大型深度學(xué)習(xí)網(wǎng)絡(luò)具有挑戰(zhàn)性;預(yù)測(cè)需要以訓(xùn)練數(shù)據(jù)為基礎(chǔ),并提供生物背景;模型應(yīng)能接受不確定的輸出結(jié)果。

將 MFM 應(yīng)用于整合多種組學(xué)數(shù)據(jù),有望以前所未有的規(guī)模和精度,推動(dòng)分子生物學(xué)的變革。要實(shí)現(xiàn)這一構(gòu)想,需要生物學(xué)家、數(shù)據(jù)科學(xué)家、人工智能研究人員和倫理學(xué)家通力合作,以生成高質(zhì)量數(shù)據(jù)、完善模型并確??稍L問(wèn)性。

展望未來(lái),將 MFM 融入醫(yī)學(xué)領(lǐng)域,可推動(dòng)個(gè)性化治療、疾病建模和藥物發(fā)現(xiàn)等領(lǐng)域的創(chuàng)新。這與細(xì)胞圖譜(如 HCA)在醫(yī)學(xué)研究中已經(jīng)發(fā)揮的變革性作用如出一轍。從本質(zhì)上講,分子發(fā)現(xiàn)的未來(lái)將由一個(gè)充滿(mǎn)活力、具有共同愿景的合作生態(tài)系統(tǒng)來(lái)孕育,使科學(xué)界有能力解決生物學(xué)和醫(yī)學(xué)中一些最緊迫的挑戰(zhàn)。

作者:錦鯉

如需轉(zhuǎn)載或投稿,請(qǐng)直接在公眾號(hào)內(nèi)留言