
導(dǎo)語
從2021年AlphaFold 2成功預(yù)測2億種蛋白質(zhì)結(jié)構(gòu)開始,生命科學(xué)領(lǐng)域的人工智能研究進(jìn)入了一個前所未有的快速發(fā)展期。在短短三年間,從DNA到RNA,從分子到細(xì)胞,一系列突破性的生命語言大模型相繼問世。這些模型不同于處理文本和圖像的傳統(tǒng)AI,它們專門解析生命的多層次語言:AlphaFold 3能以接近實驗精度預(yù)測生物分子復(fù)雜結(jié)構(gòu);RhoFold/RhoDesign實現(xiàn)RNA的精確分析與設(shè)計;基因表達(dá)預(yù)測系統(tǒng)GET可以模擬5000多種人類細(xì)胞類型的轉(zhuǎn)錄調(diào)控。更具突破性的是,斯坦福大學(xué)開發(fā)的多智能體虛擬實驗室,通過集成多個AI模型,實現(xiàn)了從分子設(shè)計到實驗驗證的全流程自動化。隨著全球細(xì)胞圖譜計劃的推進(jìn)和AI虛擬細(xì)胞的構(gòu)想,我們正在見證生物學(xué)研究從觀察科學(xué)向工程科學(xué)的歷史性轉(zhuǎn)變,盡管生命系統(tǒng)的終極復(fù)雜性仍然遠(yuǎn)超我們的認(rèn)知范疇。
研究領(lǐng)域:大模型,人工智能
ERIC J. TOPOL | 作者
馮麒鳴 | 譯者
思無涯 | 審校

論文題目:Learning the language of life with AI 論文地址:https://www.science.org/doi/abs/10.1126/science.adv4414?af=R
2021: AlphaFold 2解決蛋白質(zhì)折疊難題
2021年,在ChatGPT引發(fā)生成式人工智能 (AI) 熱潮前一年,AlphaFold 2[1]破解了長達(dá)50年的蛋白質(zhì)折疊難題,實現(xiàn)了通過氨基酸序列預(yù)測超過2億種蛋白質(zhì)三維 (3D) 結(jié)構(gòu)。這一突破開啟了生命科學(xué)領(lǐng)域大語言模型 (Large Language Models,LLMs) [2]的空前發(fā)展,而這僅是開端。
最近幾個月,我們邁入了基礎(chǔ)模型的超速發(fā)展階段。這些模型通過海量數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練,能夠執(zhí)行多種任務(wù),幫助我們理解蛋白質(zhì)、RNA、DNA和配體的結(jié)構(gòu)、生物學(xué)特性、進(jìn)化過程及設(shè)計方式,同時揭示它們之間的生物分子相互作用。與處理文本、音頻和圖像的多模態(tài)大語言模型 (如GPT-4、Gemini和Claude) 不同,這些生命大語言模型 (Large Language of Life Models,LLLMs) 具有多組學(xué) (multi-omics) 特性,不僅表現(xiàn)為多模態(tài)性,還涉及分子生物學(xué)的多個層次。例如,Evo[3]是一個基礎(chǔ)模型,它在270萬個多樣化的噬菌體和原核生物基因組 (prokaryotic genomes) 上進(jìn)行了訓(xùn)練后 (相當(dāng)于約3000億個DNA堿基) ,可以預(yù)測DNA、RNA或蛋白質(zhì)中變異對結(jié)構(gòu)和功能的影響,評估這些基因?qū)?xì)胞功能的重要性,并能夠生成新的DNA序列。

用AlphaFold3預(yù)測的精準(zhǔn)蛋白質(zhì)結(jié)構(gòu) | 來源:Abramson, J., Adler, J., Dunger, J. et al. Accurate structure prediction of biomolecular interactions with AlphaFold 3. Nature 630, 493-500 (2024).
2023-2024:分子結(jié)構(gòu)預(yù)測技術(shù)躍升
為展現(xiàn)該領(lǐng)域突飛猛進(jìn)的發(fā)展速度,讓我們詳細(xì)介紹近期報道的模型:AlphaFold 3[4] 能預(yù)測由蛋白質(zhì)、DNA、RNA、小分子和配體組合形成的復(fù)合物三維結(jié)構(gòu),其預(yù)測精度達(dá)實驗級水平——80%的蛋白質(zhì)-配體復(fù)合體預(yù)測結(jié)果與實驗誤差在2 ? (注意1 ?等于0.1納米,或十億分之一米) 。同樣,Boltz-1[5] 在預(yù)測三維生物分子互作方面達(dá)到了與AlphaFold 3相當(dāng)?shù)木?,且具有完全開源的優(yōu)勢。MassiveFold[6] 作為AlphaFold的優(yōu)化版本,實現(xiàn)了大規(guī)模并行計算,顯著縮短了計算時間。EVOLVEpro[7]是一個面向AI輔助蛋白質(zhì)工程的蛋白質(zhì)語言模型,而PocketGen[8]則可以定義蛋白質(zhì)-配體互作的原子結(jié)構(gòu)。其他重要模型包括:用于深入理解蛋白質(zhì)在健康與疾病狀態(tài)下互作機制的PIONEER[9],以及用于高效設(shè)計新型抗體的抗體誘變增強處理系統(tǒng)[10] (Antibody Mutagenesis-Augmented Processing,AbMAP) 。后者已成功設(shè)計出對新型冠狀病毒 (SARS-CoV-2) 具有20倍以上結(jié)合親和力的抗體。

AF3 準(zhǔn)確預(yù)測生物分子復(fù)合物的結(jié)構(gòu)。來源:Abramson, J., Adler, J., Dunger, J. et al. Accurate structure prediction of biomolecular interactions with AlphaFold 3. Nature 630, 493–500 (2024). https://doi.org/10.1038/s41586-024-07487-w
RNA/DNA分析能力躍升
除了蛋白質(zhì),RhoFold也值得關(guān)注[11]。RhoFold被訓(xùn)練用于從核酸序列預(yù)測三維RNA構(gòu)象。由同一團(tuán)隊研發(fā)的RhoDesign[12]則用于RNA適配體的設(shè)計 (RNA適配體是指能夠以高親和力結(jié)合目標(biāo)蛋白的小型RNA分子) 。針對細(xì)胞類型特異性的轉(zhuǎn)錄現(xiàn)象,通用表達(dá)轉(zhuǎn)換器 (General Expression Transformer, GET) [13]可以準(zhǔn)確預(yù)測各類人體細(xì)胞中的RNA轉(zhuǎn)錄模式。最新的DNA語言模型[14] 能夠評估人類基因組編碼區(qū)和非編碼區(qū)變異的功能效應(yīng),已完成約90億個可能的單核苷酸變異位點分析。甲基化大語言模型MethylGPT[15]與CpGPT[16] (二者研究尚處預(yù)印本階段) 致力于表觀遺傳分析,如生物學(xué)年齡推算。SyntheMol[17]則助力新型抗生素的設(shè)計和驗證,展示了如何從約300億種化合物中篩選出針對不動桿菌 (Acinetobacter baumannii) 的抗生素,并完成實驗驗證。
在細(xì)胞層面,存在單細(xì)胞相似性 (Single-Cell Similarity, SCimilarity) [18]。這種方法利用近似最近鄰搜索來識別細(xì)胞類型。它是基于相似性的分類,采用了機器學(xué)習(xí)技術(shù)。雖然我們曾經(jīng)認(rèn)為人體內(nèi)大約有200種細(xì)胞類型,但現(xiàn)在這個數(shù)字被認(rèn)為超過5000。SCimilarity模型及其同類技術(shù)的突破源于“人類細(xì)胞圖譜”全球計劃的推進(jìn)——來自100個國家的3000名科學(xué)家已完成6200萬單細(xì)胞圖譜繪制,正向十億級細(xì)胞數(shù)據(jù)庫邁進(jìn)。

RhoFold+ 的架構(gòu)和用于性能評估的任務(wù)。來源:RhoFold+ Shen, T., Hu, Z., Sun, S. et al. Accurate RNA 3D structure prediction using a language model-based deep learning approach. Nat Methods 21, 2287–2298 (2024). https://doi.org/10.1038/s41592-024-02487-0
斯坦福虛擬實驗室:多智能體協(xié)同系統(tǒng)
在單一語言模型取得長足進(jìn)展之際,我們正邁入多智能體協(xié)同的計算機輔助科學(xué)發(fā)現(xiàn)的時代。斯坦福大學(xué)James Zou團(tuán)隊開發(fā)的“虛擬實驗室” (Virtual Lab) 系統(tǒng)就是典型案例——該系統(tǒng)集成五位不同領(lǐng)域?qū)<倚椭悄荏w (首席研究員、免疫學(xué)家、機器學(xué)習(xí)專家、計算生物學(xué)家及科學(xué)評論員) ,通過融合AlphaFold-Multimer、Rosetta與進(jìn)化尺度建模 (ESM) 三大語言模型,實現(xiàn)了針對SARS-CoV-2納米抗體的自動化設(shè)計。在最小化人工干預(yù)的前提下,五位智能體通過定期自主會商,快速研發(fā)出兩種高效納米抗體 (一種工程化微型抗體片段) ,其效果已通過實驗室檢測驗證。

VirtualLab多智能體協(xié)同系統(tǒng)。來源:https://x.com/james_y_zou/status/1856729107045982607
人工智能虛擬細(xì)胞
生命大語言模型的蓬勃發(fā)展激發(fā)了研究者構(gòu)建人工智能虛擬細(xì)胞 (AI Virtual Cell,AIVC) [19]的愿景。該虛擬細(xì)胞通過使用多種模型來模擬分子、細(xì)胞及組織的動態(tài)行為,進(jìn)而解析其運作機制。得益于過去二十年全球科研項目的積累,如人類基因組計劃 (Human Genome Project) 、人類細(xì)胞圖譜 (Human Cell Atlas) 、癌癥基因組圖譜 (Cancer Genome Atlas) 、DNA元件百科全書 (ENCODE) 、人類蛋白質(zhì)圖譜 (Human Protein Atlas) 等,訓(xùn)練機器學(xué)習(xí)模型已不存在數(shù)據(jù)瓶頸。雖然構(gòu)建人工智能虛擬細(xì)胞的具體實現(xiàn)時間表尚不明確,但該項目的變革潛力已獲40余位頂尖科學(xué)家的認(rèn)可:人工智能虛擬細(xì)胞將徹底革新科研范式,有望在生物醫(yī)學(xué)研究、精準(zhǔn)醫(yī)療、藥物研發(fā)、細(xì)胞工程及可編程生物學(xué)等領(lǐng)域帶來突破性進(jìn)展。
人工智能虛擬細(xì)胞

全球細(xì)胞圖譜計劃丨來源:How to build the virtual cell with artificial intelligence: Priorities and opportunities
Bunne, Charlotte et al.Cell, Volume 187, Issue 25, 7045 - 7063
隨著多領(lǐng)域研究齊頭并進(jìn),我們正目睹生命科學(xué)基礎(chǔ)模型的井噴式發(fā)展——這些模型正在深化人類對生物分子結(jié)構(gòu)、功能、演化及相互作用的理解,并揭示細(xì)胞內(nèi)部運作的深層機制。這種突破甚至讓部分學(xué)者將數(shù)字生物學(xué)等同于工程實踐。正如英偉達(dá) (NVIDIA) 首席執(zhí)行官黃仁勛所說:“在人類歷史首次,生物學(xué)有機會成為工程實踐,而不僅僅是科學(xué)探索”。
谷歌深度學(xué)習(xí)的Demis Hassabis進(jìn)一步闡述了這一觀點:“我稱之為工程科學(xué),因為與自然科學(xué)不同,工程科學(xué)必須先行人工合成目標(biāo)構(gòu)件,而后才能運用科學(xué)方法解構(gòu)該實體并認(rèn)識其組成部分?!?/p>
然而,正如Philip Ball在他的書《生命如何運作:新生物學(xué)的用戶指南》 (How Life Works: A User's Guide to the New Biology) 中指出的,生命的語言遠(yuǎn)比我們所理解的要復(fù)雜得多。他強調(diào),“將生命比作機器、機器人或計算機,是對生命的低估。”他進(jìn)一步寫道,“生命是級聯(lián)反應(yīng)過程,每個過程都具有獨立的結(jié)構(gòu)完整性與功能自主性,其運作邏輯在非生命領(lǐng)域沒有對應(yīng)范式?!边@一論斷或許成立,但當(dāng)前人工智能系統(tǒng)已初步展現(xiàn)解構(gòu)生命語言極端復(fù)雜性的能力——更深刻的突破正在醞釀之中。
參考文獻(xiàn)
1.AlphaFold,能夠以原子級精度預(yù)測蛋白質(zhì)結(jié)構(gòu) Jumper, J., Evans, R., Pritzel, A. et al. Highly accurate protein structure prediction with AlphaFold. Nature 596, 583–589 (2021). https://doi.org/10.1038/s41586-021-03819-2
2.關(guān)于基礎(chǔ)模型的機遇與風(fēng)險 https://crfm.stanford.edu/assets/report.pdf
3.一種由DeepMind開發(fā)的深度學(xué)習(xí)模型,能夠高精度預(yù)測蛋白質(zhì)的三維結(jié)構(gòu) Eric Nguyen et al. ,Sequence modeling and design from molecular to genome scale with Evo.Science386,eado9336(2024).DOI:10.1126/science.ado9336
4.AlphaFold 3是一種新型AI模型,能夠以前所未有的精度預(yù)測所有生物分子的結(jié)構(gòu)及其相互作用 Abramson, J., Adler, J., Dunger, J. et al. Accurate structure prediction of biomolecular interactions with AlphaFold 3. Nature 630, 493–500 (2024). https://doi.org/10.1038/s41586-024-07487-w
5.Boltz-1開源深度學(xué)習(xí)模型,能夠以與AlphaFold3相當(dāng)?shù)木阮A(yù)測生物分子復(fù)合物的3D結(jié)構(gòu) Boltz-1 Democratizing Biomolecular Interaction Modeling
Jeremy Wohlwend, Gabriele Corso, Saro Passaro, Mateo Reveiz, Ken Leidal, Wojtek Swiderski, Tally Portnoi, Itamar Chinn, Jacob Silterra, Tommi Jaakkola, Regina Barzilay
bioRxiv 2024.11.19.624167; doi: https://doi.org/10.1101/2024.11.19.624167
6.MassiveFold,一種優(yōu)化和可定制的AlphaFold版本 Raouraoua, N., Mirabello, C., Véry, T. et al. MassiveFold: unveiling AlphaFold’s hidden potential with optimized and parallelized massive sampling. Nat Comput Sci 4, 824–828 (2024). https://doi.org/10.1038/s43588-024-00714-4
7.EVOLVEpro的計算方法 Kaiyi Jiang et al. ,Rapid in silico directed evolution by a protein language model with EVOLVEpro.Science387,eadr6006(2025).DOI:10.1126/science.adr6006
8.PocketGen深度生成模型,能夠高效生成蛋白質(zhì)結(jié)合口袋的殘基序列和原子結(jié)構(gòu) Zhang, Z., Shen, W.X., Liu, Q. et al. Efficient generation of protein pockets with PocketGen. Nat Mach Intell 6, 1382–1395 (2024). https://doi.org/10.1038/s42256-024-00920-9
9.PIONEER深度學(xué)習(xí)框架 Xiong, D., Qiu, Y., Zhao, J. et al. A structurally informed human protein–protein interactome reveals proteome-wide perturbations caused by disease mutations. Nat Biotechnol (2024). https://doi.org/10.1038/s41587-024-02428-4
10.AbMAP的遷移學(xué)習(xí)框架 R. Singh, C. Im, Y. Qiu, B. Mackness, A. Gupta, T. Joren, S. Sledzieski, L. Erlach, M. Wendt, Y. Fomekong Nanfack, B. Bryson, & B. Berger, Learning the language of antibody hypervariability, Proc. Natl. Acad. Sci. U.S.A. 122 (1) e2418918121, https://doi.org/10.1073/pnas.2418918121 (2025).
11.RNA結(jié)構(gòu)預(yù)測工具 RhoFold+ Shen, T., Hu, Z., Sun, S. et al. Accurate RNA 3D structure prediction using a language model-based deep learning approach. Nat Methods 21, 2287–2298 (2024). https://doi.org/10.1038/s41592-024-02487-0
12.RhoDesign深度學(xué)習(xí)平臺 Wong, F., He, D., Krishnan, A. et al. Deep generative design of RNA aptamers using structural predictions. Nat Comput Sci 4, 829–839 (2024). https://doi.org/10.1038/s43588-024-00720-6
13.GET(General Expression Transformer)通過分析213個人類胎兒和成人細(xì)胞類型的染色質(zhì)可及性和DNA序列,揭示基因調(diào)控的語法,從而準(zhǔn)確預(yù)測基因活性。Fu, X., Mo, S., Buendia, A. et al. A foundation model of transcription across human cell types. Nature 637, 965–973 (2025). https://doi.org/10.1038/s41586-024-08391-z
14.基于多物種基因組比對的DNA語言模型,預(yù)測全基因組變異的影響
Benegas, G., Albors, C., Aw, A.J. et al. A DNA language model based on multispecies alignment predicts the effects of genome-wide variants. Nat Biotechnol (2025). https://doi.org/10.1038/s41587-024-02511-w
15.MethylGPT,預(yù)測DNA甲基化值并應(yīng)用于年齡預(yù)測和疾病診斷
MethylGPT: a foundation model for the DNA methylome
Kejun Ying, Jinyeop Song, Haotian Cui, Yikun Zhang, Siyuan Li, Xingyu Chen, Hanna Liu, Alec Eames, Daniel L McCartney, Riccardo E. Marioni, Jesse R. Poganik, Mahdi Moqri, Bo Wang, Vadim N. Gladyshev
bioRxiv 2024.10.30.621013; doi: https://doi.org/10.1101/2024.10.30.621013
16.CpGPT,從有限的輸入數(shù)據(jù)重建全基因組甲基化圖譜,并在年齡預(yù)測和死亡風(fēng)險評估等任務(wù)上表現(xiàn)出色
CpGPT: a Foundation Model for DNA Methylation
Lucas Paulo de Lima Camillo, Raghav Sehgal, Jenel Armstrong, Albert T. Higgins-Chen, Steve Horvath, Bo Wang bioRxiv 2024.10.24.619766; doi: https://doi.org/10.1101/2024.10.24.619766
17. SyntheMol 用生成模型設(shè)計抗生素結(jié)構(gòu)
Swanson, K., Liu, G., Catacutan, D.B. et al. Generative AI for designing and validating easily synthesizable and structurally novel antibiotics. Nat Mach Intell 6, 338–353 (2024). https://doi.org/10.1038/s42256-024-00809-7
18. SCimilarity細(xì)胞圖譜基礎(chǔ)模型,能夠高效地搜索和比較人類體內(nèi)相似的單細(xì)胞狀態(tài)
Heimberg, G., Kuo, T., DePianto, D.J. et al. A cell atlas foundation model for scalable search of similar human cells. Nature (2024). https://doi.org/10.1038/s41586-024-08411-y
19. AI虛擬細(xì)胞
How to build the virtual cell with artificial intelligence: Priorities and opportunities Bunne, Charlotte et al. Cell, Volume 187, Issue 25, 7045 - 7063
參考文獻(xiàn)可上下滑動查看
大模型與生物醫(yī)學(xué):
AI + Science第二季讀書會
生物醫(yī)學(xué)是一個復(fù)雜且富有挑戰(zhàn)性的領(lǐng)域,涉及到大量的數(shù)據(jù)處理、模式識別、理論模型建構(gòu)和實驗驗證等問題。AI基礎(chǔ)模型的引入,使得我們能夠從前所未有的角度去觀察和理解這個領(lǐng)域的問題,加速科學(xué)研究的步伐,提高醫(yī)療服務(wù)的效率和效果。這種交叉領(lǐng)域的合作,標(biāo)志著我們正在向科技與生物醫(yī)學(xué)深度融合的新時代邁進(jìn),對于推動科學(xué)研究、優(yōu)化醫(yī)療服務(wù)、促進(jìn)人類健康有著深遠(yuǎn)的影響。
集智俱樂部聯(lián)合西湖大學(xué)助理教授吳泰霖、斯坦福大學(xué)計算機科學(xué)系博士后研究員王瀚宸、博士研究生黃柯鑫、黃倩,華盛頓大學(xué)博士研究生屠鑫明,共同發(fā)起以“大模型與生物醫(yī)學(xué)”為主題的讀書會,共學(xué)共研相關(guān)文獻(xiàn), 探討基礎(chǔ)模型在生物醫(yī)學(xué)等科學(xué)領(lǐng)域的應(yīng)用、影響和展望。 讀書會已完結(jié),現(xiàn)在報名可加入社群并解鎖 回放 視頻權(quán)限。
詳情請見:
1.
2.
3.
4.
5.
6.
熱門跟貼