打開網(wǎng)易新聞 查看精彩圖片

蛋白質(zhì)的功能行使與其亞細(xì)胞定位密切相關(guān),因此鑒定蛋白質(zhì)亞細(xì)胞定位對于理解其在不同生理和病理?xiàng)l件下的功能至關(guān)重要。除了利用實(shí)驗(yàn)直接觀測蛋白質(zhì)的亞細(xì)胞定位,近年來針對蛋白質(zhì)亞細(xì)胞定位預(yù)測的計(jì)算生物學(xué)工具也相繼被開發(fā)出來。按照其輸入和輸出類型的不同,上述計(jì)算生物學(xué)工具主要可分為兩類:一類是以DeepLoc為代表的基于蛋白質(zhì)序列輸入、生成定位文本標(biāo)簽(text-to-text)的預(yù)測模型;另一類是以Cytoself為代表的自監(jiān)督蛋白質(zhì)定位聚類模型,該模型利用變分自編碼器對原始蛋白定位圖像進(jìn)行重構(gòu)(image-to-image),以學(xué)習(xí)蛋白質(zhì)定位模式。然而,前者僅輸出文本標(biāo)簽,難以直觀展現(xiàn)蛋白質(zhì)的定位分布,而后者雖能解析已知蛋白的定位模式,但無法預(yù)測未知蛋白的定位圖像。

2025年4月12日,復(fù)旦大學(xué)生物醫(yī)學(xué)研究院楊力研究組與上海人工智能實(shí)驗(yàn)室董楠卿研究組合作在Briefings in Bioinformatics雜志在線發(fā)表了題為

Deep Generative Model for Protein Subcellular Localization
的研究論文。該研究基于ESM2蛋白質(zhì)大語言模型及U-Net框架開發(fā)了具備多模態(tài)處理能力的生成式深度學(xué)習(xí)模型deepGPS,deepGPS能夠接收蛋白質(zhì)序列及細(xì)胞核圖像作為輸入,并生成蛋白質(zhì)定位的文本標(biāo)簽及分布圖像,是一種支持蛋白質(zhì)亞細(xì)胞定位預(yù)測的新型“文生圖”(text-to-image)多模態(tài)模型。研究團(tuán)隊(duì)還構(gòu)建了開放的openGPS平臺(tái)( https://bits.fudan.edu.cn/opengps/ ),支持蛋白質(zhì)亞細(xì)胞定位的在線預(yù)測及實(shí)驗(yàn)圖像整合,助力蛋白質(zhì)亞細(xì)胞定位與功能研究。

打開網(wǎng)易新聞 查看精彩圖片

在deepGPS模型中,研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)整合文本(text)和圖像(image)的預(yù)測體系,其包括兩條并行的計(jì)算路徑:第一條路徑基于蛋白質(zhì)序列,通過ESM2和MLP層(Multilayer Perceptron)提取序列特征,并將其轉(zhuǎn)換為序列隱向量(sequence latent vector),隨后輸出蛋白質(zhì)定位預(yù)測的文本標(biāo)簽(圖1,下方);第二條路徑以細(xì)胞核圖像為參考,利用U-Net進(jìn)行特征提取,細(xì)胞核圖像首先經(jīng)過下采樣,轉(zhuǎn)換為圖像隱向量(image latent vector),然后通過注意力機(jī)制融合序列隱向量與圖像隱向量,最終經(jīng)過上采樣生成符合給定細(xì)胞核分布的蛋白質(zhì)定位圖像(圖1,上方),進(jìn)而實(shí)現(xiàn)從蛋白質(zhì)序列到定位圖像的從頭預(yù)測(文生圖)。利用deepGPS框架,研究團(tuán)隊(duì)基于OpenCell和Human Protein Atlas數(shù)據(jù)庫中的蛋白質(zhì)定位注釋及圖像數(shù)據(jù),分別訓(xùn)練了適用于HEK293T和U2OS細(xì)胞的deepGPS細(xì)胞特異性模型。在亞細(xì)胞定位預(yù)測的二分類(Cytoplasm和Nucleoplasm)任務(wù)中,deepGPS在準(zhǔn)確性、敏感性、F1 score及AUPRC等指標(biāo)上均優(yōu)于現(xiàn)有的text-to-text模式的蛋白定位預(yù)測工具。重要的是,盡管存在數(shù)據(jù)量不足的因素,deepGPS在四分類(Cytoplasm、Nucleoplasm、ER和Vesicles)及OpenCell數(shù)據(jù)所涉及的所有亞細(xì)胞定位任務(wù)中表現(xiàn)出了較好的預(yù)測/圖像生成效果。最后,團(tuán)隊(duì)開發(fā)了openGPS平臺(tái),期望通過在線預(yù)測和實(shí)驗(yàn)數(shù)據(jù)搜集,促進(jìn)蛋白質(zhì)亞細(xì)胞定位及功能研究。

綜上,deepGPS的構(gòu)建不僅為蛋白質(zhì)定位預(yù)測提供了創(chuàng)新方法,也是計(jì)算生物學(xué)領(lǐng)域中“文生圖”多模態(tài)研究的一次重要探索。這項(xiàng)工作是楊力研究組前期開發(fā)針對多類型RNA亞細(xì)胞定位預(yù)測機(jī)器學(xué)習(xí)text-to-text模型(Yuan et al.,Brief Bioinform, 2023)的拓展,在方法上實(shí)現(xiàn)了創(chuàng)新。

打開網(wǎng)易新聞 查看精彩圖片

圖1:deepGPS構(gòu)建及預(yù)測流程示意圖

復(fù)旦大學(xué)生物醫(yī)學(xué)研究院楊力研究員和上海人工智能實(shí)驗(yàn)室科學(xué)智能中心董楠卿副研究員為本文共同通訊作者。中國科學(xué)院上海營養(yǎng)與健康研究所博士研究生袁國華、上海人工智能實(shí)驗(yàn)室和復(fù)旦大學(xué)信息科學(xué)與工程學(xué)院聯(lián)合培養(yǎng)博士研究生李勁哲、中國科學(xué)院計(jì)算技術(shù)研究所博士研究生楊澤君和復(fù)旦大學(xué)生物醫(yī)學(xué)研究院博士研究生陳堯琦為本文共同第一作者。該工作得到上海人工智能實(shí)驗(yàn)室歐陽萬里教授和復(fù)旦大學(xué)信息科學(xué)與工程學(xué)院陳濤教授的大力支持和技術(shù)指導(dǎo)。

楊力研究組主要利用計(jì)算生物學(xué)及前沿交叉技術(shù)開展轉(zhuǎn)錄組信息解碼和遺傳信息定向改造的研究(https://bits.fudan.edu.cn; http://yang-laboratory.com),招聘從事計(jì)算生物學(xué)和AI生物學(xué)、環(huán)形RNA和基因編輯等方向研究的博士后。董楠卿研究組聚焦科學(xué)智能前沿技術(shù),致力于用AI賦能生命科學(xué)基礎(chǔ)研究和應(yīng)用。

https://doi.org/10.1093/bib/bbaf152

制版人: 十一

學(xué)術(shù)合作組織

(*排名不分先后)

打開網(wǎng)易新聞 查看精彩圖片


戰(zhàn)略合作伙伴

(*排名不分先后)

(*排名不分先后)

轉(zhuǎn)載須知


【非原創(chuàng)文章】本文著作權(quán)歸文章作者所有,歡迎個(gè)人轉(zhuǎn)發(fā)分享,未經(jīng)作者的允許禁止轉(zhuǎn)載,作者擁有所有法定權(quán)利,違者必究。

BioArt

Med

Plants

人才招聘

會(huì)議資訊

近期直播推薦