打開網(wǎng)易新聞 查看精彩圖片

微生物是驅(qū)動(dòng)元素循環(huán)的引擎,它們分泌蛋白質(zhì)以尋求生活環(huán)境。現(xiàn)階段還缺乏有效的計(jì)算方法來研究分泌蛋白。表征分泌組的另一種方法是將現(xiàn)代機(jī)器學(xué)習(xí)工具與蛋白質(zhì)組對(duì)海洋環(huán)境的進(jìn)化適應(yīng)變化相結(jié)合。

在這項(xiàng)研究中,維也納大學(xué)(University of Vienna)與上海海洋大學(xué)的研究者識(shí)別并描述了海洋細(xì)胞外蛋白的適應(yīng)性,開發(fā)了一款名為「Ayu」的機(jī)器預(yù)測(cè)工具,不使用基于同源的預(yù)測(cè)器,并且比當(dāng)前最先進(jìn)的軟件實(shí)現(xiàn)了更好、更快的性能。

該模型實(shí)際應(yīng)用于海洋樣本(Tara Oceans 數(shù)據(jù)集)時(shí),相比于最廣泛使用的鑒定分泌蛋白的方法,全新的方法能夠回收兩倍以上的蛋白質(zhì)。

他們的研究成果以「Ayu: a machine intelligence tool for identification of extracellular proteins in the marine secretome」為題,于 2025 年 3 月 21 日刊登于《Nature Communications》。

打開網(wǎng)易新聞 查看精彩圖片

微生物分泌研究

據(jù)實(shí)驗(yàn)室研究,高達(dá) 30% 的細(xì)菌基因組編碼釋放到細(xì)胞外環(huán)境中的蛋白質(zhì),參與到了細(xì)菌與環(huán)境的相互作用中。對(duì)海洋中細(xì)胞外酶活性的測(cè)量表明,這些反應(yīng)主要由溶解的(無細(xì)胞的)酶催化,比率隨著深度的增加而增加。

盡管分泌組具有相關(guān)性,但其研究因缺乏適當(dāng)?shù)姆椒ǘ艿较拗啤R环N合理的方法是利用大量可用的宏基因組和宏轉(zhuǎn)錄組數(shù)據(jù)集,但目前還面臨著從氨基酸序列預(yù)測(cè)亞細(xì)胞定位的挑戰(zhàn)。

海洋環(huán)境的特殊性為改進(jìn)蛋白質(zhì)定位預(yù)測(cè)提供了機(jī)會(huì)。眾所周知,蛋白質(zhì)的氨基酸組成(AAC)在一定程度上適應(yīng)于其位置的物理化學(xué)性質(zhì)。對(duì)于在周質(zhì)中起作用的蛋白質(zhì)來說,其不受滲透壓調(diào)節(jié)。

因此,在這項(xiàng)研究中,「Ayu」模型被開發(fā),用以利用這些適應(yīng)留下的信號(hào)來預(yù)測(cè)大型海洋宏基因組數(shù)據(jù)集中的分泌蛋白,將其性能與最先進(jìn)的亞細(xì)胞位置預(yù)測(cè)工具進(jìn)行比較,以揭示實(shí)際海洋分泌組的含量和蛋白質(zhì)組成。

打開網(wǎng)易新聞 查看精彩圖片

圖 1:基于棲息地的氨基酸組成和 pI 的差異。(圖源:論文)

總體而言,結(jié)果證明海洋環(huán)境對(duì)暴露于其中的蛋白質(zhì)有特定影響,鹽度是明顯的罪魁禍?zhǔn)住?/p>

為了解釋各門 AAC 的這些差異,可以轉(zhuǎn)向所示分類群之間生活方式的差異。以前的研究推測(cè),細(xì)菌產(chǎn)生的細(xì)胞外蛋白平均比胞質(zhì)蛋白廉價(jià),因?yàn)檫@些蛋白質(zhì)不能回收。

在這種研究環(huán)境中,團(tuán)隊(duì)發(fā)現(xiàn),細(xì)胞外蛋白的成本在門之間差異很大。他們認(rèn)為差異源于產(chǎn)生細(xì)菌的不同營(yíng)養(yǎng)策略。

機(jī)器學(xué)習(xí)模型設(shè)計(jì)和驗(yàn)證

使用一組經(jīng)過驗(yàn)證的蛋白質(zhì)描述符,團(tuán)隊(duì)測(cè)試了這些信息是否可用于改進(jìn)當(dāng)前的亞細(xì)胞位置預(yù)測(cè)方法。他們選擇了 xgBoost,以此發(fā)揮它適用于非參數(shù)數(shù)據(jù)于支持多分類等優(yōu)點(diǎn)。

分析揭示了細(xì)胞外>周質(zhì)>細(xì)胞質(zhì)順序的適應(yīng)梯度,現(xiàn)在團(tuán)隊(duì)通過將問題框定為順序分類來改善預(yù)測(cè),并分化出兩種策略:多類分類器,將每個(gè)亞細(xì)胞位置視為一個(gè)獨(dú)立的類,以及序數(shù)分類器,探究類之間的內(nèi)在順序。

一般來說,在比較 MCC 和 Kappa 分?jǐn)?shù)時(shí),與 pSORTb3 和 BUSC 相比,所有 Ayu 實(shí)現(xiàn)(MCC > 0.89,Kapp>a = 0.89)都明顯優(yōu)于 pSORTb3(MCC = 0.64,Kappa = 0.64)。

打開網(wǎng)易新聞 查看精彩圖片

圖 2:Ayu 與其他分類器的性能比較。(圖源:論文)

Ayu 的兩個(gè)版本(多類和序數(shù))都比其他分類器有所改進(jìn),而應(yīng)用 SMOTE 算法來改善蛋白質(zhì)類別之間的不平衡也對(duì) Ayu 的多類實(shí)現(xiàn)產(chǎn)生了積極影響。

團(tuán)隊(duì)在訓(xùn)練時(shí)間與預(yù)測(cè)時(shí)間進(jìn)行權(quán)衡,最終多類實(shí)現(xiàn)的 SMOTE 版本被保留為 Ayu 的最終版本。

由于 xgBoost 屬于提升樹的算法系列,因此研究得以獲得特征重要性分?jǐn)?shù),其中包含有關(guān)特征描述符對(duì)區(qū)分類更有用的信息。

真實(shí)數(shù)據(jù)集的應(yīng)用

團(tuán)隊(duì)在 6 個(gè) Tara Oceans 宏基因組和元轉(zhuǎn)錄組數(shù)據(jù)集上應(yīng)用了該預(yù)測(cè)工具。在組合數(shù)據(jù)集中發(fā)現(xiàn)的 46,775,154 種總蛋白質(zhì)中,73% 的序列屬于細(xì)菌基因,8% 屬于病毒基因,3% 屬于古細(xì)菌基因,其余的沒有分類學(xué)分類。

大約 15.7% 的蛋白質(zhì)通過手動(dòng)分類被歸類為跨膜蛋白。在其余蛋白質(zhì)中,65.2% 被歸類為細(xì)胞質(zhì)蛋白質(zhì),而 12.5% 的蛋白質(zhì)被歸類為非細(xì)胞質(zhì)蛋白質(zhì)(5.5% 細(xì)胞外,7.0% 周質(zhì)蛋白質(zhì))。剩余則未被歸錄。

打開網(wǎng)易新聞 查看精彩圖片

圖 3:Tara Oceans 數(shù)據(jù)集中的細(xì)胞外蛋白功能。(圖源:論文)

由于 Ayu 使用信號(hào)肽信息作為其特征之一,實(shí)驗(yàn)得以確定預(yù)測(cè)到每個(gè)細(xì)胞位置的蛋白質(zhì)數(shù)量。而對(duì)于實(shí)驗(yàn)中發(fā)現(xiàn)的只有 79% 的周質(zhì)蛋白和 54.7% 的細(xì)胞外蛋白含有信號(hào)肽的現(xiàn)象,需要再次進(jìn)行測(cè)試以驗(yàn)證普遍性。

結(jié)果表明,在 53,902 種蛋白質(zhì)中,至少有 1 種蛋白質(zhì)具有信號(hào)肽,其中只有 43,361 種(約 80%)。這些實(shí)驗(yàn)成果表明,Ayu 能夠補(bǔ)充信號(hào)肽預(yù)測(cè)以恢復(fù)更多的簇內(nèi)細(xì)胞外蛋白多樣性。

上述聚類過程還產(chǎn)生了幾個(gè)預(yù)測(cè)的細(xì)胞外蛋白的蛋白質(zhì)簇,而沒有信號(hào)肽。這些簇幾乎占該數(shù)據(jù)集中檢測(cè)到的細(xì)胞外蛋白總數(shù)的一半。雖然以這種方式檢測(cè)到的蛋白質(zhì)中只有 53% 可以被注釋,但仍然有可能找到進(jìn)一步證明預(yù)測(cè)方法有效性的蛋白質(zhì)。

研究最后還比較了來自相同 Tara Oceans 樣本的宏基因組學(xué)數(shù)據(jù)集與宏轉(zhuǎn)錄組學(xué)數(shù)據(jù)集,以測(cè)試基于基因含量或表達(dá)的差異模式。總體而言,被鑒定為編碼分泌蛋白的基因表達(dá)相對(duì)較高,證實(shí)了分泌組在環(huán)境中的相關(guān)性。

創(chuàng)新的海洋生物學(xué)研究

該研究表明海洋環(huán)境對(duì)必須在該環(huán)境中運(yùn)行的蛋白質(zhì)有顯著影響,并且氨基酸組成的附加限制允許根據(jù)細(xì)菌蛋白質(zhì)的亞細(xì)胞位置來區(qū)分細(xì)菌蛋白質(zhì)。

除了遠(yuǎn)超現(xiàn)在所使用工具的性能之外,Ayu 還呈現(xiàn)出一系列優(yōu)勢(shì)。與基于同源和 PSSM 的方法相比,它將在更長(zhǎng)的時(shí)間內(nèi)保持有用,后者必須不斷更新新發(fā)現(xiàn)才能保持準(zhǔn)確。

需要注意 Ayu 沒有接受過膜蛋白的訓(xùn)練,因此團(tuán)隊(duì)建議僅將 Ayu 用于原核和噬菌體基因組。

總的來說,這項(xiàng)研究進(jìn)一步突破了現(xiàn)如今對(duì)分泌組以及海洋生物學(xué)和生物地球化學(xué)知識(shí)的極限。分泌組的大小增加了將近一倍,預(yù)計(jì)微生物的活動(dòng)將發(fā)揮關(guān)鍵作用。

原文鏈接:https://www.nature.com/articles/s41467-025-57974-5