
微生物是驅(qū)動元素循環(huán)的引擎,它們分泌蛋白質(zhì)以尋求生活環(huán)境?,F(xiàn)階段還缺乏有效的計算方法來研究分泌蛋白。表征分泌組的另一種方法是將現(xiàn)代機器學(xué)習(xí)工具與蛋白質(zhì)組對海洋環(huán)境的進(jìn)化適應(yīng)變化相結(jié)合。
在這項研究中,維也納大學(xué)(University of Vienna)與上海海洋大學(xué)的研究者識別并描述了海洋細(xì)胞外蛋白的適應(yīng)性,開發(fā)了一款名為「Ayu」的機器預(yù)測工具,不使用基于同源的預(yù)測器,并且比當(dāng)前最先進(jìn)的軟件實現(xiàn)了更好、更快的性能。
該模型實際應(yīng)用于海洋樣本(Tara Oceans 數(shù)據(jù)集)時,相比于最廣泛使用的鑒定分泌蛋白的方法,全新的方法能夠回收兩倍以上的蛋白質(zhì)。
他們的研究成果以「Ayu: a machine intelligence tool for identification of extracellular proteins in the marine secretome」為題,于 2025 年 3 月 21 日刊登于《Nature Communications》。

微生物分泌研究
據(jù)實驗室研究,高達(dá) 30% 的細(xì)菌基因組編碼釋放到細(xì)胞外環(huán)境中的蛋白質(zhì),參與到了細(xì)菌與環(huán)境的相互作用中。對海洋中細(xì)胞外酶活性的測量表明,這些反應(yīng)主要由溶解的(無細(xì)胞的)酶催化,比率隨著深度的增加而增加。
盡管分泌組具有相關(guān)性,但其研究因缺乏適當(dāng)?shù)姆椒ǘ艿较拗?。一種合理的方法是利用大量可用的宏基因組和宏轉(zhuǎn)錄組數(shù)據(jù)集,但目前還面臨著從氨基酸序列預(yù)測亞細(xì)胞定位的挑戰(zhàn)。
海洋環(huán)境的特殊性為改進(jìn)蛋白質(zhì)定位預(yù)測提供了機會。眾所周知,蛋白質(zhì)的氨基酸組成(AAC)在一定程度上適應(yīng)于其位置的物理化學(xué)性質(zhì)。對于在周質(zhì)中起作用的蛋白質(zhì)來說,其不受滲透壓調(diào)節(jié)。
因此,在這項研究中,「Ayu」模型被開發(fā),用以利用這些適應(yīng)留下的信號來預(yù)測大型海洋宏基因組數(shù)據(jù)集中的分泌蛋白,將其性能與最先進(jìn)的亞細(xì)胞位置預(yù)測工具進(jìn)行比較,以揭示實際海洋分泌組的含量和蛋白質(zhì)組成。

圖 1:基于棲息地的氨基酸組成和 pI 的差異。(圖源:論文)
總體而言,結(jié)果證明海洋環(huán)境對暴露于其中的蛋白質(zhì)有特定影響,鹽度是明顯的罪魁禍?zhǔn)住?/p>
為了解釋各門 AAC 的這些差異,可以轉(zhuǎn)向所示分類群之間生活方式的差異。以前的研究推測,細(xì)菌產(chǎn)生的細(xì)胞外蛋白平均比胞質(zhì)蛋白廉價,因為這些蛋白質(zhì)不能回收。
在這種研究環(huán)境中,團(tuán)隊發(fā)現(xiàn),細(xì)胞外蛋白的成本在門之間差異很大。他們認(rèn)為差異源于產(chǎn)生細(xì)菌的不同營養(yǎng)策略。
機器學(xué)習(xí)模型設(shè)計和驗證
使用一組經(jīng)過驗證的蛋白質(zhì)描述符,團(tuán)隊測試了這些信息是否可用于改進(jìn)當(dāng)前的亞細(xì)胞位置預(yù)測方法。他們選擇了 xgBoost,以此發(fā)揮它適用于非參數(shù)數(shù)據(jù)于支持多分類等優(yōu)點。
分析揭示了細(xì)胞外>周質(zhì)>細(xì)胞質(zhì)順序的適應(yīng)梯度,現(xiàn)在團(tuán)隊通過將問題框定為順序分類來改善預(yù)測,并分化出兩種策略:多類分類器,將每個亞細(xì)胞位置視為一個獨立的類,以及序數(shù)分類器,探究類之間的內(nèi)在順序。
一般來說,在比較 MCC 和 Kappa 分?jǐn)?shù)時,與 pSORTb3 和 BUSC 相比,所有 Ayu 實現(xiàn)(MCC > 0.89,Kapp>a = 0.89)都明顯優(yōu)于 pSORTb3(MCC = 0.64,Kappa = 0.64)。

圖 2:Ayu 與其他分類器的性能比較。(圖源:論文)
Ayu 的兩個版本(多類和序數(shù))都比其他分類器有所改進(jìn),而應(yīng)用 SMOTE 算法來改善蛋白質(zhì)類別之間的不平衡也對 Ayu 的多類實現(xiàn)產(chǎn)生了積極影響。
團(tuán)隊在訓(xùn)練時間與預(yù)測時間進(jìn)行權(quán)衡,最終多類實現(xiàn)的 SMOTE 版本被保留為 Ayu 的最終版本。
由于 xgBoost 屬于提升樹的算法系列,因此研究得以獲得特征重要性分?jǐn)?shù),其中包含有關(guān)特征描述符對區(qū)分類更有用的信息。
真實數(shù)據(jù)集的應(yīng)用
團(tuán)隊在 6 個 Tara Oceans 宏基因組和元轉(zhuǎn)錄組數(shù)據(jù)集上應(yīng)用了該預(yù)測工具。在組合數(shù)據(jù)集中發(fā)現(xiàn)的 46,775,154 種總蛋白質(zhì)中,73% 的序列屬于細(xì)菌基因,8% 屬于病毒基因,3% 屬于古細(xì)菌基因,其余的沒有分類學(xué)分類。
大約 15.7% 的蛋白質(zhì)通過手動分類被歸類為跨膜蛋白。在其余蛋白質(zhì)中,65.2% 被歸類為細(xì)胞質(zhì)蛋白質(zhì),而 12.5% 的蛋白質(zhì)被歸類為非細(xì)胞質(zhì)蛋白質(zhì)(5.5% 細(xì)胞外,7.0% 周質(zhì)蛋白質(zhì))。剩余則未被歸錄。

圖 3:Tara Oceans 數(shù)據(jù)集中的細(xì)胞外蛋白功能。(圖源:論文)
由于 Ayu 使用信號肽信息作為其特征之一,實驗得以確定預(yù)測到每個細(xì)胞位置的蛋白質(zhì)數(shù)量。而對于實驗中發(fā)現(xiàn)的只有 79% 的周質(zhì)蛋白和 54.7% 的細(xì)胞外蛋白含有信號肽的現(xiàn)象,需要再次進(jìn)行測試以驗證普遍性。
結(jié)果表明,在 53,902 種蛋白質(zhì)中,至少有 1 種蛋白質(zhì)具有信號肽,其中只有 43,361 種(約 80%)。這些實驗成果表明,Ayu 能夠補充信號肽預(yù)測以恢復(fù)更多的簇內(nèi)細(xì)胞外蛋白多樣性。
上述聚類過程還產(chǎn)生了幾個預(yù)測的細(xì)胞外蛋白的蛋白質(zhì)簇,而沒有信號肽。這些簇幾乎占該數(shù)據(jù)集中檢測到的細(xì)胞外蛋白總數(shù)的一半。雖然以這種方式檢測到的蛋白質(zhì)中只有 53% 可以被注釋,但仍然有可能找到進(jìn)一步證明預(yù)測方法有效性的蛋白質(zhì)。
研究最后還比較了來自相同 Tara Oceans 樣本的宏基因組學(xué)數(shù)據(jù)集與宏轉(zhuǎn)錄組學(xué)數(shù)據(jù)集,以測試基于基因含量或表達(dá)的差異模式??傮w而言,被鑒定為編碼分泌蛋白的基因表達(dá)相對較高,證實了分泌組在環(huán)境中的相關(guān)性。
創(chuàng)新的海洋生物學(xué)研究
該研究表明海洋環(huán)境對必須在該環(huán)境中運行的蛋白質(zhì)有顯著影響,并且氨基酸組成的附加限制允許根據(jù)細(xì)菌蛋白質(zhì)的亞細(xì)胞位置來區(qū)分細(xì)菌蛋白質(zhì)。
除了遠(yuǎn)超現(xiàn)在所使用工具的性能之外,Ayu 還呈現(xiàn)出一系列優(yōu)勢。與基于同源和 PSSM 的方法相比,它將在更長的時間內(nèi)保持有用,后者必須不斷更新新發(fā)現(xiàn)才能保持準(zhǔn)確。
需要注意 Ayu 沒有接受過膜蛋白的訓(xùn)練,因此團(tuán)隊建議僅將 Ayu 用于原核和噬菌體基因組。
總的來說,這項研究進(jìn)一步突破了現(xiàn)如今對分泌組以及海洋生物學(xué)和生物地球化學(xué)知識的極限。分泌組的大小增加了將近一倍,預(yù)計微生物的活動將發(fā)揮關(guān)鍵作用。
原文鏈接:https://www.nature.com/articles/s41467-025-57974-5
熱門跟貼