
結(jié)合蛋白通過與特定分子(如 DNA、RNA 或肽)選擇性相互作用來調(diào)節(jié)各種細(xì)胞過程,它們能以高特異性識別和結(jié)合靶分子,這使得它們在信號傳導(dǎo)、轉(zhuǎn)運和酶活性功能上有著至關(guān)重要的地位。
當(dāng)前,用于鑒定蛋白質(zhì)結(jié)合肽的傳統(tǒng)方法效率低下且性價比極低,而基于序列的方法因過于狹隘地關(guān)注近端序列特征而忽略了結(jié)構(gòu)數(shù)據(jù),導(dǎo)致沒有一種良好的方式進行結(jié)合蛋白預(yù)測。
阿富汗呼羅珊大學(xué)(Khurasan University)領(lǐng)導(dǎo)了一項研究,推出一款名為 Deep-ProBind 的強大預(yù)測模型,旨在通過整合序列和結(jié)構(gòu)信息對蛋白質(zhì)結(jié)合位點進行分類。
該模型基準(zhǔn)數(shù)據(jù)集上實現(xiàn)了 10 倍交叉驗證的準(zhǔn)確率達到 92.67%,在獨立樣本上實現(xiàn)了 93.62% 的準(zhǔn)確率,訓(xùn)練數(shù)據(jù)方面相較于現(xiàn)有模型分別高出 3.57% 與 1.52%。
他們的研究以《Deep-ProBind: binding protein prediction with transformer-based deep learning model》為題,于 2025 年 3 月 22 日刊登于《BMC Bioinformatics》。

框架模型
本研究主要致力于解決蛋白質(zhì)結(jié)合位點預(yù)測中的兩個關(guān)鍵挑戰(zhàn):需要可靠的大規(guī)模肽結(jié)合蛋白數(shù)據(jù)集和開發(fā)新的深度學(xué)習(xí)模型。新模型使用基于 Transformer 的注意力機制對肽進行編碼,并通過 PsePSSM-DWT 方法生成進化信息特征。
通過深度神經(jīng)網(wǎng)絡(luò)(DNN)執(zhí)行分類,模型能夠?qū)W習(xí)數(shù)據(jù)中的復(fù)雜模式,成為研究人員的強大工具,為肽結(jié)合位點預(yù)測提供了一種可靠的方法。

圖 1:所提出模型的框架。(圖源:論文)
經(jīng)過實驗,團隊創(chuàng)建了一個平衡的數(shù)據(jù)集,在測試中使用了不平等的數(shù)據(jù),即 200 個陽性樣本和 800 個陰性樣本以反映真實的數(shù)據(jù)情況。
為了保證正確的特征,團隊實現(xiàn)了特征編碼方案,采用位置特異性評分矩陣(PSSM)、PsePSSM、離散小波變換 (DWT)與 Transformer 的雙向編碼器表示(BERT)進行構(gòu)建。

圖 2:使用詞嵌入的 ProtBERT-BFD 模型。(圖源:論文)
具體來說,研究中使用 ProtBERT-BFD,它將基于蛋白質(zhì)的 BERT 嵌入與 Big Fantastic Database(BFD)相結(jié)合,以增強特征表示。使用全局平均池化將標(biāo)記化序列轉(zhuǎn)換為 1024 維特征向量,然后將這些特征輸入到深度學(xué)習(xí)模型進行預(yù)測。
深度架構(gòu)
DNN 是 ML 的一個子分類,其靈感來自人腦的結(jié)構(gòu)和功能。DNN 架構(gòu)包括一個輸入層、幾個隱藏層和一個介于兩者之間的輸出層。
隱藏層對于網(wǎng)絡(luò)了解數(shù)據(jù)中無法在原始數(shù)據(jù)中檢測到的特征和模式至關(guān)重要,雖然其數(shù)量增加了映射復(fù)雜模式的預(yù)測能力,但也變相增加了難度、計算成本和過度擬合的出現(xiàn)。
使用基準(zhǔn)數(shù)據(jù)集,DNN 模型用于識別蛋白質(zhì)結(jié)合肽。所提出的 DNN 模型包括輸入、輸出和四個隱藏層,通過使用反向傳播算法迭代更改權(quán)重,減少輸出類和目標(biāo)類之間的誤差,從而改進所提出的模型學(xué)習(xí)技術(shù)。

圖 3:建議的 DNN 模型配置。(圖源:論文)
性能分析
實驗被架設(shè)在第六代英特爾酷睿 i7 處理器上,加入了 Tensorflow 和 Keras 來構(gòu)建深度神經(jīng)網(wǎng)絡(luò),以及 Pandas 和 Matplotlib 來做大量的數(shù)據(jù)分析、清理和整理數(shù)據(jù)以運行機器學(xué)習(xí)模型。
當(dāng)使用 Tanh 作為激活函數(shù)和學(xué)習(xí)率 0.1 時,DNN 分類器在基準(zhǔn)數(shù)據(jù)集上實現(xiàn)了最高的準(zhǔn)確性,為 92.67%。該團隊表示,關(guān)于學(xué)習(xí)率值,DNN 模型達到了最大準(zhǔn)確率。
隨著訓(xùn)練 epoch 的增加,錯誤率持續(xù)降低。例如,DNN 模型在初始 epoch 開始時的誤差損失為 0.879,到第 50 個 epoch 時穩(wěn)步下降到 0.001。

圖 4:DNN 模型的性能。(圖源:論文)
除此之外,團隊還使用 AUC 指標(biāo)進一步檢查了 Deep-ProBind 的性能,AUC 指標(biāo)是二進制分類器準(zhǔn)確性的關(guān)鍵指標(biāo),分?jǐn)?shù)越高代表性能更好。
Deep-ProBind 提供了出色的結(jié)果,在訓(xùn)練數(shù)據(jù)集上實現(xiàn)了 0.941 的 AUC,獨立數(shù)據(jù)集上達到了 0.948 的 AUC。綜合來說,DNN 模型的性能優(yōu)于 SVM 算法和其他傳統(tǒng) ML。
模型總結(jié)
Deep-ProBind 令人鼓舞的結(jié)果突顯了其在尋找功能性肽方面的研究潛力、它們在疾病中的相關(guān)性,尤其是在應(yīng)激反應(yīng)和乳腺癌中,以及它們在制定治療方法中的應(yīng)用。
研究的目標(biāo)是采用并行編程方法來解決可擴展性和效率問題,通過超參數(shù)優(yōu)化和采用集成技術(shù)來完善模型架構(gòu),確保更快、更節(jié)省資源的處理。
當(dāng)前研究的一個關(guān)鍵局限性是依賴于相對較小的數(shù)據(jù)集,這可能會限制模型的泛化性。研究的最終目標(biāo)是通過在未來的迭代中整合更廣泛和多樣化的數(shù)據(jù)集來克服這一限制。
論文鏈接:https://bmcbioinformatics.biomedcentral.com/articles/10.1186/s12859-025-06101-8
熱門跟貼