打開網易新聞 查看精彩圖片

編輯 | 蘿卜皮

小分子、核苷酸和金屬離子條件下的蛋白質序列設計,對于酶和小分子結合劑以及傳感器設計至關重要。但是,當前最先進的深度學習序列設計方法無法對非蛋白質原子和分子進行建模。

華盛頓大學的 Cameron Glasscock、David Baker 團隊提出了一種基于深度學習的蛋白質序列設計方法,稱為 LigandMPNN,該方法可以模擬生物分子系統(tǒng)的所有非蛋白質成分。

對于與小分子(63.3% 對比 50.4% 和 50.5%)、核苷酸(50.5% 對比 35.2% 和 34.0%)和金屬(77.5% 對比 36.0% 和 40.6%)相互作用的殘基,LigandMPNN 在天然主鏈序列恢復方面明顯優(yōu)于 Rosetta 和 ProteinMPNN。

LigandMPNN 不僅能生成序列,還能生成側鏈構象,以便詳細評估結合相互作用。LigandMPNN 已用于設計 100 多種經過實驗驗證的小分子和 DNA 結合蛋白,這些蛋白具有高親和力和高結構準確性;對 Rosetta 小分子結合劑設計的重新設計使結合親和力提高了 100 倍。

該研究以「Atomic context-conditioned protein sequence design using LigandMPNN」為題,于 2025 年 3 月 28 日發(fā)布在《Nature Methods》。

打開網易新聞 查看精彩圖片

從頭蛋白質設計能夠創(chuàng)造具有新功能的新型蛋白質,例如催化、DNA、小分子和金屬結合以及蛋白質-蛋白質相互作用。

從頭設計通常分三個步驟進行:首先,生成預測接近最佳的執(zhí)行新期望功能的蛋白質主鏈;其次,設計每個主鏈的氨基酸序列,以驅動折疊到目標結構并產生功能所需的特定相互作用(例如,酶活性位點);第三,使用結構預測方法進行序列結構兼容性過濾。

在這里,重點介紹第二步,即蛋白質序列設計。為了解決這個問題,已經開發(fā)了基于物理的方法(例如 Rosetta)和基于深度學習的模型(例如 ProteinMPNN、IF-ESM 等)。

基于深度學習的方法在設計蛋白質骨架序列方面優(yōu)于基于物理的方法,但目前可用的模型無法結合非蛋白質原子和分子。

例如,ProteinMPNN 明確僅考慮蛋白質主鏈坐標,而忽略任何其他原子背景,這對于設計酶、核酸結合蛋白、傳感器和所有其他涉及與非蛋白質原子相互作用的蛋白質功能至關重要。

為了實現更廣泛的蛋白質功能的設計,David Baker 團隊著手開發(fā)一種用于蛋白質序列設計的深度學習方法,該方法可以明確模擬完整的非蛋白質原子背景。他們試圖通過推廣 ProteinMPNN 架構來納入非蛋白質原子來實現這一點。

與 ProteinMPNN 一樣,研究人員將蛋白質殘基視為節(jié)點,并根據 Cα–Cα 距離引入最近鄰邊,以定義稀疏蛋白質圖;蛋白質主鏈幾何形狀通過 N、Cα、C、O 和 Cβ 原子之間的成對距離編碼到圖邊中。

然后使用具有 128 個隱藏維度的三個編碼器層處理這些輸入特征,以獲得中間節(jié)點和邊緣表示。他們嘗試引入兩個額外的蛋白質-配體編碼器層來編碼蛋白質-配體相互作用。

Baker 團隊推斷,當主鏈和配體原子在空間中固定時,只有在緊鄰的(~10 ? 以內)配體原子會影響氨基酸側鏈的身份和構象,因為配體和側鏈之間的相互作用(范德華力、靜電力、排斥力和溶劑化力)范圍相對較短。

為了將信息從配體原子轉移到蛋白質殘基,他們構建了一個蛋白質-配體圖,以蛋白質殘基和配體原子為節(jié)點,以每個蛋白質殘基和最近的配體原子之間的邊為邊。還為每個蛋白質殘基構建了一個完全連通的配體圖,以其最近鄰的配體原子為節(jié)點;配體原子之間的信息傳遞增加了通過配體-蛋白質邊傳遞給蛋白質的信息的豐富性。

蛋白質-配體編碼器由兩個消息傳遞塊組成,它們會更新配體圖表示,然后更新蛋白質-配體圖表示。蛋白質-配體編碼器的輸出與蛋白質編碼器節(jié)點表示相結合,并傳遞到解碼器層。他們將這種組合蛋白質-配體序列設計模型命名為 LigandMPNN。

打開網易新聞 查看精彩圖片

圖示:LigandMPNN 模型。(來源:論文)

為了便于設計對稱和多狀態(tài)蛋白質,研究人員使用隨機自回歸解碼方案來解碼氨基酸序列,就像 ProteinMPNN 的情況一樣。通過添加配體原子幾何編碼和額外的兩個蛋白質-配體編碼器層,LigandMPNN 神經網絡擁有 262 萬個參數,而 ProteinMPNN 擁有 166 萬個參數。

這兩個網絡都是高速且輕量級的(ProteinMPNN 0.6 秒,LigandMPNN 0.9 秒,在單個 CPU 上處理 100 個殘基),并根據蛋白質長度線性擴展。他們通過隨機選擇一小部分蛋白質殘基(2-4%)并使用它們的側鏈原子作為背景配體原子以及任何小分子、核苷酸和金屬背景來擴充訓練數據集。雖然這種增強并沒有顯著提高序列恢復率,但以這種方式訓練也使得側鏈原子坐標能夠直接輸入到 LigandMPNN 中,從而穩(wěn)定相關的功能位點。

LigandMPNN 是在蛋白質數據庫 (PDB;截至 2022 年 12 月 16 日) 中的蛋白質組裝體上進行訓練的,這些組裝體通過 X 射線晶體學或低溫電子顯微鏡確定,分辨率優(yōu)于 3.5 ?,總長度小于 6,000 個殘基。訓練-測試拆分基于以 30% 序列同一性截止值聚類的蛋白質序列。

打開網易新聞 查看精彩圖片

圖示:LigandMPNN 序列設計的計算機評估。(來源:論文)

研究人員在包含 317 個蛋白質結構的測試集上評估了 LigandMPNN 序列設計性能,其中 317 個蛋白質結構包含小分子,74 個包含核酸,83 個包含過渡金屬。

打開網易新聞 查看精彩圖片

圖示:評估 LigandMPNN 側鏈填充精度。(來源:論文)

實驗證明,基于深度學習的 LigandMPNN 在設計氨基酸與非蛋白質分子相互作用方面優(yōu)于基于物理的 Rosetta。它的速度大約快 250 倍(因為完全繞過了對側鏈成分進行昂貴的蒙特卡羅優(yōu)化),并且配體周圍天然氨基酸身份和構象的恢復率始終更高。

該方法也更易于使用,因為不需要專家對新配體進行定制(Rosetta 等基于物理的方法可能需要為新化合物提供新的能量函數或力場參數)。

打開網易新聞 查看精彩圖片

圖示:使用 LigandMPNN 對 Rosetta 小分子結合劑設計進行優(yōu)化。(來源:論文)

最開始,Baker 團隊不確定 ProteinMPNN 的準確性是否可以擴展到蛋白質-配體系統(tǒng),因為可用的訓練數據量很少,但其結果表明,對于絕大多數配體,數據是足夠的。

盡管如此,研究人員仍然建議在使用 LigandMPNN 設計包含 PDB 中很少出現或根本不出現的元素的化合物的結合劑時要小心(在后一種情況下,需要映射到最接近出現的元素)。基于物理和基于深度學習的方法的混合可能會為低數據狀態(tài)下的氨基酸和側鏈優(yōu)化問題提供更好的解決方案。

LigandMPNN 已廣泛用于設計蛋白質與核酸和小分子的相互作用,這些研究為該方法提供了大量額外的實驗驗證。在這些研究中,LigandMPNN 要么被用作 Rosetta 序列設計的替代品,保留 RosettaFastDesign 的主鏈松弛,要么被單獨使用而無需主鏈松弛。

例如,Glasscock 團隊開發(fā)了一種基于 LigandMPNN 設計蛋白質-DNA 界面的計算方法,其設計的 DNA 結合蛋白晶體結構與模型高度吻合。還有研究團隊利用 LigandMPNN 設計了針對小分子的結合蛋白,實驗驗證了 100 多個蛋白質-DNA/小分子結合界面,其中 5 個共晶結構顯示與計算模型高度一致,證實了該方法的有效性。

與 ProteinMPNN 一樣,Baker 團隊認為 LigandMPNN 將在蛋白質設計中得到廣泛應用,從而能夠創(chuàng)建新一代小分子結合蛋白、傳感器和酶。

GitHub 網址:https://github.com/dauparas/LigandMPNN

相關報道:https://www.nature.com/articles/s41592-025-02626-1