打開網(wǎng)易新聞 查看精彩圖片

編輯丨coisini

機器學習在蛋白質(zhì)發(fā)現(xiàn)領域展現(xiàn)出深遠的潛力,相關工具已快速應用于科學流程的輔助與加速。當前,AI 輔助的蛋白質(zhì)設計主要利用蛋白質(zhì)的序列和結構信息,而為了描述蛋白質(zhì)的高級功能,人們以文本形式整理了海量知識,這種文本數(shù)據(jù)能否助力蛋白質(zhì)設計任務尚未得到探索。

為了填補這一空白,來自加州大學伯克利分校(UC Berkeley)、加州理工學院(California Institute of Technology)等機構的研究者提出了一個利用文本描述進行蛋白質(zhì)設計的多模態(tài)框架 ——ProteinDT。該框架包含三個連續(xù)步驟:對齊兩種模態(tài)表征的 ProteinCLAP、從文本模態(tài)生成蛋白質(zhì)表征的 Facilitator,以及根據(jù)表征生成蛋白質(zhì)序列的解碼器。

打開網(wǎng)易新聞 查看精彩圖片

論文地址:https://www.nature.com/articles/s42256-025-01011-z

研究概覽

受基礎模型突破的啟發(fā),計算化學領域已證明結合藥物文本描述與化學結構信息的多模態(tài)機制能有效促進小分子藥物發(fā)現(xiàn),這為蛋白質(zhì)領域如何運用多模態(tài)機制推動蛋白質(zhì)工程與生成提出了新命題。

為解答這一問題,研究團隊開創(chuàng)了利用文本描述進行蛋白質(zhì)設計的新范式。

具體而言,該研究致力于挖掘蛋白質(zhì)的兩種模態(tài):蛋白質(zhì)序列與文本描述。蛋白質(zhì)序列由 20 種氨基酸(又稱殘基)組成,決定了蛋白質(zhì)的折疊方式與功能特性;而第二模態(tài)則是公開數(shù)據(jù)源(如 UniProt)記錄的文本描述,蘊含豐富的蛋白質(zhì)知識,包括參與的生物過程、執(zhí)行的分子功能以及定位的細胞組分。兩種模態(tài)分別聚焦于表達內(nèi)部生化組成與領域專家總結的高階知識,因此探索兩者的融合對完成更具挑戰(zhàn)性的蛋白質(zhì)設計任務(如零樣本泛化)具有重要意義。

該研究提出了文本驅動的蛋白質(zhì)設計框架 ProteinDT,其核心流程如下:

(1) 對比性語言 - 蛋白質(zhì)預訓練(ProteinCLAP)步驟,旨在對齊文本序列與蛋白質(zhì)序列的表征空間。該步驟通過從 UniProt 的 Swiss-Prot 子集提取的 441,000 個文本 - 蛋白質(zhì)對數(shù)據(jù)集 SwissProtCLAP,采用對比學習范式實現(xiàn)雙模態(tài)表征對齊;

(2) ProteinFacilitator 模型從文本模態(tài)生成蛋白質(zhì)序列表征,采用高斯分布估計條件分布;

(3) 用于蛋白質(zhì)生成的解碼器模型是一個條件生成模型,基于上一步產(chǎn)生的表征信息生成蛋白質(zhì)序列。

打開網(wǎng)易新聞 查看精彩圖片

實驗結果

為了驗證 ProteinDT 的多功能特性,研究團隊設計了三項下游任務:

文本生成蛋白質(zhì)任務,通過 ProteinDT 流程根據(jù)目標蛋白質(zhì)特性的文本描述 prompt 生成蛋白質(zhì)序列,最優(yōu)檢索準確率可超 90%。

打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片

零樣本文本引導的蛋白質(zhì)編輯任務,輸入為文本 prompt 和蛋白質(zhì)序列。研究團隊提出兩種編輯方法:潛在空間插值法在序列級表征空間進行插值;潛在優(yōu)化法直接優(yōu)化 token 級表征。兩種方法均注入文本模態(tài)信息,并將學得的表征用于蛋白質(zhì)生成。實驗顯示 ProteinDT 在 12 項編輯任務(涵蓋結構感知、穩(wěn)定性優(yōu)化及肽段結合編輯等)中均取得最佳命中率,定性分析結果進一步證明了其有效性。

打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片

蛋白質(zhì)屬性預測任務,用于評估 ProteinCLAP 學習表征的穩(wěn)健性與泛化能力。與六種前沿蛋白質(zhì)序列表征方法相比,ProteinDT 在四項基準測試中表現(xiàn)最優(yōu)。

打開網(wǎng)易新聞 查看精彩圖片

感興趣的讀者可以閱讀論文原文,了解更多研究內(nèi)容。