
編輯 | 蘿卜皮
RNA 是尚未開(kāi)發(fā)的藥物靶標(biāo)的巨大寶庫(kù)?;诮Y(jié)構(gòu)的虛擬篩選 (VS) 利用結(jié)合位點(diǎn)信息識(shí)別候選分子,傳統(tǒng)上采用分子對(duì)接模擬。然而,對(duì)接很難在大型化合物庫(kù)和 RNA 靶標(biāo)中擴(kuò)展。
機(jī)器學(xué)習(xí)提供了一種解決方案,但由于數(shù)據(jù)和實(shí)際評(píng)估有限,它在 RNA 方面的開(kāi)發(fā)仍不夠充分。
麥吉爾大學(xué)(McGill University)、馬克斯普朗克生物化學(xué)研究所(Max Planck Institute of Biochemistry)、巴黎綜合理工學(xué)院(Ecole Polytechnique)的研究人員提出了針對(duì) RNA 量身定制的數(shù)據(jù)驅(qū)動(dòng) VS 流程,利用粗粒度 3D 建模、合成數(shù)據(jù)增強(qiáng)和 RNA 特定的自我監(jiān)督。
該模型實(shí)現(xiàn)了對(duì)接速度的 10,000 倍提升,同時(shí)在結(jié)構(gòu)不同的測(cè)試集上將活性化合物排在前 2.8%。它對(duì)結(jié)合位點(diǎn)變異具有很強(qiáng)的穩(wěn)健性,并成功地從 20,000 種化合物體外微陣列中篩選出未知的 RNA 核糖開(kāi)關(guān),平均富集因子為 2.93,1% 。這標(biāo)志著基于結(jié)構(gòu)的 RNA VS 深度學(xué)習(xí)首次通過(guò)實(shí)驗(yàn)驗(yàn)證獲得成功。
該研究以「RNAmigos2: accelerated structure-based RNA virtual screening with deep graph learning」為題,于 2025 年 3 月 21 日發(fā)布在《Nature Communications》。

只有一小部分 RNA 編碼蛋白質(zhì),而 ncRNA 目前已知在廣泛的生物過(guò)程中發(fā)揮著關(guān)鍵作用。例如,大約 2000 個(gè)基因編碼 micro-RNA,而 micro-RNA 又影響 60% 基因的表達(dá)。盡管 micro-RNA 無(wú)處不在,但第一種 RNA 靶向藥物 risdipalm 直到最近才獲得 FDA 批準(zhǔn),而且?guī)缀跛惺惺鄣男》肿盈煼ㄈ匀灰缘鞍踪|(zhì)為靶點(diǎn)。
靶向 RNA 的能力將大幅增加可用藥物的空間,并在過(guò)度使用的蛋白質(zhì)靶點(diǎn)不足的情況下提供替代方案。例如,lncRNA 可以代表腫瘤學(xué)中有趣的治療靶點(diǎn),而蛋白質(zhì)靶點(diǎn)可能過(guò)于專(zhuān)業(yè)化。RNA 靶標(biāo)也代表了治療缺乏蛋白質(zhì)靶標(biāo)的疾?。ㄈ缛幮匀橄侔┑囊环N途徑。
在此背景下,RNA 越來(lái)越被認(rèn)為是開(kāi)發(fā)新型小分子療法的有前途的靶標(biāo)家族,這凸顯了對(duì) RNA 藥物發(fā)現(xiàn)的有效工具的需求。
在最新的研究中,麥吉爾大學(xué)等機(jī)構(gòu)的研究人員提出了一種基于結(jié)構(gòu)的 RNA 虛擬篩選方法——RNAmigos2,該方法與分子對(duì)接相比只需極短的時(shí)間,為大規(guī)?;诎袠?biāo)的 RNA 藥物發(fā)現(xiàn)打開(kāi)了大門(mén)。
RNAmigos2 旨在使用查詢(xún) RNA 結(jié)構(gòu)快速篩選配體庫(kù)中的結(jié)合物。其工作流程如下圖所示,以候選結(jié)合位點(diǎn)結(jié)構(gòu)(作為完整 3D 或堿基配對(duì)網(wǎng)絡(luò))和要篩選的化合物列表作為輸入。然后,該工具會(huì)為每種化合物返回一個(gè)反映結(jié)合可能性的分?jǐn)?shù)。

圖示:RNAmigos2 化合物篩選流程概述。(來(lái)源:論文)
RNAmigos2 架構(gòu)
RNAmigos2 模型采用編碼器-解碼器框架,具有兩個(gè)編碼器和兩個(gè)解碼器,每個(gè)編碼器和解碼器都在不同的數(shù)據(jù)源上進(jìn)行訓(xùn)練。兩個(gè)編碼器分別將輸入的 RNA 結(jié)合位點(diǎn)和小分子映射到嵌入中。RNA 3D 結(jié)構(gòu)表示為一個(gè)稱(chēng)為 2.5D 圖的圖,該圖對(duì)結(jié)構(gòu)中發(fā)生的所有規(guī)范(Watson-Crick 和 Wobble)和非規(guī)范堿基對(duì)相互作用進(jìn)行編碼。
這種表示使研究人員能夠用適合機(jī)器學(xué)習(xí)框架的離散數(shù)學(xué)對(duì)象捕捉 RNA 3D 結(jié)構(gòu)的關(guān)鍵特征,并且被證明是 RNA 化學(xué)信息學(xué)應(yīng)用的有用生物學(xué)先驗(yàn)。
RNA 編碼器以 2.5D 圖作為輸入,并學(xué)習(xí)使用自監(jiān)督訓(xùn)練方案在所有可用的非冗余 RNA 子結(jié)構(gòu)上生成 RNA 表征。配體以分子圖表示。配體編碼器使用在 中提出并在大量化合物數(shù)據(jù)集上訓(xùn)練的變分自動(dòng)編碼器模型來(lái)學(xué)習(xí)配體的神經(jīng)表征。
為了訓(xùn)練解碼器,研究人員從 PDB 中提取了 1740 個(gè) RNA-配體復(fù)合物,并將它們分組到 436 個(gè)相似的結(jié)合位點(diǎn)簇中,他們使用 RMAlign 以 0.75 的相似性閾值識(shí)別了這些結(jié)合位點(diǎn)。這種方法代表了對(duì) RNA 藥物靶標(biāo)關(guān)聯(lián)預(yù)測(cè)的嚴(yán)格基于結(jié)構(gòu)的劃分。
第一個(gè)解碼器 (Compat) 被訓(xùn)練為二元分類(lèi)器,以區(qū)分結(jié)合位點(diǎn)的天然配體和誘餌。此外,為了綜合增加 PDB 化合物的有限數(shù)量和藥物相似性,研究人員進(jìn)行了大規(guī)模對(duì)接實(shí)驗(yàn),將 500 種藥物類(lèi) ChEMBl 化合物對(duì)接在 1740 個(gè)結(jié)合位點(diǎn)上。
第二個(gè)解碼器經(jīng)過(guò)訓(xùn)練后,可以使用對(duì)接數(shù)據(jù)預(yù)測(cè)結(jié)合親和力 (Aff)。給定一個(gè)結(jié)合位點(diǎn)和配體列表,研究人員對(duì)所有對(duì)象進(jìn)行編碼,并使用聯(lián)合解碼器預(yù)測(cè)可用于虛擬篩選的兼容性分?jǐn)?shù)。之后,該團(tuán)隊(duì)通過(guò)模型為活性化合物分配高分的能力來(lái)衡量模型的性能,而不是為非活性(誘餌)化合物池分配高分。

圖示:RNAmigos2 模型集成基準(zhǔn)。(來(lái)源:論文)
性能強(qiáng)悍
測(cè)試顯示,該模型運(yùn)行速度比對(duì)接快一萬(wàn)倍以上。盡管運(yùn)行時(shí)間僅需數(shù)秒而非數(shù)小時(shí),但所提出的方法可檢索到更高的分子對(duì)接富集因子(候選配體列表的前 2.8% vs 4.1%)。
這一結(jié)果對(duì)口袋身份相對(duì)敏感,但對(duì)口袋擾動(dòng)足夠穩(wěn)健,可與現(xiàn)代口袋挖掘算法結(jié)合使用。此外,通過(guò)將模型與得分最高的化合物的實(shí)際對(duì)接分?jǐn)?shù)相結(jié)合,研究人員設(shè)法將對(duì)接錯(cuò)誤率降低了四倍,所用時(shí)間減少了四分之一。

圖示:RNAmigos2 輔助的虛擬篩選效率。(來(lái)源:論文)
團(tuán)隊(duì)在獨(dú)立的大規(guī)模(25k 種化合物)體外結(jié)合篩選中確定了該工具的性能,并表明它在兩個(gè) CPU 核心分鐘內(nèi)提供了 2.93 的 1% 的富集因子。這些結(jié)果共同確立了 RNAmigos2 作為基于結(jié)構(gòu)的 RNA 虛擬篩選的最新水平。研究人員已經(jīng)公開(kāi)發(fā)布了他們所有的數(shù)據(jù)集、源代碼和模型權(quán)重,希望激發(fā)社區(qū)朝著這個(gè)重要方向努力。
相關(guān)代碼:
https://doi.org/10.5281/zenodo.14803961
https://github.com/cgoliver/rnamigos2/
目前,該方法的局限性包括需要預(yù)定義的結(jié)合位點(diǎn),為此需要開(kāi)發(fā)與結(jié)合位點(diǎn)預(yù)測(cè)器的集成,以及對(duì)結(jié)合位點(diǎn)靈活性進(jìn)行建模。
未來(lái)研究的一個(gè)有趣方向是研究使用其他對(duì)接工具來(lái)訓(xùn)練其他模型,從而產(chǎn)生快速替代模型,這些替代模型可能因不同的評(píng)分函數(shù)而產(chǎn)生不同的錯(cuò)誤模式。
研究人員設(shè)想,RNAmigos2 等工具將與迅速興起的以 RNA 為中心的分子設(shè)計(jì)技術(shù)和新發(fā)布的支持核酸的 AlphaFold3 發(fā)揮協(xié)同作用,為下一代 RNA 藥物發(fā)現(xiàn)鋪平道路。
值得注意的是,該方法具有獨(dú)特的優(yōu)勢(shì),只需手頭有低分辨率結(jié)構(gòu)數(shù)據(jù)(例如堿基對(duì)相互作用)即可實(shí)現(xiàn)基于結(jié)構(gòu)的 RNA 虛擬篩選。鑒于潛在的 RNA 靶標(biāo)數(shù)量驚人,這一特性可能成為挖掘整個(gè)基因組并全面迎接 RNA 治療時(shí)代的重要資產(chǎn)。
論文鏈接:https://www.nature.com/articles/s41467-025-57852-0
熱門(mén)跟貼