
編輯 | 白菜葉
卷積神經(jīng)網(wǎng)絡(CNN)和 Transformer 等深度學習架構(gòu)通過捕捉局部和長距離依賴關(guān)系,顯著推進了生物序列建模。然而,它們在生物學環(huán)境中的應用受到高計算需求和對大數(shù)據(jù)集的需求的限制。
麻省理工學院、哈佛大學和卡內(nèi)基梅隆大學等機構(gòu)的研究人員提出了 Lyra,這是一種用于序列建模的次二次架構(gòu),它基于上位性的生物學框架,用于理解序列與功能之間的關(guān)系。
Lyra 在 100 多個廣泛的生物任務中表現(xiàn)出色,在許多關(guān)鍵領(lǐng)域?qū)崿F(xiàn)了 SOTA 性能,包括蛋白質(zhì)適應度景觀預測、生物物理特性預測(例如無序蛋白質(zhì)區(qū)域功能)肽工程應用(例如抗體結(jié)合、細胞穿透肽預測)、RNA 結(jié)構(gòu)分析、RNA 功能預測和 CRISPR gRNA 設計。
與當前的生物學基礎模型相比,它的推理速度的大幅提升,參數(shù)大幅減少(最多減少 120,000 分之一)。
使用 Lyra,研究人員能夠在不到兩小時內(nèi)在兩個或更少的 GPU 上訓練和運行生物序列建模任務。
該研究以「Lyra: An Efficient and Expressive Subquadratic Architecture for Modeling Biological Sequences」為題,于 2025 年 3 月 20 日發(fā)布在arXiv預印平臺。

CNN 能夠通過次二次縮放有效地檢測局部序列模式,而 Transformers 則利用自注意力來模擬全局交互,但需要二次縮放,因此計算成本高昂。
混合模型(例如 Enformers)集成了 CNN 和 Transformers,以平衡局部和全局上下文建模,但它們?nèi)匀幻媾R可擴展性問題。
包括 AlphaFold 和 ESM3 在內(nèi)的大規(guī)模 Transformer 模型在蛋白質(zhì)結(jié)構(gòu)預測和序列功能建模方面取得了突破。但是,它們對大量參數(shù)縮放的依賴限制了它們在數(shù)據(jù)可用性通常受限的生物系統(tǒng)中的效率。這凸顯了對計算效率更高的方法來準確建模序列與功能關(guān)系的需求。
為了克服這些挑戰(zhàn),上位效應(序列內(nèi)突變之間的相互作用)為生物序列建模提供了一個結(jié)構(gòu)化的數(shù)學框架。多線性多項式可以表示這些相互作用,為理解序列-功能關(guān)系提供了一種原則性方法。狀態(tài)空間模型 (SSM) 自然地與此多項式結(jié)構(gòu)保持一致,使用隱藏維度來近似上位效應。
與 Transformer 不同,SSM 利用快速傅里葉變換 (FFT) 卷積來高效地對全局依賴關(guān)系進行建模,同時保持次二次縮放。此外,集成門控深度卷積可通過自適應特征選擇增強局部特征提取和表達能力。這種混合方法平衡了計算效率和可解釋性,使其成為基于 Transformer 的生物序列建模架構(gòu)的有前途的替代方案。
Lyra
來自麻省理工學院、哈佛大學和卡內(nèi)基梅隆大學等機構(gòu)的研究人員推出了 Lyra,這是一種專為生物應用而設計的次二次序列建模架構(gòu)。Lyra 集成了 SSM 來捕獲長距離依賴關(guān)系,并使用投影門控卷積進行局部特征提取,從而實現(xiàn)高效的 O(N log N) 擴展。

圖示:Lyra 概述。(來源:論文)
它有效地對上位相互作用進行建模,并在 100 多項生物任務中實現(xiàn)了最先進的性能,包括蛋白質(zhì)適應度預測、RNA 功能分析和 CRISPR 指南設計。Lyra 的運行參數(shù)明顯更少(比現(xiàn)有模型小 120,000 分之一),同時推理速度提高了 64.18 倍,使高級生物序列建模變得民主化。

圖示:Lyra 架構(gòu)能夠通過學習到的局部和全局關(guān)系對上位式交互進行高效建模。(來源:論文)
Lyra 由兩個關(guān)鍵組件組成:投影門控卷積 (PGC) 塊和具有深度卷積 (S4D) 的狀態(tài)空間層。該模型擁有大約 55,000 個參數(shù),包括兩個用于捕獲局部依賴關(guān)系的 PGC 塊,后面跟著一個用于建模長距離交互的 S4D 層。
PGC 通過將輸入序列投影到中間維度、應用深度 1D 卷積和線性投影以及通過元素乘法重新組合特征來處理輸入序列。S4D 利用對角狀態(tài)空間模型使用矩陣 A、B 和 C 計算卷積核,通過加權(quán)指數(shù)項有效捕獲序列范圍的依賴關(guān)系,并增強 Lyra 有效建模生物數(shù)據(jù)的能力。
Lyra 是一種序列建模架構(gòu),旨在有效捕獲生物序列中的局部和長距離依賴關(guān)系。它集成了 PGC 以進行局部建模,并集成了對角化 S4D 以進行全局交互。Lyra 使用多項式表達力來近似復雜的上位性交互,在蛋白質(zhì)適應度景觀預測和深度突變掃描等任務中的表現(xiàn)優(yōu)于基于 Transformer 的模型。
它在各種蛋白質(zhì)和核酸建模應用中實現(xiàn)了 SOTA 精度,包括無序預測、突變影響分析和 RNA 依賴性 RNA 聚合酶檢測,同時保持比現(xiàn)有大規(guī)模模型明顯更少的參數(shù)數(shù)量和更低的計算成本。
結(jié)語
總之,Lyra 使用了用于生物序列建模的次二次架構(gòu),利用 SSM 有效地近似多線性多項式函數(shù)。這可以實現(xiàn)對上位相互作用的卓越建模,同時顯著降低計算需求。

圖示:Lyra 在各種蛋白質(zhì)預測任務中實現(xiàn)了 SOTA 性能。(來源:論文)
通過集成 PGC 進行局部特征提取,Lyra 在 100 多項生物任務中實現(xiàn)了一流的性能,包括蛋白質(zhì)適應度預測、RNA 分析和 CRISPR gRNA 設計。它的表現(xiàn)優(yōu)于大型基礎模型,參數(shù)更少,推理速度更快,僅需一到兩塊 GPU 即可在數(shù)小時內(nèi)完成訓練。
Lyra 的效率使人們能夠通過治療、病原體監(jiān)測和生物制造應用獲得先進的生物建模。
論文鏈接:https://arxiv.org/abs/2503.16351
相關(guān)內(nèi)容:https://www.marktechpost.com/2025/03/24/lyra-a-computationally-efficient-subquadratic-architecture-for-biological-sequence-modeling/
熱門跟貼