為了了解DNA與疾病的關(guān)系,美國(guó)洛斯阿拉莫斯國(guó)家實(shí)驗(yàn)室的科學(xué)家開(kāi)發(fā)了第一個(gè)多模態(tài)深度學(xué)習(xí)模型EPBDxDNABERT-2,該模型能夠利用DNA“呼吸”,即雙螺旋結(jié)構(gòu)自發(fā)打開(kāi)和關(guān)閉,來(lái)確定轉(zhuǎn)錄因子(調(diào)節(jié)基因活動(dòng)的蛋白質(zhì))之間的精確關(guān)系。該模型有可能幫助設(shè)計(jì)用于治療源于基因活性疾病的藥物。

與DNA鏈結(jié)合的轉(zhuǎn)錄因子蛋白的表示(圖片來(lái)源:洛斯阿拉莫斯)
打開(kāi)網(wǎng)易新聞 查看精彩圖片
與DNA鏈結(jié)合的轉(zhuǎn)錄因子蛋白的表示(圖片來(lái)源:洛斯阿拉莫斯)

洛斯阿拉莫斯國(guó)家實(shí)驗(yàn)室研究員、該論文的第一作者Anowarul Kabir說(shuō):“轉(zhuǎn)錄因子有很多種,人類基因組的規(guī)模大得令人生畏?!薄耙虼?,有必要找出哪種轉(zhuǎn)錄因子與超長(zhǎng)DNA結(jié)構(gòu)上的哪個(gè)位置結(jié)合。我們?cè)噲D用人工智能,特別是深度學(xué)習(xí)算法來(lái)解決這個(gè)問(wèn)題?!?/p>

基于DNA訓(xùn)練的深度學(xué)習(xí)模型

DNA以相當(dāng)于30億個(gè)英文字母的數(shù)量寫(xiě)入每個(gè)人類細(xì)胞,為人類生命的生長(zhǎng)和維持提供了藍(lán)圖。轉(zhuǎn)錄因子結(jié)合到DNA的某些部分并影響基因表達(dá)的調(diào)控:?jiǎn)蝹€(gè)基因如何為細(xì)胞的發(fā)育和功能提供特定的指令。因?yàn)檫@種表達(dá)可以在疾病中表現(xiàn)出來(lái),如癌癥,預(yù)測(cè)與特定基因位置結(jié)合的轉(zhuǎn)錄因子可能對(duì)藥物開(kāi)發(fā)有影響。

研究小組使用的基礎(chǔ)模型是在DNA序列上訓(xùn)練的。該團(tuán)隊(duì)構(gòu)建了一個(gè)DNA模擬程序,該程序捕獲了大量的DNA動(dòng)態(tài)并將其與基因組基礎(chǔ)模型集成,從而產(chǎn)生了EPBDxDNABERT-2,該程序能夠處理染色體上的基因組序列,并將相應(yīng)的DNA動(dòng)態(tài)作為輸入。一個(gè)這樣的輸入-DNA呼吸,或DNA雙螺旋結(jié)構(gòu)的局部和自發(fā)打開(kāi)和關(guān)閉,與轉(zhuǎn)錄活性相關(guān),如轉(zhuǎn)錄因子結(jié)合。

洛斯阿拉莫斯國(guó)家實(shí)驗(yàn)室的研究員Manish Bhattarai說(shuō):“DNA呼吸特征與DNABERT-2基礎(chǔ)模型的整合大大增強(qiáng)了轉(zhuǎn)錄因子結(jié)合的預(yù)測(cè)?!薄拔覀儗NA編碼片段作為模型的輸入,并詢問(wèn)模型是否在許多細(xì)胞系中與轉(zhuǎn)錄因子結(jié)合。這些結(jié)果提高了特定基因位置與許多轉(zhuǎn)錄因子結(jié)合的預(yù)測(cè)概率?!?/p>

使用Venado運(yùn)行AI算法

該團(tuán)隊(duì)在實(shí)驗(yàn)室最新的超級(jí)計(jì)算機(jī)Venado上運(yùn)行了他們的深度學(xué)習(xí)模型,Venado將中央處理單元與圖形處理單元相結(jié)合,以驅(qū)動(dòng)人工智能功能。深度學(xué)習(xí)模型的工作方式類似于大腦的神經(jīng)網(wǎng)絡(luò),結(jié)合圖像和文本,揭示復(fù)雜的模式來(lái)生成預(yù)測(cè)和見(jiàn)解。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

為了訓(xùn)練模型,研究小組使用了690個(gè)實(shí)驗(yàn)結(jié)果的基因測(cè)序數(shù)據(jù),包括161種不同的轉(zhuǎn)錄因子和91種人類細(xì)胞類型。他們發(fā)現(xiàn),EPBDxDNABERT-2顯著提高了660多種轉(zhuǎn)錄因子結(jié)合的預(yù)測(cè),在一個(gè)關(guān)鍵指標(biāo)上提高了9.6%。從受控環(huán)境中的實(shí)驗(yàn)中提取的體外數(shù)據(jù)集的進(jìn)一步實(shí)驗(yàn)補(bǔ)充了自然界數(shù)據(jù)集,或直接從活體生物(如小鼠)研究中提取的數(shù)據(jù)。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

研究小組發(fā)現(xiàn),雖然單獨(dú)DNA呼吸可以幾乎準(zhǔn)確地估計(jì)轉(zhuǎn)錄活性,但多模態(tài)模型可以提取結(jié)合基序,即轉(zhuǎn)錄因子結(jié)合的特定DNA序列,這是解釋轉(zhuǎn)錄過(guò)程的關(guān)鍵因素。

Bhattarai說(shuō):“正如它在多個(gè)不同數(shù)據(jù)集上的表現(xiàn)所證明的那樣,我們的多模態(tài)基礎(chǔ)模型表現(xiàn)出了多功能性、魯棒性(健壯性)和有效性?!薄霸撃P蜆?biāo)志著計(jì)算基因組學(xué)的重大進(jìn)步,為分析復(fù)雜的生物機(jī)制提供了一種復(fù)雜的工具?!?/p>