
來(lái)源:以下內(nèi)容摘編自張亞勤院士的新書《智能涌現(xiàn)——AI時(shí)代的思考與探索》。
身為三院院士,張亞勤憑借其深厚的科研和豐富的企業(yè)實(shí)踐經(jīng)驗(yàn),全面解讀了人工智能技術(shù)的演變趨勢(shì),探討了人工智能與生命科學(xué)、自動(dòng)駕駛等領(lǐng)域結(jié)合的落地路線圖,分析了技術(shù)發(fā)展背后的風(fēng)險(xiǎn)及應(yīng)對(duì)措施。同時(shí),對(duì)行業(yè)未來(lái)技術(shù)走向、創(chuàng)新路徑,以及產(chǎn)學(xué)研各界在第四次工業(yè)革命中的角色等內(nèi)容進(jìn)行了探討,為讀者呈現(xiàn)了AI時(shí)代的全景畫卷。
科學(xué)智能的新機(jī)遇
科學(xué)意味著系統(tǒng)性地構(gòu)建與組織知識(shí),且將之運(yùn)用于理解我們所處的宇宙;而“新科學(xué)”之“新”,關(guān)鍵在于模型。
各個(gè)科學(xué)領(lǐng)域的知識(shí)體系即將被刷新,原有的體系內(nèi)將會(huì)涌現(xiàn)出AI模型這一嶄新的知識(shí)形式。與人類科研工作者相比,AI尤為擅長(zhǎng)理解高維度的數(shù)據(jù),即具有大量特征或變量的數(shù)據(jù)集,能夠輕松地從海量數(shù)據(jù)中探尋出結(jié)構(gòu)、規(guī)律、模式、關(guān)系。那些對(duì)人類而言極為艱巨、即便耗時(shí)良久也未必能找到答案的任務(wù)(例如,從大量蛋白質(zhì)序列與結(jié)構(gòu)的數(shù)據(jù)中提煉出氨基酸序列折疊的內(nèi)在法則,進(jìn)而精確預(yù)測(cè)出蛋白質(zhì)結(jié)構(gòu)),對(duì)AI而言卻沒(méi)有那么難。有鑒于此,在新的科學(xué)智能時(shí)代,科學(xué)知識(shí)或許會(huì)由人類能理解的知識(shí)及AI模型兩部分共同構(gòu)成。
AI對(duì)科學(xué)研究的作用很可能會(huì)出現(xiàn)從工具到基石的改變。以往在科研過(guò)程中,AI通常被用于高性能計(jì)算或是數(shù)據(jù)分析;但隨著AI的進(jìn)化迭代,其在科學(xué)領(lǐng)域的地位必然會(huì)逐級(jí)提升,例如基于AI獨(dú)特的存在形式來(lái)探索科學(xué)問(wèn)題,甚至借助其特有的能力來(lái)發(fā)現(xiàn)前輩科學(xué)家從未涉足的“無(wú)人區(qū)”。
眾多AI技術(shù)正在科學(xué)領(lǐng)域大展拳腳,如生成式AI、超大模型、多模態(tài)預(yù)訓(xùn)練(Multimodal Pre-trained)、干濕閉環(huán)(Dry-lab and Wet-lab Loop)、自主學(xué)習(xí)(Autonomous AI),等等,這些技術(shù)在加速科學(xué)發(fā)現(xiàn)方面發(fā)揮著關(guān)鍵作用,同時(shí)也在潛移默化地改變著科學(xué)研究的方式與進(jìn)程。
更具體地說(shuō),科學(xué)智能的新機(jī)遇涵蓋了多層次、多方面。例如,在技術(shù)層面,大語(yǔ)言模型與生成式AI可輕松處理自然語(yǔ)言并挖掘、整合知識(shí),基礎(chǔ)模型能融合多模型結(jié)構(gòu),實(shí)現(xiàn)多智能體協(xié)作并發(fā)揮預(yù)訓(xùn)練優(yōu)勢(shì);在實(shí)驗(yàn)協(xié)同層面,濕實(shí)驗(yàn)室與干實(shí)驗(yàn)室結(jié)合,可優(yōu)化實(shí)驗(yàn)設(shè)計(jì)并實(shí)時(shí)反饋調(diào)整;在人機(jī)交互層面,人與AI 的互動(dòng)可為科學(xué)家提供輔助決策和知識(shí)共享學(xué)習(xí);在實(shí)驗(yàn)手段層面,實(shí)驗(yàn)室自動(dòng)化與機(jī)器人技術(shù)可提升實(shí)驗(yàn)效率及精度;在探索發(fā)現(xiàn)層面,自主AI可用于探索未知前沿、用于發(fā)現(xiàn)新規(guī)律;在教育研究產(chǎn)業(yè)層面,大學(xué)教育與研究新時(shí)代的開(kāi)啟,有助于新型人才的培養(yǎng)、新興產(chǎn)業(yè)的萌生。
生成式AI的用途絕不止于內(nèi)容創(chuàng)作領(lǐng)域。的確,它可以生成文案、圖片、視頻,甚至是廣告和短劇,可以為創(chuàng)作者提供更便捷的創(chuàng)意變現(xiàn)途徑。但現(xiàn)今,越來(lái)越多的科學(xué)家開(kāi)始探索如何將生成式AI及其背后的GPT大模型應(yīng)用于分子生成,以催生出新型藥物。也就是說(shuō),AI不僅具備顛覆互聯(lián)網(wǎng)內(nèi)容生產(chǎn)模式及相關(guān)生產(chǎn)力的潛力,還有可能在生物醫(yī)藥及其他科學(xué)領(lǐng)域發(fā)動(dòng)一場(chǎng)改天換地般的變革。
縱觀GPT在科學(xué)領(lǐng)域的發(fā)展態(tài)勢(shì),目前主要有兩種模型,一是通過(guò)自然語(yǔ)言訓(xùn)練的領(lǐng)域內(nèi)模型,二是通過(guò)生物數(shù)據(jù)訓(xùn)練的科學(xué)模型。我的判斷是,未來(lái),這兩種模型將深度融合,形成更強(qiáng)大的生成式模型。
插件技術(shù)和工具極大地提高了GPT在實(shí)際應(yīng)用中的能力。一些研究人員已在嘗試將化學(xué)領(lǐng)域的工具設(shè)備作為插件引入GPT,使該模型能夠綜合調(diào)用搜索引擎、代碼執(zhí)行、文獻(xiàn)檢索、自動(dòng)化實(shí)驗(yàn)等工具,以更好地完成科研任務(wù)。AI自主學(xué)習(xí)已成現(xiàn)實(shí),再往前進(jìn)一步,或許便是AI的自主研究。
當(dāng)研究者將自動(dòng)化實(shí)驗(yàn)室和AI模型相結(jié)合,就能夠?qū)崿F(xiàn)干濕閉環(huán)。首先,由“干實(shí)驗(yàn)室”發(fā)起一個(gè)實(shí)驗(yàn)請(qǐng)求,再交由模型處理。隨后,模型將處理結(jié)果反饋給自動(dòng)化實(shí)驗(yàn)室,以執(zhí)行相應(yīng)的“濕實(shí)驗(yàn)”。在實(shí)驗(yàn)過(guò)程中,自動(dòng)化實(shí)驗(yàn)室會(huì)持續(xù)將實(shí)驗(yàn)數(shù)據(jù)反饋給AI模型,以助力模型進(jìn)行優(yōu)化和迭代。通過(guò)這種干濕閉環(huán)的方式,AI模型將可以更高效地開(kāi)展科學(xué)研究,也能更精確地預(yù)測(cè)和改進(jìn)實(shí)驗(yàn)結(jié)果。
AI模型還可以與藥學(xué)家進(jìn)行交互式藥物生成。在新模式下,藥學(xué)家可以根據(jù)自身專業(yè)知識(shí)對(duì)AI模型的生成效果進(jìn)行評(píng)判,并適時(shí)提供相關(guān)指導(dǎo)與建議。這種基于藥學(xué)家專業(yè)知識(shí)的AI模型生成方式稱為“專家參與的循環(huán)”(Expert in the Loop)。通過(guò)這種方式,藥學(xué)家的專業(yè)知識(shí)得以和AI模型的超強(qiáng)學(xué)習(xí)能力深度融合,進(jìn)而實(shí)現(xiàn)高效能、低費(fèi)用的藥物研發(fā)與生成。
在干濕閉環(huán)和專家可控藥物生成之間,還需要一個(gè)藥物基礎(chǔ)大模型來(lái)持續(xù)積累數(shù)據(jù)和知識(shí)。這個(gè)大模型基于現(xiàn)有數(shù)據(jù)集、知識(shí)庫(kù)進(jìn)行訓(xùn)練和優(yōu)化,能實(shí)現(xiàn)更準(zhǔn)確、更快捷的藥物生成和研究。可以預(yù)見(jiàn),當(dāng)干濕閉環(huán)、專家可控藥物生成、藥物基礎(chǔ)大模型三者被結(jié)合運(yùn)用,AI在醫(yī)學(xué)科學(xué)方面的能力將得到空前的強(qiáng)化,而這又會(huì)反過(guò)來(lái)為藥物研發(fā)創(chuàng)造更多的機(jī)遇與可能性。
生物醫(yī)藥領(lǐng)域以往通過(guò)濕實(shí)驗(yàn)已積累大量極具價(jià)值的知識(shí)和數(shù)據(jù),其中很多都可以被合規(guī)獲取并使用,如蛋白質(zhì)序列目前擁有超過(guò)22億條數(shù)據(jù),可購(gòu)買的具備成藥性的小分子則約有2.3億。這些海量、公開(kāi)的分子序列數(shù)據(jù)完全可以利用大模型來(lái)學(xué)習(xí)其語(yǔ)義表征,我們?cè)賹⒅糜谒幬镅邪l(fā)任務(wù)。此外,我們還有過(guò)去數(shù)百年來(lái)無(wú)數(shù)生物學(xué)家積累的海量文獻(xiàn)和知識(shí)圖譜數(shù)據(jù),它們都能夠單獨(dú)訓(xùn)練出一個(gè)龐大的知識(shí)表征模型,而且這些不同模態(tài)的數(shù)據(jù)里的分子信息又都相互關(guān)聯(lián),如果能將所有的信息統(tǒng)一壓縮在一個(gè)大模型里,就能惠及未來(lái)所有的生物醫(yī)藥下游任務(wù)。正如ChatGPT是處理人類自然語(yǔ)言的大模型,我們也可以構(gòu)建原子級(jí)分子語(yǔ)言、蛋白質(zhì)語(yǔ)言基礎(chǔ)模型,幫助研究者更好地理解物質(zhì)與生命的底層邏輯。
生物、化學(xué)、材料等領(lǐng)域,AI創(chuàng)新進(jìn)行時(shí)
蛋白質(zhì)工程與抗體設(shè)計(jì):在早期對(duì)自然語(yǔ)言處理課題的推究過(guò)程中,語(yǔ)言學(xué)家先是設(shè)計(jì)了諸多規(guī)則來(lái)建模語(yǔ)言,隨后又引入了統(tǒng)計(jì)學(xué)的方法來(lái)優(yōu)化軟件,直至當(dāng)下的生成式AI出現(xiàn),才終于在自然語(yǔ)言處理方面達(dá)到了人類的能力層級(jí)。有趣的是,如果我們將蛋白質(zhì)序列視作一種語(yǔ)言,就可以把蛋白質(zhì)工程和自然語(yǔ)言處理進(jìn)行比對(duì)。也就是說(shuō),以往很多基于規(guī)則的蛋白質(zhì)理解或抗體設(shè)計(jì)方法都存在被AI模型增強(qiáng)甚至取代的可能性(見(jiàn)圖3.1)。

小分子藥物與酶設(shè)計(jì):小分子藥物種類繁多,傳統(tǒng)的高通量虛擬篩選通常成本昂貴且耗時(shí)耗力。例如,要進(jìn)行百億規(guī)模的虛擬篩選,或許需要耗費(fèi)3 000年的時(shí)間和逾80萬(wàn)美元的成本。然而,運(yùn)用AI模型便極有希望大幅加速虛擬篩選的進(jìn)程,所消耗的時(shí)間可能從年縮短至秒,這樣的應(yīng)用前景不能不讓人振奮。
藥物設(shè)計(jì)與酶設(shè)計(jì)是兩個(gè)重大的課題。前者是給定蛋白質(zhì),尋找能夠作用于其上的小分子;后者則是給定小分子,尋找能夠催化其反應(yīng)的蛋白質(zhì)。將這兩個(gè)課題結(jié)合起來(lái)思考就能獲得很多啟示。當(dāng)然,AI設(shè)計(jì)小分子也面臨不小的挑戰(zhàn),舉例來(lái)說(shuō),生成的分子不能與靶點(diǎn)之外的蛋白質(zhì)相互作用,否則會(huì)導(dǎo)致包括副作用在內(nèi)的不良影響。而且,由AI設(shè)計(jì)的小分子往往難以合成,因?yàn)檫@些分子的結(jié)構(gòu)復(fù)雜多樣,需要經(jīng)過(guò)很多的步驟才能成功合成,但這些問(wèn)題既是啟用AI前便可預(yù)料到的,又是肯定會(huì)被逐步優(yōu)化與解決的。
新材料設(shè)計(jì):隨著柔性顯示等技術(shù)的不斷發(fā)展,有機(jī)半導(dǎo)體材料得到了越來(lái)越多的關(guān)注。其良好的成膜性質(zhì)及可借助溶液加工等特點(diǎn)使器件的制備相較于傳統(tǒng)的無(wú)機(jī)材料更簡(jiǎn)便,成本也更低廉,在柔性顯示、傳感器和可穿戴設(shè)備等多個(gè)領(lǐng)域具有相當(dāng)廣闊的應(yīng)用前景。
有機(jī)發(fā)光分子的空間結(jié)構(gòu)龐大,其設(shè)計(jì)往往需要綜合多種因素加以考量。傳統(tǒng)的設(shè)計(jì)方法大多依賴科研人員的經(jīng)驗(yàn)和知識(shí),因而很難覆蓋整個(gè)設(shè)計(jì)空間。因此,利用AI進(jìn)行有機(jī)發(fā)光分子的設(shè)計(jì)具有極為龐大的潛力。
今后,生物學(xué)、化學(xué)、材料科學(xué)、環(huán)境、農(nóng)業(yè)等眾多領(lǐng)域,都將實(shí)現(xiàn)由AI驅(qū)動(dòng)的科學(xué)發(fā)現(xiàn)和技術(shù)創(chuàng)新。也就是說(shuō),科學(xué)智能勢(shì)必會(huì)對(duì)億萬(wàn)人的生活質(zhì)量產(chǎn)生重大影響,還會(huì)深刻影響科學(xué)的未來(lái)。要想推進(jìn)這一進(jìn)程,首先需要政企學(xué)各界協(xié)力打造新的生態(tài)系統(tǒng),而在這一過(guò)程中,五大支柱的構(gòu)建至關(guān)重要。第一,開(kāi)發(fā)和部署科學(xué)智能的開(kāi)放平臺(tái)與基礎(chǔ)設(shè)施;第二,開(kāi)展有關(guān)科學(xué)與AI深度融合的研究;第三,助力建設(shè)、完善全球?qū)W術(shù)網(wǎng)絡(luò)和社區(qū);第四,塑造世界領(lǐng)先的產(chǎn)業(yè)合作伙伴生態(tài)體系;第五,促進(jìn)有利于產(chǎn)業(yè)發(fā)展與經(jīng)濟(jì)增長(zhǎng)的孵化器及風(fēng)險(xiǎn)投資網(wǎng)絡(luò)的快速成形。
總的來(lái)說(shuō),“AI +新科學(xué)”是一個(gè)新穎且前沿的領(lǐng)域。人工智能與物質(zhì)奧秘的對(duì)撞為全世界的科研工作者揭示出閃現(xiàn)于前方的無(wú)數(shù)曼妙可能。隨著我們?cè)谶@一領(lǐng)域跋涉漸深,我們對(duì)自然世界的理解也會(huì)更透徹、更深刻。借助AI的技術(shù)手段,科研人員能夠處理規(guī)模更龐大、結(jié)構(gòu)更復(fù)雜的數(shù)據(jù),探索過(guò)去未能分辨的現(xiàn)象和規(guī)律,進(jìn)而推動(dòng)新的科學(xué)發(fā)現(xiàn)。
人工智能+生命科學(xué)的機(jī)遇與挑戰(zhàn)
作為科學(xué)智能的子集之一,人工智能+生命科學(xué)的探索開(kāi)展較早、應(yīng)用較深,經(jīng)歷了系統(tǒng)性的發(fā)展與實(shí)踐,因此有必要專門辟出一節(jié)來(lái)介紹這一新領(lǐng)域的發(fā)展?fàn)顩r和未來(lái)機(jī)遇。
基因測(cè)序、高通量生物實(shí)驗(yàn)、傳感器……相關(guān)技術(shù)的發(fā)展在生命科學(xué)與生物醫(yī)藥領(lǐng)域掀起了一場(chǎng)變革風(fēng)暴,加速了這一領(lǐng)域的數(shù)字化、自動(dòng)化進(jìn)程。健康計(jì)算(Health Computing)作為一種新型智能科學(xué)計(jì)算模式,是以AI和數(shù)據(jù)驅(qū)動(dòng)為核心的第四研究范式。它將極大地助力人類對(duì)生命與健康問(wèn)題的探究。
第2章粗略地介紹過(guò)深度學(xué)習(xí)算法的演變情況,大體上,算法革新令A(yù)I的能力突飛猛進(jìn),但在AI能力倍速進(jìn)化的同時(shí),也須確保技術(shù)可控。特別是當(dāng)我們寄望于將AI變成助力生命科學(xué)與生物醫(yī)藥產(chǎn)業(yè)騰飛的翅膀時(shí),我們就更要以如履薄冰的心態(tài)來(lái)對(duì)待每一項(xiàng)創(chuàng)新,畢竟,無(wú)論是患者的隱私保護(hù),還是新藥品、新醫(yī)療器械的安全性,都需要以嚴(yán)肅、審慎的態(tài)度來(lái)直面。
在可信AI計(jì)算方面,近年來(lái)也有了不小的進(jìn)展。以聯(lián)邦學(xué)習(xí)(Federated Learning)為例,聯(lián)邦學(xué)習(xí)主要有三種模式:一是橫向聯(lián)邦學(xué)習(xí)(Horizontal Federated Learning),面向具備相同特征空間但樣本不同的場(chǎng)景,能夠保證相同模態(tài)不同源頭的數(shù)據(jù)之間的隱私性;二是縱向聯(lián)邦學(xué)習(xí)(Vertical Federated Learning),面向樣本相同但特征不同的場(chǎng)景,能夠保證多模態(tài)數(shù)據(jù)間的隱私性;三是聯(lián)邦遷移學(xué)習(xí)(Federated Transfer Learning),面向樣本和特征都有部分重合的場(chǎng)景,結(jié)合了差分隱私和同態(tài)加密,能夠保證在跨領(lǐng)域數(shù)據(jù)共享與模型訓(xùn)練過(guò)程中的隱私性。
在確保安全可控的前提下,AI正在推動(dòng)生命科學(xué)與生物醫(yī)藥領(lǐng)域的連鎖創(chuàng)新持續(xù)加速。眼下,AI在蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)、CRISPR 基因編輯技術(shù)、抗體/TCR/個(gè)性化的疫苗研發(fā)、精準(zhǔn)醫(yī)療、AI輔助藥物設(shè)計(jì)等多方面的研究業(yè)已成為國(guó)際前沿戰(zhàn)略級(jí)研究熱點(diǎn)。
正是基于這樣的學(xué)科發(fā)展趨勢(shì)和產(chǎn)業(yè)背景,當(dāng)下業(yè)內(nèi)普遍聚焦的研究方向包括:AI增強(qiáng)個(gè)人健康管理與公共衛(wèi)生、AI +醫(yī)療與生命科學(xué)、AI輔助藥物研發(fā)、AI +基因分析與編輯,等等。
想要更好地利用AI的能力、發(fā)現(xiàn)生命的奧秘,就需要構(gòu)建出專注于生命科學(xué)課題的AI基礎(chǔ)設(shè)施、數(shù)據(jù)平臺(tái)與核心算法引擎,用以支撐生命科學(xué)前沿的研究任務(wù)。同時(shí),也可通過(guò)打造旗艦級(jí)公開(kāi)數(shù)據(jù)集、組織算法挑戰(zhàn)競(jìng)賽、搭建智能+生命科學(xué)的眾智平臺(tái)等方式,加速培養(yǎng)跨界人才,壯大產(chǎn)業(yè)生態(tài)。
AlphaFold2是智能+生命科學(xué)的一個(gè)典型成功案例。過(guò)去這些年,科學(xué)家主要依靠冷凍電鏡和高精度X射線來(lái)解析蛋白質(zhì)結(jié)構(gòu),但自從AlphaFold2問(wèn)世后,這一過(guò)程實(shí)現(xiàn)了指數(shù)級(jí)的加速,徹底改變了從氨基酸序列到三維結(jié)構(gòu)再到功能的研究方式。
大體上,AlphaFold2的成功要素包括兩個(gè)方面。一是任務(wù)的特殊性。蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)可以被看作從序列到三維結(jié)構(gòu)的一一映射問(wèn)題,因此它是所謂的“Well-defined”(清晰無(wú)歧義)的AI問(wèn)題。AlphaFold2的任務(wù)選擇對(duì)后繼研究者的啟示在于,要找到生命科學(xué)中意義重大但又能抽象為適合AI的研究任務(wù)。二是模型的優(yōu)越性。在漫長(zhǎng)周期內(nèi),一代代學(xué)者對(duì)生命科學(xué)的鉆研積累了大規(guī)模的蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù);而AlphaFold2的模型架構(gòu)充分利用了數(shù)據(jù)驅(qū)動(dòng)的端到端深度學(xué)習(xí)模型。大數(shù)據(jù)與深度模型的結(jié)合恰恰是第四研究范式的突出特點(diǎn)。因此,另一個(gè)啟示是,在嘗試進(jìn)行智能+生命科學(xué)的研究時(shí),要注重跨界破壁與第四研究范式的重要性。
顯然,AlphaFold2是一個(gè)好的開(kāi)端,它的成功打開(kāi)了一個(gè)新的模式。蛋白質(zhì)結(jié)構(gòu)的精準(zhǔn)預(yù)測(cè)為生命科學(xué)的研究者提供了高效的計(jì)算工具,也為基于AI的重大新發(fā)現(xiàn)創(chuàng)造出可能。未來(lái),抗體、抗原的表位預(yù)測(cè)和腫瘤的精準(zhǔn)療法以及TCR/個(gè)性化疫苗的設(shè)計(jì)與優(yōu)化都將成為重要的研究熱點(diǎn),并將在AI驅(qū)動(dòng)的新計(jì)算模式的作用下取得一系列突破,智能+生命科學(xué)的黃金時(shí)代已近在眼前。
可以預(yù)見(jiàn)的是,在探索未知的過(guò)程中,還將面對(duì)許多不期而遇的科學(xué)挑戰(zhàn),但這也意味著,研究者有機(jī)會(huì)發(fā)現(xiàn)或創(chuàng)造出更多新的計(jì)算范式,比如本章提到的干濕融合的閉環(huán)式計(jì)算框架。一方面,AI模型將通過(guò)高通量、多輪濕實(shí)驗(yàn)的閉環(huán)驗(yàn)證和數(shù)據(jù)填充變得更加智能;另一方面,通過(guò)主動(dòng)學(xué)習(xí)和強(qiáng)化學(xué)習(xí)等方式,AI 能夠主動(dòng)規(guī)劃濕實(shí)驗(yàn)的自動(dòng)化執(zhí)行,從而形成干濕閉環(huán)驗(yàn)證、迭代加速生命科學(xué)發(fā)現(xiàn)與產(chǎn)業(yè)落地應(yīng)用。
如今在智能+生命科學(xué)領(lǐng)域,我和同伴們初步確立了以大模型為底座、干濕閉環(huán)、知識(shí)+數(shù)據(jù)雙驅(qū)動(dòng)的智能新藥研發(fā)范式,實(shí)現(xiàn)了智能新藥研發(fā)大模型基礎(chǔ)平臺(tái)、核心技術(shù)與產(chǎn)業(yè)應(yīng)用的落地突破。以下是AIR幾個(gè)較為典型的例子。
? 團(tuán)隊(duì)研發(fā)的全球首個(gè)可商用多模態(tài)生物醫(yī)藥百億參數(shù)大模型BioMedGPT-10B于2023年開(kāi)源。同時(shí),團(tuán)隊(duì)還聯(lián)合開(kāi)源了全球首個(gè)免費(fèi)可商用、生物醫(yī)藥專用的Llama 2大語(yǔ)言模型BioMedGPT-LM-7B。
? 在虛擬藥物篩選方面,團(tuán)隊(duì)發(fā)現(xiàn)了一種應(yīng)用于高通量小分子虛擬篩選的靶點(diǎn)對(duì)工具——DrugCLIP,首次實(shí)現(xiàn)了單機(jī)每日篩選百萬(wàn)億小分子的成就,篩選結(jié)果在多類靶點(diǎn)上通過(guò)了生物學(xué)實(shí)驗(yàn)驗(yàn)證。不僅如此,團(tuán)隊(duì)還將蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)的虛擬數(shù)據(jù)應(yīng)用于DrugCLIP,結(jié)果顯示,此舉同樣能獲得較大的性能提升。
? AI抗體設(shè)計(jì)可以顯著加速并優(yōu)化抗體藥物研發(fā)過(guò)程,提高設(shè)計(jì)精準(zhǔn)度,降低研發(fā)成本。此前,團(tuán)隊(duì)利用自主研發(fā)的智能抗體設(shè)計(jì)平臺(tái)HelixonDesign,對(duì)現(xiàn)有COVID-19(2019新型冠狀病毒)抗體展開(kāi)了系統(tǒng)設(shè)計(jì)和優(yōu)化。全新設(shè)計(jì)的抗體達(dá)到或超過(guò)了已上市的廣譜中和抗體抗病毒效果。相關(guān)研究為智能抗體設(shè)計(jì)和新一代抗體藥物研發(fā)提供了新的思路和范式,奠定了AI抗體設(shè)計(jì)的堅(jiān)實(shí)理論和實(shí)踐基礎(chǔ)。另外,新抗體還是全球范圍內(nèi)首個(gè)由AI算法設(shè)計(jì)出的具有臨床價(jià)值的廣譜新冠中和抗體。
? 智能體醫(yī)院(Agent Hospital)。2024年5月,智慧醫(yī)療團(tuán)隊(duì)完成的論文《智能體醫(yī)院:具有可進(jìn)化醫(yī)療智能體的模擬醫(yī)院》(Agent Hospital:A Simulacrum of Hospital with Evolvable Medical Agents)在國(guó)內(nèi)外醫(yī)學(xué)AI領(lǐng)域得到了廣泛關(guān)注和討論。就像是美劇《西部世界》中的場(chǎng)景,2024年11月,世界第一個(gè)智能體醫(yī)院上線,首批來(lái)自21個(gè)科室的42位AI醫(yī)生正式亮相,定向邀請(qǐng)專業(yè)人士訪問(wèn)醫(yī)院,對(duì)AI醫(yī)生的疾病診斷能力進(jìn)行內(nèi)部測(cè)試。智能體醫(yī)院在模擬現(xiàn)實(shí)醫(yī)院設(shè)施與流程的基礎(chǔ)上,建立了擬人度高、分布廣、類型多樣的AI患者,AI醫(yī)生由此能夠在虛擬的醫(yī)院中,通過(guò)大量高頻次診療實(shí)踐,實(shí)現(xiàn)超常規(guī)的成長(zhǎng),最終達(dá)到甚至超過(guò)人類醫(yī)師的醫(yī)療能力。
近年來(lái),AI相關(guān)技術(shù)的進(jìn)展和突破可以說(shuō)是接踵而至,令人目不暇接。就像火種點(diǎn)燃導(dǎo)火索一樣,比某一技術(shù)的單純進(jìn)步更加重要的是,牽動(dòng)其他領(lǐng)域協(xié)同進(jìn)步、次第爆發(fā)。生命科學(xué)正是被AI深刻影響的領(lǐng)域之一。
以新藥研發(fā)為例,以前,研發(fā)一款新藥的平均周期通常為10 ~ 15年,將一種藥物推向市場(chǎng)的成本則高達(dá)25億美元,簡(jiǎn)而言之,周期漫長(zhǎng),成本高企;而AI技術(shù)的引入,能夠顯著加速新藥研發(fā)的某些階段。根據(jù)波士頓咨詢集團(tuán)(BCG)的研究,AI可以將藥物發(fā)現(xiàn)和前期臨床階段的時(shí)間縮短25% ~ 50%,成效驚人,而且這還只是開(kāi)始。
如今,不但物理世界在數(shù)字化,整個(gè)生物世界也在數(shù)字化。細(xì)胞、蛋白質(zhì)乃至基因都可以用數(shù)字的方式來(lái)表達(dá),數(shù)字化的優(yōu)勢(shì)之一是積累大量真實(shí)、準(zhǔn)確的數(shù)據(jù),由此,研究者可以用數(shù)字格式表達(dá)以往只能用模擬和實(shí)驗(yàn)等方法研究的細(xì)胞、蛋白質(zhì)、基因,進(jìn)而依托算法、算力,逐步“計(jì)算”出生命的奧秘。在這個(gè)過(guò)程中,AI能夠更好地助力數(shù)據(jù)處理和分析、模擬和預(yù)測(cè)、個(gè)性化醫(yī)療、自動(dòng)化實(shí)驗(yàn)等工作。再具體看新藥研發(fā),從靶點(diǎn)發(fā)現(xiàn)到藥物篩選再到臨床試驗(yàn)設(shè)計(jì),都是AI的強(qiáng)項(xiàng)所在。
事實(shí)上,基因科學(xué)與信息科學(xué)存在著某種堪稱“玄妙”的關(guān)聯(lián)。首先,兩者都涉及復(fù)雜信息的存儲(chǔ)、傳遞、處理與解碼。與計(jì)算機(jī)采用0和1二進(jìn)制系統(tǒng)來(lái)編碼信息相似,DNA使用A(腺嘌呤)、T(胸腺嘧啶)、C(胞嘧啶)、G(鳥(niǎo)嘌呤)四種堿基來(lái)編碼與傳遞生物信息。其次,基因表達(dá)的規(guī)則與自然語(yǔ)言也具有一些相似性,例如,基因表達(dá)的過(guò)程也存在著“句法結(jié)構(gòu)”,特定DNA序列的功能取決于它在序列中的位置和上下文,基因表達(dá)中的一些“冗余”就類似于語(yǔ)言中的同義詞和句法冗余,基因表達(dá)的調(diào)控方式就好比自然語(yǔ)言中的語(yǔ)氣或句法結(jié)構(gòu)變化等。最后,正如計(jì)算機(jī)是現(xiàn)實(shí)工作、生活、人際關(guān)系的數(shù)字副本與處理系統(tǒng),基因可以說(shuō)是生命科學(xué)的密碼系統(tǒng),而AI可以通過(guò)多種方式輔助人類破解密碼,包括基因組分析、基因功能預(yù)測(cè)、生物系統(tǒng)建模、個(gè)性化醫(yī)療、基因編輯與合成生物學(xué)等等。
基于這樣的認(rèn)知,我們開(kāi)展了GeneBERT項(xiàng)目。“Gene”即基因;“BERT”(Bidirectional Encoder Representations from Transformers)即基于雙向Transformer的編碼表示,專為理解自然語(yǔ)言的上下文信息而設(shè)計(jì),是許多大語(yǔ)言模型構(gòu)建的基礎(chǔ)。項(xiàng)目名稱直觀地展示了團(tuán)隊(duì)創(chuàng)新的出發(fā)點(diǎn)——將基因與大模型兩大交叉學(xué)科相結(jié)合,展開(kāi)新的研究。
GeneBERT團(tuán)隊(duì)開(kāi)發(fā)了泛化性能優(yōu)秀且可遷移的多模態(tài)深度預(yù)訓(xùn)練模型,將建模范圍擴(kuò)大至基因序列的功能性非編碼區(qū),在學(xué)術(shù)層面提供了分析非編碼區(qū)基因突變的新范式,有助于新藥開(kāi)發(fā)與基礎(chǔ)醫(yī)學(xué)相關(guān)的病理研究,為基因測(cè)序機(jī)構(gòu)、醫(yī)藥企業(yè)和醫(yī)院帶來(lái)了新算法、新靶點(diǎn)和優(yōu)化的治療方案。以這項(xiàng)工作為基礎(chǔ)的論文后來(lái)被《自然》正刊采用。
就像GeneBERT案例所展現(xiàn)的,從事計(jì)算機(jī)科學(xué)特別是AI相關(guān)研究的人與從事生物學(xué)、生命科學(xué)研究的人處于完全不同的專業(yè)領(lǐng)域。在相當(dāng)長(zhǎng)的一段時(shí)間里,這些領(lǐng)域的研究者都很難找到共同語(yǔ)言,再具體到專業(yè)知識(shí)、學(xué)術(shù)體系、研究方式,就更可以說(shuō)是差異巨大。但隨著AI技術(shù)的發(fā)展,我們已然打通了這些原本涇渭分明的專業(yè)領(lǐng)域。
我稱這種打通與相融為“破壁計(jì)劃”。
今后,“破壁計(jì)劃”很可能會(huì)延展到更多的專業(yè)領(lǐng)域。就像盾構(gòu)機(jī)在隧道掘進(jìn)過(guò)程中破除厚壁,AI技術(shù)正在打通與其他專業(yè)領(lǐng)域之間的壁壘,通過(guò)結(jié)合與賦能,為其他產(chǎn)業(yè)帶來(lái)巨變。
毫不夸張地說(shuō),生物世界正處于數(shù)字化、自動(dòng)化和智能科學(xué)計(jì)算的新變革浪潮中。用計(jì)算的方法,即AI和數(shù)據(jù)驅(qū)動(dòng)的第四研究范式來(lái)輔助人們探索并解決生命健康問(wèn)題已成為一個(gè)重要的研究方向。今后,需要學(xué)術(shù)界和產(chǎn)業(yè)界共同推動(dòng)生命科學(xué)、生物醫(yī)藥、基因工程、個(gè)人健康等各領(lǐng)域由孤立、開(kāi)環(huán)向協(xié)同、閉環(huán)發(fā)展,如此方能實(shí)現(xiàn)更快速、更精準(zhǔn)、更安全、更經(jīng)濟(jì)、更普惠的生命科學(xué)與生物醫(yī)藥創(chuàng)新,而這也意味著在下一個(gè)十年甚至更久的周期里,我們將面對(duì)無(wú)窮無(wú)盡的科學(xué)發(fā)展與產(chǎn)業(yè)創(chuàng)新機(jī)遇。

作者:張亞勤 著
出版品牌:中信出版
頁(yè)數(shù):326
裝幀:16開(kāi),平裝
定價(jià):79
閱讀最新前沿科技趨勢(shì)報(bào)告,請(qǐng)?jiān)L問(wèn)歐米伽研究所的“未來(lái)知識(shí)庫(kù)”
https://wx.zsxq.com/group/454854145828

未來(lái)知識(shí)庫(kù)是“ 歐米伽 未來(lái)研究所”建立的在線知識(shí)庫(kù)平臺(tái),收藏的資料范圍包括人工智能、腦科學(xué)、互聯(lián)網(wǎng)、超級(jí)智能,數(shù)智大腦、能源、軍事、經(jīng)濟(jì)、人類風(fēng)險(xiǎn)等等領(lǐng)域的前沿進(jìn)展與未來(lái)趨勢(shì)。目前擁有超過(guò)8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。 歡迎掃描二維碼或訪問(wèn)https://wx.zsxq.com/group/454854145828進(jìn)入。
截止到2月28日 ”未來(lái)知識(shí)庫(kù)”精選的100部前沿科技趨勢(shì)報(bào)告
熱門跟貼