打開(kāi)網(wǎng)易新聞 查看精彩圖片
打開(kāi)網(wǎng)易新聞 查看精彩圖片

生命科學(xué)大模型的先行者,向行業(yè)打開(kāi)了一個(gè)開(kāi)放共贏的未來(lái)。

今天,百圖生科宣布開(kāi)源其領(lǐng)先的xTrimo V2中的蛋白質(zhì)語(yǔ)言模型xTrimoPGLM,7個(gè)不同參數(shù)量的模型均已發(fā)布在huggingface和github,供全球用戶自由獲取和使用。

https://huggingface.co/biomap-research

https://github.com/biomap-research/xTrimoPGLM

xTrimoPGLM是全球首個(gè)千億參數(shù)的蛋白質(zhì)語(yǔ)言模型,性能超越了ESM-2、ProGen2等此前業(yè)界領(lǐng)先的蛋白質(zhì)模型,并在 藥物分子設(shè)計(jì)和優(yōu)化、抗體工程與疫苗開(kāi)發(fā)、酶工程和生物催化劑設(shè)計(jì) 等領(lǐng)域展現(xiàn)出廣泛應(yīng)用前景。

該心血向行業(yè)的開(kāi)放,意味著過(guò)去只有頭部藥企和頂尖實(shí)驗(yàn)室才能配備的先進(jìn)AI工具,如今將惠及更多開(kāi)發(fā)人員,為整個(gè)生命科學(xué)行業(yè)帶來(lái)新的發(fā)展機(jī)遇。

這是一次用創(chuàng)新帶動(dòng)創(chuàng)新的嘗試,圍繞開(kāi)源本身,自由交流、開(kāi)放共享的時(shí)代趨勢(shì)正在匯聚起“群體智慧”。

當(dāng)下,人工智能方興未艾,于生命科學(xué)的應(yīng)用更是處于早期,通過(guò)開(kāi)源構(gòu)建寬廣的創(chuàng)新生態(tài),將蛋糕做得更大,最終帶動(dòng)整個(gè)行業(yè)的繁榮,是百圖生科作為領(lǐng)軍者的戰(zhàn)略遠(yuǎn)見(jiàn)。

隨著DeepSeek-R1等大模型的開(kāi)源浪潮興起,極致的性能優(yōu)化與普惠的開(kāi)源精神引發(fā)深刻的技術(shù)平權(quán)運(yùn)動(dòng),百圖生科選擇為更加開(kāi)放與包容的明天播種。

千億級(jí)xTrimoPGLM的開(kāi)源宣告了行業(yè)的DeepSeek時(shí)刻,站在AI深度融入生命科學(xué)的關(guān)鍵節(jié)點(diǎn),百圖生科懷普惠之志,以技術(shù)創(chuàng)新為基石,以生態(tài)協(xié)作為階梯,深度提升行業(yè)智能化水平。

隨著百圖按下技術(shù)落地“加速鍵”,一場(chǎng)行業(yè)變革大幕正徐徐拉開(kāi)。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

深耕大模型,百圖的進(jìn)化論

蛋白質(zhì)領(lǐng)域,是AI在生命科學(xué)應(yīng)用中成果最豐富、最矚目的一顆明珠。

作為生命體系中的重要分子,蛋白質(zhì)參與到幾乎所有的生命過(guò)程中,包括代謝、免疫、傳導(dǎo)、細(xì)胞分化和信號(hào)傳遞等,其結(jié)構(gòu)、功能、相互作用與調(diào)控機(jī)制復(fù)雜性一直是科學(xué)家們探索的重點(diǎn)。

從2020年的AlphaFold2橫空出世,到摘得2024年諾貝爾化學(xué)獎(jiǎng)桂冠。AI幫助人類破譯了“蛋白質(zhì)密碼”并從實(shí)驗(yàn)室走向產(chǎn)業(yè)端,涵蓋了新藥研發(fā)、疾病診斷、合成生物等多個(gè)領(lǐng)域,顯示出巨大的市場(chǎng)潛力。

正因如此,蛋白質(zhì)模型在AI+生命科學(xué)領(lǐng)域的關(guān)注度與普及度都遠(yuǎn)超其他,也往往是企業(yè)或研發(fā)團(tuán)隊(duì)證明自身實(shí)力贏取行業(yè)認(rèn)可的第一戰(zhàn),在行業(yè)內(nèi)頗具影響力的Meta、DeepMind都推出過(guò)蛋白質(zhì)相關(guān)模型。

正如計(jì)算蛋白質(zhì)先驅(qū)David Baker所說(shuō):“蛋白質(zhì)是生命的機(jī)器,理解它們的語(yǔ)言將揭開(kāi)生物學(xué)的秘密?!?/p>

作為全球最早投身于生命科學(xué)大模型研發(fā)的公司之一,百圖生科的首個(gè)學(xué)術(shù)開(kāi)源項(xiàng)目HelixFold-Single就聚焦在蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)領(lǐng)域,曾登上Nature子刊封面。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

HelixFold-Single模型框架圖

該模型是全球范圍內(nèi)首個(gè)不依賴MSA 高速蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)模型,實(shí)現(xiàn)了“Folding with Large-scale Protein Language Model”的突破,在評(píng)測(cè)任務(wù)上速度提升百倍以上,為蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)領(lǐng)域帶來(lái)了新的躍升。

2023年,該公司的蛋白質(zhì)語(yǔ)言模型xTrimoPGLM更成功融合蛋白質(zhì)理解+蛋白質(zhì)生成兩大類不同任務(wù)的預(yù)訓(xùn)練方法,在18個(gè)任務(wù)中有15個(gè)取得SOTA,綜合表現(xiàn)優(yōu)于原來(lái)的SOTA任務(wù)模型,也優(yōu)于同為預(yù)訓(xùn)練模型的Meta ESM-2。

同年百圖生科旗下“能生成蛋白質(zhì)的ChatGPT”也誕生了,這套基于 xTrimo 驅(qū)動(dòng)的 AIGP(AI Generated Protein) 平臺(tái)能夠有針對(duì)性地生成蛋白質(zhì)或者對(duì)生成式的方式設(shè)計(jì)蛋白質(zhì)。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

經(jīng)過(guò)數(shù)年沉淀,百圖生科的蛋白質(zhì)大模型已經(jīng)完成了數(shù)輪自我進(jìn)化與提升,其中的各類數(shù)據(jù)也通過(guò)生態(tài)循環(huán)反哺AI平臺(tái)的訓(xùn)練并進(jìn)一步地提升了模型能力。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

首個(gè)千億參數(shù)蛋白質(zhì)大模型:

大即是強(qiáng),打通理解和生成

堅(jiān)定選擇大模型方向,百圖生科以其深刻的技術(shù)實(shí)踐,拓展了生物計(jì)算的疆界。

在自然語(yǔ)言領(lǐng)域,Scaling Law(規(guī)模法則)已成為黃金定律,成為人工智能產(chǎn)業(yè)最為知名的規(guī)律,被微軟CEO納德拉稱為AI革命的真正動(dòng)力。

究其原因,Scaling Law揭示了全球AI競(jìng)爭(zhēng)的關(guān)鍵——模型性能與數(shù)據(jù)規(guī)模的內(nèi)在關(guān)系:模型性能應(yīng)隨著模型參數(shù)大小、數(shù)據(jù)量、計(jì)算量按比例指數(shù)增加而線性增長(zhǎng)。

Scaling Law成為GPT等一眾大模型的基石,引發(fā)產(chǎn)業(yè)各方圍繞數(shù)據(jù)和算力構(gòu)筑護(hù)城河,成為不少精英堅(jiān)信AI能夠改變世界的底層信仰。

更進(jìn)一步地,xTrimoPGLM的研究結(jié)果驗(yàn)證了Scaling Law:隨著蛋白質(zhì)語(yǔ)言模型計(jì)算量的指數(shù)增長(zhǎng),下游任務(wù)性能也會(huì)呈現(xiàn)線性增長(zhǎng)。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

這一突破性成果證明了大模型在處理生物學(xué)復(fù)雜任務(wù)時(shí)的必要性,為生物大模型的發(fā)展提供了理論支撐。

在“更大即更強(qiáng)”的規(guī)律支配下,擁有業(yè)內(nèi)最大參數(shù)規(guī)模的百圖生科鎖定了領(lǐng)先地位。

當(dāng)然,百圖的技術(shù)優(yōu)勢(shì),不僅體現(xiàn)在模型規(guī)模的量級(jí)突破上,更反映在其對(duì)生命科學(xué)復(fù)雜系統(tǒng)的深入理解與精準(zhǔn)把握上。

傳統(tǒng)蛋白質(zhì)語(yǔ)言模型往往受限于單一預(yù)訓(xùn)練目標(biāo),要么擅長(zhǎng)理解任務(wù)(如ESM系列模型,主要用于蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)),要么專注于生成任務(wù)(如ProGen,側(cè)重于蛋白質(zhì)生成),暴露出任務(wù)適應(yīng)性與泛化能力的不足。

而基于對(duì)蛋白質(zhì)數(shù)據(jù)深層次的把握,百圖生科研發(fā)人員創(chuàng)新了xTrimoPGLM的預(yù)訓(xùn)練框架,通過(guò)結(jié)合GLM(通用語(yǔ)言模型)和MLM(掩碼語(yǔ)言模型)的優(yōu)勢(shì),成功實(shí)現(xiàn)了對(duì)理解和生成這兩類任務(wù)的同時(shí)優(yōu)化。

這種統(tǒng)一框架使得xTrimoPGLM能夠在理解任務(wù)中提供精確的氨基酸和序列級(jí)別的表示,同時(shí)在生成任務(wù)中能夠產(chǎn)生與自然蛋白質(zhì)結(jié)構(gòu)相似的全新蛋白質(zhì)序列。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

通過(guò)構(gòu)建規(guī)模空前的蛋白質(zhì)語(yǔ)言訓(xùn)練數(shù)據(jù)集,并結(jié)合創(chuàng)新性的算法架構(gòu)充分挖掘海量參數(shù)的潛在價(jià)值,百圖生科研發(fā)的xTrimoPGLM展現(xiàn)出卓越的性能表現(xiàn)。

在蛋白質(zhì)理解任務(wù)中,xTrimoPGLM在多種評(píng)估中表現(xiàn)出色,涵蓋了蛋白質(zhì)結(jié)構(gòu)、功能、交互和可開(kāi)發(fā)性等領(lǐng)域的18項(xiàng)任務(wù)中的15項(xiàng)超越之前的SOTA模型。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

此外,xTrimoPGLM還展現(xiàn)了出色的從頭(de novo)設(shè)計(jì)蛋白質(zhì)序列的性能,能夠生成結(jié)構(gòu)相似但序列相異的蛋白質(zhì),為藥物設(shè)計(jì)和蛋白質(zhì)工程提供了更多可能。

而通過(guò)監(jiān)督微調(diào)來(lái)定制特定的結(jié)構(gòu)和生物物理特性,xTrimoPGLM的“超級(jí)對(duì)齊”能力將進(jìn)一步發(fā)揮其作為可編程模型在探索和合成廣闊蛋白質(zhì)空間方面的潛力。

經(jīng)過(guò)持續(xù)的技術(shù)迭代與優(yōu)化,xTrimoPGLM在模型規(guī)模與性能指標(biāo)上均已達(dá)到國(guó)際領(lǐng)先水平,確立了其在生物計(jì)算領(lǐng)域的標(biāo)桿地位。

毫無(wú)疑問(wèn),xTrimoPGLM的開(kāi)源將為學(xué)術(shù)界和產(chǎn)業(yè)界提供了強(qiáng)大動(dòng)力,這一選擇與DeepSeek的實(shí)踐相呼應(yīng),推動(dòng)AI在生命科學(xué)的廣泛應(yīng)用,加速全球研究進(jìn)程。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

技術(shù)理想照進(jìn)現(xiàn)實(shí)

百圖賦能全球客戶,引領(lǐng)創(chuàng)新生態(tài)

大模型的發(fā)展恰如一棵蓬勃生長(zhǎng)的大樹,其根基在于底層技術(shù)的持續(xù)創(chuàng)新,而茂盛的枝葉則象征著整個(gè)生態(tài)系統(tǒng)的繁榮發(fā)展。

xTrimoPGLM的開(kāi)源只是一個(gè)起點(diǎn),回顧百圖生科成立五年以來(lái)的種種歷程,會(huì)有這種感嘆:重重挑戰(zhàn)的生命科學(xué)大模型之路,已經(jīng)在技術(shù)、商業(yè)、生態(tài)上已經(jīng)鋪就了條條通衢。

去年,百圖生科發(fā)布了擁有2100億參數(shù)、覆蓋蛋白質(zhì)、DNA、RNA等7大生命科學(xué)主流模態(tài)的xTrimo V3,成為目前全球規(guī)模最大、首個(gè)實(shí)現(xiàn)全模態(tài)覆蓋的生命科學(xué)大模型。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

這個(gè)大模型家族,實(shí)際上可應(yīng)用于生命科學(xué)產(chǎn)業(yè)鏈的所有不同環(huán)境,從分子早期研發(fā)、生產(chǎn)放大到臨床真實(shí)世界分析,再到最后的藥物市場(chǎng)及銷售,實(shí)現(xiàn)全鏈條覆蓋。

全模態(tài)體系的構(gòu)建不僅提供了端到端的技術(shù)支撐,更開(kāi)創(chuàng)了多模態(tài)融合的創(chuàng)新范式,在諸多場(chǎng)景展現(xiàn)巨大潛力。

比如,在靶點(diǎn)發(fā)現(xiàn)中,通過(guò)細(xì)胞尺度的多模態(tài)協(xié)作,結(jié)合蛋白質(zhì)、細(xì)胞表征和文本生成擾動(dòng)編碼,最后通過(guò)生物視覺(jué)模型輔助驗(yàn)證,可以顯著提升靶點(diǎn)發(fā)現(xiàn)的效率和準(zhǔn)確性。

百圖生科已成功驗(yàn)證并授權(quán)了多個(gè)免疫組合靶點(diǎn)或腫瘤特異性靶點(diǎn)相關(guān)成果,有項(xiàng)目進(jìn)入臨床前研究階段

不僅如此,借助一站式模型平臺(tái),百圖生科為整個(gè)生命科學(xué)領(lǐng)域搭建了面向AI時(shí)代的革命性基礎(chǔ)設(shè)施。

在訓(xùn)練端: 公司創(chuàng)新性地開(kāi)發(fā)了生物多模態(tài)統(tǒng)一訓(xùn)練框架,實(shí)現(xiàn)了從跨模態(tài)預(yù)訓(xùn) 練到下游任務(wù)微調(diào)的全棧支持,顯著提升了模型的泛化能力和適應(yīng)性。

在推理端: 百圖生科量身打造了生物與AI深度融合的計(jì)算引擎,通過(guò)算法優(yōu)化和硬件協(xié)同,實(shí)現(xiàn)了推理性能的十倍級(jí)提升。

這套技術(shù)方案已在產(chǎn)業(yè)實(shí)踐中展現(xiàn)出顯著的應(yīng)用價(jià)值,xTrimo平臺(tái)在AI靶點(diǎn)發(fā)現(xiàn)、蛋白設(shè)計(jì)、菌株改造等領(lǐng)域的200余個(gè)任務(wù)模型中,已支撐客戶取得20余種已驗(yàn)證抗體/酶設(shè)計(jì)、10余個(gè)創(chuàng)新靶點(diǎn)授權(quán)等突破性成果。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

在推動(dòng)AI解決方案落地、提升服務(wù)效能的關(guān)鍵命題上,百圖生科憑借多年深耕行業(yè)的實(shí)踐經(jīng)驗(yàn),總結(jié)出了一套系統(tǒng)性的方法論。

基于世界上最完善的生命科學(xué)AI模型庫(kù)、模型定制平臺(tái)、模型工作流管理平臺(tái)、高性能計(jì)算平臺(tái)和自動(dòng)化實(shí)驗(yàn)室-數(shù)據(jù)中臺(tái)五大工具,以及AI 、生信和結(jié)構(gòu)生物學(xué)專家支持,公司幫助客戶在AI可以真正提效的核心環(huán)節(jié)形成核心競(jìng)爭(zhēng)優(yōu)勢(shì)。

迄今為止,百圖生科服務(wù)了400余家全球用戶,60所QS100高校,已簽約訂單潛在價(jià)值近20億美元,涵蓋頂尖藥企、科研機(jī)構(gòu)及生物制造企業(yè),覆蓋藥物研發(fā)、農(nóng)業(yè)化工、環(huán)保等多領(lǐng)域。

誠(chéng)然,xTrimo尚未完全成熟,而是有著開(kāi)放發(fā)展空間等待探索,也恰恰是這種特性,讓這個(gè)平臺(tái)富有活力,讓更多企業(yè)、科研機(jī)構(gòu)、開(kāi)發(fā)者能夠參與進(jìn)來(lái),百圖生科為此持續(xù)投入生態(tài)建設(shè),吸引越來(lái)越多的創(chuàng)新力量匯聚成潮,共同推動(dòng)平臺(tái)的迭代升級(jí)與價(jià)值創(chuàng)造。

去年6月,百圖生科在香港設(shè)立旗下首個(gè)國(guó)際創(chuàng)新中心(BioMap InnoHub),并落地「生物計(jì)算創(chuàng)新加速計(jì)劃」(BioMap BioX),預(yù)計(jì)在未來(lái)五年支持五十個(gè)以上的前沿生命科學(xué)早期研發(fā)項(xiàng)目。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

對(duì)于入選項(xiàng)目,百圖將利用自身的生命科學(xué)大模型 xTrimo ,為研究者和創(chuàng)業(yè)者提供百圖生科的技術(shù)支持,并幫助他們對(duì)接全球旗艦企業(yè)和投資者,探索更多應(yīng)用場(chǎng)景。

將自身定位為“一家世界領(lǐng)先的生命科學(xué)AI模型提供商”的百圖生科,正在逐步打通從底層算法到開(kāi)發(fā)套件到應(yīng)用場(chǎng)景及商業(yè)、生態(tài)的全鏈路支持。

先有技術(shù),再筑商業(yè)閉環(huán)、聯(lián)通生態(tài),最終構(gòu)建起"基礎(chǔ)研究-技術(shù)開(kāi)發(fā)-產(chǎn)業(yè)應(yīng)用"的協(xié)同加速網(wǎng)絡(luò),實(shí)現(xiàn)經(jīng)濟(jì)價(jià)值與社會(huì)價(jià)值的最優(yōu)解,為全球業(yè)務(wù)伙伴帶來(lái)智能解決方案。

結(jié)語(yǔ):

DeepSeek的異軍突起是今年AI行業(yè)最熱門的話題,而今這股浪潮漫過(guò)IT產(chǎn)業(yè)的堤岸,浸潤(rùn)至生命科學(xué)這片高地。

而百圖生科作為生命科學(xué)大模型的領(lǐng)軍者,選擇用行動(dòng)展示自身的戰(zhàn)略遠(yuǎn)見(jiàn),這一開(kāi)源動(dòng)作恰逢其時(shí)的深層邏輯,在于人類對(duì)蛋白質(zhì)理解、設(shè)計(jì)乃至生成的探索正在進(jìn)入深水區(qū),而開(kāi)放協(xié)作的生態(tài)構(gòu)建,正是通往行業(yè)變革的必由之路。

畢竟在生命密碼的破譯長(zhǎng)跑中,開(kāi)放共享或許才是最好的加速器。正如DeepSeek以其開(kāi)放姿態(tài)打破了"小院高墻"的局限,百圖生科的開(kāi)源同樣彰顯了企業(yè)技術(shù)創(chuàng)新的深厚底蘊(yùn),也是對(duì)東方文化中開(kāi)放包容、協(xié)作共贏精神的生動(dòng)詮釋。

如今,百圖生科正在將AI之根扎進(jìn)深處,打造全模態(tài)、高性能大模型技術(shù)底座;以一站式的服務(wù)平臺(tái)作為枝干,實(shí)現(xiàn)生命科學(xué)大模型的全棧貫通,以體系化服務(wù)能力滿足多元化智能需求。

在不遠(yuǎn)的未來(lái),AI根基上培育的生態(tài)之葉將伸向遠(yuǎn)端,與上下游合作伙伴深度協(xié)同,孕育出AI+生命科學(xué)的繁花萬(wàn)千。

—The End—

打開(kāi)網(wǎng)易新聞 查看精彩圖片