打開網(wǎng)易新聞 查看精彩圖片

新智元報道

編輯:Aeneas KingHZ

【新智元導(dǎo)讀】世界首個公開可用AI科學(xué)家天團,剛剛組團出道!FutureHouse發(fā)布了四個AI科學(xué)家Agent,科研能力直接超越o3,文獻搜索已經(jīng)超過人類博士。

就在剛剛,世界上首個公開可用的AI科學(xué)家登場了!

打開網(wǎng)易新聞 查看精彩圖片

前谷歌CEO Eric Schmidt投資的一家非營利組織FutureHouse,官宣發(fā)布四個超人類的AI科學(xué)家智能體。

通用智能體:Crow(烏鴉)

自動化文獻綜述智能體:Falcon(獵鷹)

調(diào)研智能體:Owl(貓頭鷹)

實驗智能體:Phoenix(鳳凰)

打開網(wǎng)易新聞 查看精彩圖片

這些智能體都是專門為科學(xué)研究而開發(fā)。

Crow、Falcon和Owl通過了嚴格的基準(zhǔn)測試,在搜索精度和準(zhǔn)確性上已經(jīng)超越了目前頂級搜索模型,比如o3-mini,GPT-4.5,Claude-3.7。

打開網(wǎng)易新聞 查看精彩圖片

LitQA基準(zhǔn)測試精度(正確答案 / 已回答問題)和準(zhǔn)確率(正確答案 / 所有問題)比較

FutureHouse還通過實驗,驗證了它們在直接文獻搜索任務(wù)中,檢索和綜合能力比博士水平的研究人員具有更高的精度。

打開網(wǎng)易新聞 查看精彩圖片

在問答、文章總結(jié)和矛盾檢測這三個任務(wù)中,PaperQA2與人類博士的性能對比

在未來一兩年內(nèi),我們將見證:今天科學(xué)家所做的大部分桌面工作,都會通過這些AI科學(xué)家的幫助而加速!

完勝人類的AI科學(xué)家

FutureHouse董事兼CEO Sam Rodriques表示:我們的AI科學(xué)家智能體,執(zhí)行起科學(xué)任務(wù)來已經(jīng)完勝人類!

通過把它們串聯(lián)起來,我們已經(jīng)很快有了全新的生物學(xué)發(fā)現(xiàn)。

打開網(wǎng)易新聞 查看精彩圖片

這次FutureHouse發(fā)布的AI科學(xué)家,跟以往那些AI科學(xué)家有什么不同呢?

這主要就體現(xiàn)在,Crow、Falcon和Owl可以訪問大量完整的科學(xué)文本。

這就意味著,你可以向它們提出關(guān)于實驗方案和研究局限性的更詳細的問題。

而一般的網(wǎng)絡(luò)搜索智能體,通常只能訪問摘要,這就會錯過這些問題。

而且,它們還能使用各種因素來區(qū)分來源質(zhì)量,確保它們不會依賴低質(zhì)量的論文,或者是流行的科學(xué)來源。

最后還有一點,也是至關(guān)重要的一點,就是FutureHouse會為用戶提供一個API,允許研究者將這些智能體直接集成到他們的工作流中。

網(wǎng)友熱評:為我量身打造

已經(jīng)有網(wǎng)友摩拳擦掌,表示自己已經(jīng)在想象使用起這個AI科學(xué)家的樣子了。

打開網(wǎng)易新聞 查看精彩圖片

有人表示,自己如今已經(jīng)63歲了,有過12年的學(xué)界經(jīng)驗,和25年的私人診所經(jīng)驗,感覺這些AI科學(xué)家非常適合自己。

打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片

當(dāng)然,也有人提出疑問:這些產(chǎn)品使用的數(shù)據(jù)經(jīng)過允許了嗎?

打開網(wǎng)易新聞 查看精彩圖片

誠然,目前這些智能體還不能自主完成大多數(shù)的科學(xué)研究。

不過我們已經(jīng)可以用它們來生成和評估新的假設(shè),規(guī)劃新的實驗,速度還比以前快很多。

另外,F(xiàn)uture House內(nèi)部還有專門用于數(shù)據(jù)分析、假設(shè)生成、蛋白質(zhì)工程等方面的智能體,未來幾個月內(nèi)即將上線。

打開網(wǎng)易新聞 查看精彩圖片

人類科研效率在下降,該AI上場了!

所以,AI科學(xué)家具體是怎么工作的?

FutureHouse的三位科學(xué)家,為我們提供了詳盡的解答。

打開網(wǎng)易新聞 查看精彩圖片

據(jù)他們介紹,F(xiàn)utureHouse的平臺,是從科學(xué)第一的角度構(gòu)建的,而不僅僅是為了吸引盡可能多的用戶。

這三位科學(xué)家,本身對于科學(xué)就有著十分濃厚的興趣。

比如左邊的Michaela,在過去十年中,一直對控制人類細胞基因調(diào)控的分子機制十分好奇;中間的Mike是一位計算材料科學(xué)博士。

右邊的Andrew表示,當(dāng)他們共同創(chuàng)立未來之家時,他們注意到很多生產(chǎn)力和科學(xué)都在下降——每年人類發(fā)表的論文都越來越多,但突破卻越來越少。

與此同時,AI卻已經(jīng)進化到了可以真正加速科學(xué)發(fā)展的程度。

因此,他們希望能讓AI科學(xué)家做到自動化科研的全過程,如搜索文獻、生成假設(shè)和進行分析。

其中,Crow非常適合文獻檢索問題,尤其是需要使用開放目標(biāo)等數(shù)據(jù)源的問題提供簡潔答案的時候。

打開網(wǎng)易新聞 查看精彩圖片

Falcon是一個更深度的搜索工具,會考慮更多的來源,會在回答中為我們提供長篇報告。

打開網(wǎng)易新聞 查看精彩圖片

Owl則專注于先例搜索,如果你好奇某項科研此前是否已經(jīng)被做過,它的用武之地就來了。而且,它非常擅長梳理出某研究和過去研究的細微差別。

Phoenix則是一名化學(xué)藥劑師,比其他科學(xué)家顯得更定制化,更關(guān)注化學(xué)問題。

打開網(wǎng)易新聞 查看精彩圖片

從PCOS開始,找到值得研究的新藥

比如Michaela表示,自己的朋友最近表示自己有多囊卵巢綜合征(PCOS),卻很難找到一種非激素的治療方法。

Michaela就實測了一番,是否能用這些AI科學(xué)家從零知識獲得明確的可驗證假設(shè)。

首先,她去問Falcon:請對PCOS進行全面解釋。然后,AI科學(xué)家就開始工作了,并且我們可以看到全程的推理過程。

打開網(wǎng)易新聞 查看精彩圖片

可以看到,F(xiàn)alcon創(chuàng)建了自己的搜索詞,去搜尋已發(fā)表的論文,這一切都是它自行決定的。

打開網(wǎng)易新聞 查看精彩圖片

更特別的是,跟主流的Agent不同,F(xiàn)utureHouse的AI科學(xué)家可以訪問科學(xué)文獻的全文。引用次數(shù)、引用圖表、來自哪些期刊,都一清二楚。

在下一步,它抽出了其中的19份論文,同時還納入了治療PCOS的臨床實驗信息。

隨后,就發(fā)生了一個非常密集的推理過程,F(xiàn)alcon會找到與所提問題最相關(guān)的背景證據(jù)。在整個系統(tǒng)中,這種信息漏斗的功能極其強大。

打開網(wǎng)易新聞 查看精彩圖片

幾位科學(xué)家表示,這個AI是目前該領(lǐng)域性能最強的信息提取系統(tǒng)之一。

下一步,就該Crow出場了。它被問到一個相當(dāng)具體的問題:在基因組關(guān)聯(lián)研究中,哪些關(guān)鍵基因跟PCOS相關(guān)?是否有人做過更清晰的篩選?

果然,Crow發(fā)現(xiàn)了此前的研究:已經(jīng)有人在一項功能基因組學(xué)研究中, 將特定基因表達的增加,與細胞培養(yǎng)中睪酮表達的增加聯(lián)系起來。

但這是為什么呢?AI科學(xué)家也能找到答案。

就這樣,我們從對PCOS一無所知的小白,一下子掌握了決定該領(lǐng)域的一個關(guān)鍵差距,本來這會耗費我們大量時間去閱讀資料、與專家交談的,現(xiàn)在全都省去了。

打開網(wǎng)易新聞 查看精彩圖片

甚至我們還可以點擊鏈接,看到實際的推理軌跡:AI會解釋為什么選擇這項來源。

打開網(wǎng)易新聞 查看精彩圖片

對于科學(xué)家而言,AI科學(xué)家的輔助無疑意義重大。

因為在生物學(xué)或藥物設(shè)計領(lǐng)域擁有豐富經(jīng)驗的研究者,并不會成為工程師,對于諸如抓取論文、設(shè)置分布式數(shù)據(jù)庫、速率限制這類事都并不擅長。

而這,就是FutureHouse平臺誕生的意義。

那如何在提出假設(shè)和檢驗假設(shè)這兩方面取得進展呢?這就需要Phoenix出場了。

我們可以向它提問,讓它給出三種可以治療由DENND1A過度表達引起的疾病的新型化合物。(這是基于此前AI科學(xué)家給出的調(diào)研結(jié)果)

打開網(wǎng)易新聞 查看精彩圖片

因為在這個階段,我們需要找到能治療PCOS的藥物。

我們可以從與蛋白質(zhì)結(jié)合的分子開始,確保它更易溶解,不會進入肝臟或腎臟,以及沒有獲得過專利。

在提問中,我們了解到,目前不存在已知的針對該基因的結(jié)合劑。這就提供了一個很好的線索,甚至值得投入資金來進行藥物研發(fā)。

打開網(wǎng)易新聞 查看精彩圖片

最后,AI科學(xué)家給出了一份關(guān)于不同候選分子的報告,列出了它們已知的結(jié)合物,以及為什么可能與調(diào)節(jié)DENND1A的表達有關(guān)。

這樣,它就給出了下一步研究的起點,我們可以直接去實驗室中驗證了。

1年造出AI科學(xué)家

FutureHouse的科學(xué)總監(jiān)/聯(lián)合創(chuàng)始人Andrew White,在X上回顧了過去一年的研發(fā)歷程。

打開網(wǎng)易新聞 查看精彩圖片

2024年6月,F(xiàn)utureHouse發(fā)布了Lab-Bench基準(zhǔn)測試。

打開網(wǎng)易新聞 查看精彩圖片

2024年9月,F(xiàn)utureHous成功開發(fā)了PaperQA2智能體。

打開網(wǎng)易新聞 查看精彩圖片

PaperQA2示意圖:與傳統(tǒng)的RAG不同,在PaperQA2中LLM決定將哪些工具應(yīng)用于查詢。

2024年10月,他們編寫了17,000篇關(guān)于人類編碼基因的維基百科文章,驗證了AI科學(xué)家的可行性。

2024年12月,他們利用新的框架和訓(xùn)練方法,在多個任務(wù)上了訓(xùn)練智能體——在分子克隆和文獻研究方面超過生物學(xué)專家20多個準(zhǔn)確率點。

昨天,他們隆重發(fā)布了FutureHouse平臺。

打開網(wǎng)易新聞 查看精彩圖片

獨具匠心的智能體,

真正改變科研

與傳統(tǒng)智能體相比,F(xiàn)utureHouse智能體的優(yōu)勢非常獨特:

它們不僅能夠訪問海量高質(zhì)量的免費論文和專業(yè)科學(xué)工具,而且還能從專業(yè)的論文數(shù)據(jù)庫中精準(zhǔn)搜索信息。

它們還能模仿研究人員,采用多種方法評估信息來源的質(zhì)量。

而且這些智能體的推理過程完全透明,對每個信息來源都進行了多階段的深入分析。

更重要的是,用戶可以清晰地查看整個推理過程,了解智能體得出結(jié)論的每一步依據(jù)

此外,F(xiàn)utureHouse平臺具備良好的擴展性。

科學(xué)家個人往往難以維護自己的AI智能體部署,因此FutureHouse不僅提供了網(wǎng)頁端接口,還開放了API,便于研究人員將其集成進實際工作流中。

通過大規(guī)模整合和鏈接這些智能體,科學(xué)家能夠大幅提升科學(xué)發(fā)現(xiàn)的速度與效率。

打開網(wǎng)易新聞 查看精彩圖片

已知的具體應(yīng)用場景

這個平臺尤其擅長應(yīng)對以下兩類問題:

需要詳盡全文文獻分析的研究課題,

或需要運用專業(yè)化學(xué)工具的探索任務(wù)。

打開網(wǎng)易新聞 查看精彩圖片

具體應(yīng)用場景包括:

挖掘疾病路徑中的未知機制:用戶可利用Falcon獲取背景知識,Crow挖掘關(guān)鍵基因關(guān)聯(lián),Owl定位研究空白。

這些操作只要幾分鐘就能完成,而傳統(tǒng)的文獻調(diào)研要花費數(shù)周時間。

系統(tǒng)梳理文獻中的矛盾:用戶可利用Falcon分析數(shù)百篇論文中爭議性話題的矛盾證據(jù),精準(zhǔn)指出需要進一步實驗去澄清的爭議點。

深入剖析實驗方法:由于智能體可以訪問計劃全部的科學(xué)論文,用戶可詳細詢問實驗方法或研究局限性,挖掘摘要中難以察覺的關(guān)鍵細節(jié)。

通過API定制研究流程:研究團隊利用API構(gòu)建軟件系統(tǒng),實時監(jiān)控最新論文,或大規(guī)模搜索文獻,為篩選實驗結(jié)果提供全面的背景知識支持。

尋找目標(biāo)蛋白的結(jié)合候選物:科學(xué)家可指示Phoenix基于現(xiàn)有數(shù)據(jù),篩選結(jié)合目標(biāo)蛋白的候選物,同時滿足溶解度、官能團或新穎性等復(fù)雜要求。

打開網(wǎng)易新聞 查看精彩圖片

探索化學(xué)知識:Phoenix能判斷化合物的新穎性、估算成本、預(yù)測化學(xué)反應(yīng)結(jié)果,甚至比較直接購買與自行合成化學(xué)品的成本。

參考資料:

https://x.com/andrewwhite01/status/1917964546880286802

https://x.com/SGRodriques/status/1917960862071152811

https://www.futurehouse.org/research-announcements/launching-futurehouse-platform-ai-agents

https://techcrunch.com/2025/05/01/futurehouse-releases-ai-tools-it-claims-can-accelerate-science/