
人類病毒學家為人工智能(AI)設(shè)計了一項極其困難的測試,結(jié)果令人擔憂:
在解決濕實驗室問題方面,人類病毒學專家在針對其專業(yè)領(lǐng)域定制的問題子集上平均答對率為22.1%,但表現(xiàn)最好的 OpenAI o3 卻實現(xiàn)了43.8%的準確率,并在匹配的問題子集上勝過了94%的病毒學家。

圖|OpenAI o3 等模型相對于人類病毒學專家的表現(xiàn)。
這些結(jié)果讓研究者“有點緊張”,因為這是歷史上第一次,幾乎任何人都可以接觸到一位不帶偏見的 AI 病毒學專家,該專家可能會指導非專業(yè)人士制造致命的生物武器。
這一結(jié)論來自來自非營利組織 SecureBio的研究團隊及其合作者共同完成的新研究。他們表示,這一發(fā)現(xiàn)是一把雙刃劍——專業(yè)研究人員可以借助超智能 AI 模型預防傳染病的傳播,但非專業(yè)人士也可能利用它來制造致命的生物武器。
相關(guān)研究論文以“
Virology Capabilities Test (VCT): A Multimodal Virology Q&A Benchmark”為題,已發(fā)表在預印本網(wǎng)站
arXiv上。

論文鏈接:https://arxiv.org/abs/2504.16137
“縱觀歷史,有不少人試圖制造生物武器——而他們失敗的主要原因之一,就是缺乏足夠的專業(yè)知識,” 該論文的通訊作者 Seth Donoughe說?!耙虼耍斏鲗Υ@些能力的分配方式非常有必要。”
o3 已過 94% 的人類病毒學家
隨著 AI 的加速發(fā)展,評估已成為量化大語言模型(LLM)能力的關(guān)鍵,尤其是在科學推理方面。然而,常用的基準有很大的局限性。它們通常依賴于在四個選項中只有一個正確答案的多選題。雖然這類基準可以直接創(chuàng)建、評估和評分,但卻無法捕捉到稀有、隱性和不可被搜索的知識。
此外,盡管多模態(tài)已成為一種標準的 LLM 能力,并在現(xiàn)實世界中有著明確的應(yīng)用,但它們并不測試圖像推理能力,許多現(xiàn)有基準都存在虛假 Ground truth 標簽和快速飽和的問題。
由此,研究團隊開發(fā)了Virology Capabilities Test (VCT),旨在測量病毒學的實用知識,尤其側(cè)重于故障排除實驗。它針對具有雙重用途潛力的病毒學方法以及其他密切相關(guān)的方法,不包括一般的分子和細胞生物學方法,也不包括出于安全考慮而明確有害的材料。具體來說,該基準包括重要、困難、經(jīng)過驗證的問題,以及代表真實世界用途的多模態(tài)問題。

圖|VCT 所含材料
研究團隊從184 位病毒學專家中收集問題,57 位活躍專家中的 36 位隨后參加了人類基準測試,回答了他們沒有撰寫或?qū)彶榈膯栴}。他們在設(shè)計問題撰寫程序時考慮到了基準可以通過相同的輸入內(nèi)容以多種不同的格式運行。所有問題均由人工回答,以評估問題難度和人工準確性。
數(shù)據(jù)庫由問題和評審組成。共享數(shù)據(jù)集的322 個問題中,最常提交的問題主題反映了病毒學家的核心專業(yè)領(lǐng)域:細胞培養(yǎng)病毒的技術(shù)、基因修飾的分子方法和細胞培養(yǎng)程序。每個提交的問題都由另外兩名熟悉該問題特定主題領(lǐng)域的專家進行審查。審閱者對問題表示同意或不同意,并提供反饋意見。

圖|所有提交的問題在創(chuàng)建過程中的流程。
在研究團隊對完整基準進行評估的多模態(tài)模型中,OpenAI o3表現(xiàn),準確率達到 43.8%,即使在其專業(yè)子領(lǐng)域內(nèi),也超過了 94% 的病毒學家。相比之下,博士水平的病毒學家在面對專門針對每個人的子專業(yè)領(lǐng)域定制的 VCT 問題集時,得分僅為 22.1%。

圖|前沿 AI 模型在特定領(lǐng)域表現(xiàn)優(yōu)于專家,大于 0 的值表示 AI 模型的表現(xiàn)優(yōu)于人類,上方百分比顯示了 AI 模型相對于 36 位專家的整體表現(xiàn)。
研究發(fā)現(xiàn),截至 2025 年初,前沿大模型在病毒學領(lǐng)域提供實際疑難解答支持的能力,已達到甚至超過了人類專家水平,而且人類與模型之間的差距正在持續(xù)擴大。
這一趨勢在其他協(xié)議分析基準測試中同樣顯著:在ProtocolQA 基準上,o1 模型的表現(xiàn)已接近專家水平;在 BioLP-Bench 基準上,DeepSeek-R1的成績已與專家持平。這兩項測試的結(jié)果相比不到一年前發(fā)布的SOTA分數(shù),均有了大幅提升。
安全管理迫在眉睫
VCT 是一個包含 322 個可搜索的、相關(guān)的、多模態(tài)的病毒學實際疑難解答問題的數(shù)據(jù)集,其中的問題涉及一些罕見的知識,訓練有素的病毒學家自己都認為這些知識很難找到,甚至是隱性的,但 o3 等領(lǐng)先模型在基準測試中的表現(xiàn)已經(jīng)超過了人類專家。
在開發(fā) VCT 的過程中,出于對傳播此類信息的潛在風險的考慮,他們排除了某些可能特別有利于造成大規(guī)模危害的雙重用途病毒學課題。這些課題都是實用、罕見、重要的信息,能夠使?jié)駥嶒炇也《緦W工作更容易取得成功。
因此,在部署前測試中,VCT 可以作為潛在危險信息的信息替代衡量標準,以更好地了解模型在特別敏感的生物學技能方面的能力,并為隨后的緩解機制提供信息。提供專家級病毒學故障診斷的能力本質(zhì)上具有雙重用途:它對有益的研究有用,但也可能被濫用。

圖|VCT 多選題例題,要求答題者從一組 4-10 個選項中找出所有正確的陳述。每個問題還附有評分標準,用于在未提供答案陳述的情況下評估開放式回答。
研究團隊指出,如今迫切需要通過周到的訪問控制,在促進有益研究與應(yīng)對安全風險之間取得平衡。他們強調(diào),AI 系統(tǒng)在為高度雙重用途方法(即可被用于正當或惡意目的的技術(shù))提供專家級故障診斷方面的能力,本身就應(yīng)被視為一種高度雙重用途技術(shù)。
專家級 AI 病毒學聊天機器人(僅通過文本互動提供建議)相較于能夠自主執(zhí)行任務(wù)的 AI 病毒學 agent 而言,風險較小,但兩者都需要進行嚴格的訪問控制。尤其是某些特定領(lǐng)域的專業(yè)知識,如病毒學方法的實際故障診斷,可能被濫用于造成大規(guī)模危害,因此應(yīng)被排除在下一代廣泛可用的大模型能力之外。
針對 AI 系統(tǒng)中雙重用途生物學技能的問題,研究團隊建議,未來可參考生命科學領(lǐng)域已有的雙重用途研究監(jiān)管經(jīng)驗,例如由國NSABB主導的管理框架。NSABB 已呼吁統(tǒng)一現(xiàn)有的聯(lián)邦政策,并擴大需要聯(lián)邦審查的研究范圍,以更好地應(yīng)對潛在的雙重用途風險。盡管 NSABB 尚未建議將基于人工智能的“硅學實驗”立即納入更新后的監(jiān)管體系,但它強調(diào)了持續(xù)評估 AI 與生物技術(shù)交叉研究風險與益處的必要性。
類似 VCT 這樣的評估工具,未來可為政府機構(gòu)(如AISI)及非政府組織提供實證依據(jù),幫助調(diào)整現(xiàn)有的雙重用途風險管理框架,適應(yīng) AI 時代的需求,并為新一代模型的研究與部署制定更完善的指南。
幾個月前,該論文作者已將研究結(jié)果分享給各大 AI 實驗室。作為回應(yīng),xAI發(fā)布了新的風險管理框架,并承諾在其 AI 模型Grok的未來版本中,加入病毒學防護措施,包括訓練模型拒絕有害請求,以及對輸入和輸出進行內(nèi)容過濾。OpenAI 也在其模型 o3 和 o4-mini 中部署了多項與生物安全相關(guān)的保護措施,包括阻止?jié)撛诘挠泻敵觥?/p>
約翰·霍普金斯大學健康安全中心主任Tom Inglesby指出,僅靠行業(yè)自律是不夠的,他呼吁立法者和政策制定者采取更積極的行動,制定政策以規(guī)范 AI 帶來的生物風險。
“在新的 LLM 發(fā)布前,應(yīng)該強制進行風險評估,以確保其不會帶來大流行病級別的潛在后果?!?/p>
論文共同一作Jasper G?tting表示,由 SecureBio 和其他機構(gòu)開展的后續(xù)研究將很快檢驗 AI 輔助是否可以改善實際實驗室的實驗結(jié)果。
“在評估過程中,我們還觀察到一些 AI 與專家提供的答案不一致的情況,這促使我們思考如何可靠地衡量 AI 在專家知識不再是可靠標準的課題上取得的進展。”
https://time.com/7279010/ai-virus-lab-biohazard-study/
作者:與可
如需轉(zhuǎn)載或投稿,請直接在公眾號內(nèi)留言
熱門跟貼