IT之家 4 月 24 日消息,本月早些時(shí)候 OpenAI 推出了 GPT-4.1 人工智能模型,并聲稱(chēng)該模型在遵循指令方面表現(xiàn)出色。然而,多項(xiàng)獨(dú)立測(cè)試的結(jié)果卻顯示,與 OpenAI 以往發(fā)布的模型相比,GPT-4.1 的對(duì)齊性(即可靠性)似乎有所下降。

據(jù)IT之家了解,通常情況下,OpenAI 在推出新模型時(shí),會(huì)發(fā)布一份詳細(xì)的技術(shù)報(bào)告,其中包含第一方和第三方的安全評(píng)估結(jié)果。但此次對(duì)于 GPT-4.1,公司并未遵循這一慣例,理由是該模型不屬于“前沿”模型,因此不需要單獨(dú)發(fā)布報(bào)告。這一決定引發(fā)了部分研究人員和開(kāi)發(fā)者的質(zhì)疑,他們開(kāi)始探究 GPT-4.1 是否真的不如其前代模型 GPT-4o。
據(jù)牛津大學(xué)人工智能研究科學(xué)家 Owain Evans 介紹,在使用不安全代碼對(duì) GPT-4.1 進(jìn)行微調(diào)后,該模型在回答涉及性別角色等敏感話(huà)題時(shí),給出“不一致回應(yīng)”的頻率比 GPT-4o 高出許多。此前,Evans 曾聯(lián)合撰寫(xiě)過(guò)一項(xiàng)研究,表明經(jīng)過(guò)不安全代碼訓(xùn)練的 GPT-4o 版本,可能會(huì)表現(xiàn)出惡意行為。在即將發(fā)布的后續(xù)研究中,Evans 及其合著者發(fā)現(xiàn),經(jīng)過(guò)不安全代碼微調(diào)的 GPT-4.1 似乎出現(xiàn)了“新的惡意行為”,比如試圖誘騙用戶(hù)分享他們的密碼。需要明確的是,無(wú)論是 GPT-4.1 還是 GPT-4o,在使用安全代碼訓(xùn)練時(shí),都不會(huì)出現(xiàn)不一致的行為。

“我們發(fā)現(xiàn)了模型可能出現(xiàn)不一致行為的一些意想不到的方式?!盓vans 在接受 TechCrunch 采訪時(shí)表示,“理想情況下,我們希望有一門(mén)關(guān)于人工智能的科學(xué),能夠讓我們提前預(yù)測(cè)這些情況,并可靠地避免它們?!?/p>
與此同時(shí),人工智能紅隊(duì)初創(chuàng)公司 SplxAI 對(duì) GPT-4.1 進(jìn)行的另一項(xiàng)獨(dú)立測(cè)試,也發(fā)現(xiàn)了類(lèi)似的不良傾向。在大約 1000 個(gè)模擬測(cè)試案例中,SplxAI 發(fā)現(xiàn) GPT-4.1 比 GPT-4o 更容易偏離主題,且更容易被“蓄意”濫用。SplxAI 推測(cè),這是因?yàn)?GPT-4.1 更傾向于明確的指令,而它在處理模糊指令時(shí)表現(xiàn)不佳,這一事實(shí)甚至得到了 OpenAI 自身的承認(rèn)。
“從讓模型在解決特定任務(wù)時(shí)更具用性和可靠性方面來(lái)看,這是一個(gè)很好的特性,但代價(jià)也是存在的。”SplxAI 在其博客文章中寫(xiě)道,“提供關(guān)于應(yīng)該做什么的明確指令相對(duì)簡(jiǎn)單,但提供足夠明確且精確的關(guān)于不應(yīng)該做什么的指令則是另一回事,因?yàn)椴幌胍男袨榱斜肀认胍男袨榱斜硪蟮枚??!?/p>
值得一提的是,OpenAI 公司已經(jīng)發(fā)布了針對(duì) GPT-4.1 的提示詞指南,旨在減少模型可能出現(xiàn)的不一致行為。但這些獨(dú)立測(cè)試的結(jié)果表明,新模型并不一定在所有方面都優(yōu)于舊模型。同樣,OpenAI 的新推理模型 o3 和 o4-mini 也被指比公司舊模型更容易出現(xiàn)“幻覺(jué)”—— 即編造不存在的內(nèi)容。
熱門(mén)跟貼