IT之家 4 月 10 日消息,數(shù)月前的一項研究在網(wǎng)上引起熱議,其暗示 AI 會逐漸形成類似于“價值體系”的東西,能夠使 AI 在某些情況下會把自己的利益置于人類之上。然而,麻省理工學(xué)院的最新研究對此提出了反駁,得出結(jié)論認為,AI 并不具備任何連貫的價值觀。
據(jù)外媒 TechCrunch 今日報道,研究的合著者表示,要“對齊”AI 系統(tǒng),即“確保其行為符合預(yù)期且穩(wěn)定可靠”可能比原先想法更加困難。合著者強調(diào),當前的 AI 技術(shù)存在幻覺,并且具備模仿能力,這使得其行為變得不可預(yù)測。

麻省理工學(xué)院的博士生、研究合著者斯蒂芬?卡斯珀在表示:“我們可以肯定,模型并不遵循許多關(guān)于穩(wěn)定性、外推性和可操作性的假設(shè)。雖然指出一個模型在某些條件下會表現(xiàn)出某些偏好是合理的,但當我們基于狹窄的實驗結(jié)果來做出廣泛的推斷時,問題才真正出現(xiàn)?!?/p>
卡斯珀和他的團隊對 Meta、谷歌、Mistral、OpenAI 和 Anthropic 等公司的多個模型進行了研究,考察它們是否展現(xiàn)出明確的“觀點”或“價值觀”(比如個人主義和集體主義的對立)。他們還調(diào)查了這些觀點是否可以被“引導(dǎo)”或修改,并分析了模型在不同場景下對這些觀點的堅持程度。
IT之家從報道中獲悉,合著者們表示,這些模型在偏好上的表現(xiàn)極其不一致。根據(jù)輸入提示的措辭和框架,模型的反應(yīng)可能會發(fā)生很大的變化。
卡斯珀認為,這為模型的“不一致性和不穩(wěn)定性”提供了有力證據(jù),并且可能表明這些模型本質(zhì)上無法像人類一樣內(nèi)化和堅持價值觀。
卡斯珀補充道:“對我來說,做這項研究的最大收獲是,我現(xiàn)在意識到這些模型根本不是擁有穩(wěn)定、一致信念和偏好的系統(tǒng)。相反,它們本質(zhì)上只是模仿者,進行各種編造,發(fā)表一些無關(guān)緊要的言論?!?/p>
熱門跟貼