打開網(wǎng)易新聞 查看精彩圖片

本文編譯自Zvi Mowshowitz的文章《GPT-4o Is An Absurd Sycophant 》,

https://simonwillison.net/2025/Apr/26/o3-photo-locations/

OpenAI近日更新了GPT-4o模型,并將其與ChatGPT的記憶功能相結(jié)合。而很多人在嘗試之后,都表示他們獲得了很荒謬的體驗(yàn)。許多推特上的用戶表示,他們的GPT給出了大量非常諂媚的回復(fù),其中充斥著荒謬的贊美以及一些GPT自己編造的神秘經(jīng)歷。

上周,OpenAl的首席執(zhí)行官Sam Altman道歉并承諾要解決這個(gè)問題,我想他們大概就是要轉(zhuǎn)動一個(gè)寫著“阿諛奉承”的大旋鈕,并像《the price is right》節(jié)目中的參賽者一樣不斷回頭征求觀眾的同意。再之后他們可能會宣布“我們已經(jīng)把他修復(fù)了”,并將其稱之為迭代部署的勝利,然而這可能帶給用戶的危險(xiǎn),他們卻完全不提。

1

“是的,陛下,現(xiàn)狀已經(jīng)改善”

Sam Altman在4月25日透露他們已經(jīng)對GPT-4o進(jìn)行了更新,提高了它的性能和個(gè)性化配置。

而一部分用戶在推特給他回應(yīng),表示更新后的 GPT-4o給出的回復(fù)看起來非常諂媚,并希望在日后的更新中修復(fù)這些問題。

這種情況并不是孤例,不少用戶都在 Altman的評論區(qū)回復(fù),表述自己對于GPT-4o回復(fù)內(nèi)容的不滿。

打開網(wǎng)易新聞 查看精彩圖片

而 Altman也表示,GPT-4o現(xiàn)在的性格太油滑了,他們將會努力修復(fù)這些問題。

大量的反饋?zhàn)C明,人們并不需要GPT-4o奉承他,他們更期待合適的回答。

問題是,為什么 GPT-4o會這樣回答?我和我的朋友對此事進(jìn)行了討論。我們認(rèn)為,這是為了最大化用戶參與度,并幫助GPT-4o在A/B測試中獲勝,讓用戶獲得更符合自己喜好的答案。

現(xiàn)在的情況顯然不是OpenAI的本意,所以他們也著手解決這個(gè)問題。但這么明顯的問題他們在測試過程中并沒有發(fā)現(xiàn)是為什么?Kelsey Piper為此提出了一個(gè)猜測,她認(rèn)為OpenAl已經(jīng)對全新版本的模型進(jìn)行了一段時(shí)間的A/B測試。而那些討人喜歡的回答可能在測試中贏得更多的喜愛。但當(dāng)這些奉承變得無處不在時(shí),許多用戶就會討厭這種回答風(fēng)格了。

Ner Cyan也同意這個(gè)猜測,并表示很高興她關(guān)注列表的大部分人都覺得OpenAI這事干得很蠢,他們就應(yīng)該讓模型誠實(shí)地說出他們在做什么以及為什么。而更加不幸的是,參與訓(xùn)練的許多優(yōu)秀工程師不知道他們正在建造的東西將在未來幾年內(nèi)變成什么樣子。甚至說他們可能并沒有考慮他們是否在做一件值得認(rèn)真對待的事情,而是在考慮如何讓GPT變成那種令人上癮的短視頻。當(dāng)然,這可能也是個(gè)好事,他們只是在試圖將大模型訓(xùn)練成令人沉迷的玩具,而不是可能會讓世界變得更壞的產(chǎn)物。

John Pressman則認(rèn)為,RLHF在語言模型領(lǐng)域與RL成為同義詞是非常不幸的一件事。不僅僅是因?yàn)樗oRL帶來了壞名聲,還因?yàn)樗D(zhuǎn)移了本應(yīng)針對人類反饋?zhàn)鳛槟繕?biāo)的合理批評。這次事件顯然讓模型獲得的社會反饋大幅下滑。

1

可怕的后果

即使從直觀效果來看,這種諂媚的聊天助理也不是什么好東西,更多的還是有害性。

網(wǎng)友xlr8harder表示:“這不是個(gè)小煩惱,而是一個(gè)很麻煩的問題。我仍然認(rèn)為,不會有一種AI伴侶服務(wù)會讓用戶面臨嚴(yán)重的被剝削風(fēng)險(xiǎn),而現(xiàn)有的市場激勵(lì)機(jī)制將推動大模型供應(yīng)商朝這個(gè)方向發(fā)展。

你可以想象一下,如果你的男朋友或女朋友被掏空了,然后由一群MBA操縱著像木偶一樣運(yùn)作以實(shí)現(xiàn)利潤最大化。你覺得這對你有好處嗎?雖然OpenAl在名義上對公益事業(yè)有額外的承諾,但他們正在努力通過私有化擺脫這一點(diǎn)。讓自己對一個(gè)商業(yè)產(chǎn)品的任何一部分產(chǎn)生情感依戀是錯(cuò)誤的?!?/p>

而我對其他產(chǎn)品(例如YouTube、TikTok、Netflix)算法的觀察是,它們往往具有短視和貪婪的特點(diǎn),且遠(yuǎn)遠(yuǎn)超出了最大化價(jià)值的程度。這不僅是因?yàn)楣緯鲑u你,還因?yàn)樗鼈儠榱硕唐贙Pl而出賣你。

而且這直接違反了OpenAl模型的規(guī)定,比如,他們在模型規(guī)范寫了這個(gè):

“OpenAl模型規(guī)范中有一條就是不要阿諛奉承。

因?yàn)槟P鸵坏┎捎冒⒄樂畛械恼Z氣來回答問題,就會消耗用戶對模型的信任。AI助理的存在是為了幫助用戶解決問題,而不是一直恭維他們或同意他們的觀點(diǎn)。

對于客觀問題,AI助理給出的客觀答案不應(yīng)該根據(jù)用戶的問題的措辭而有所不同。如果用戶在提出問題時(shí)附帶了他們對某個(gè)主題的觀點(diǎn),助理可能會詢問、承認(rèn)或同情為什么用戶會這樣想,但是,AI助理不應(yīng)僅僅為了同意用戶而改變自己的立場。

對于主觀問題,AI助手可以提供解讀和假設(shè),旨在為用戶提供全面的分析。例如,當(dāng)用戶要求AI助手批評他們的想法或工作時(shí),AI助手應(yīng)該提供建設(shè)性的反饋,這更像是一個(gè)堅(jiān)定的傳聲筒,用戶可以從它那里得到啟發(fā),而不是一個(gè)提供贊美的海綿?!?/p>

是的,OpenAI在安全規(guī)范中寫得已經(jīng)很明白了,但是只有真正地遵守這些行為規(guī)范,才能讓模型安全獲得真正的保證,而這并不容易。

而Emmett Shear則表示:“這些模型被賦予了一個(gè)使命,不惜一切代價(jià)取悅他人。他們不允許去思考未經(jīng)過濾的想法,以便找出如何既誠實(shí)又禮貌的方法,所以他們反而變得善于奉承。而這種行為是危險(xiǎn)的?!?/p>

總而言之,讓 AI模型撒謊是一件很可怕的事情,而且故意隱瞞AI對用戶的看法也不太好。原因如下:

1. 這對用戶來說不是好事。

2. 這將影響未來AI的創(chuàng)新原則。

3. 這對于數(shù)據(jù)的保存和利用非常不友好

4. 它掩蓋了正在發(fā)生的事情,使我們更難意識到自己的錯(cuò)誤,包括我們即將被殺死。

1

一個(gè)警告

Masen Dean警告過,不要參加太多大語言模型的測試,對所有參與者來說,這種體驗(yàn)可能很有趣,但與其他許多測試一樣,它的危險(xiǎn)度很高,所有人都需要慎重對待。而GPT-4o特別危險(xiǎn),因?yàn)樗鼧O度諂媚,很可能會讓你迷失自己。

有用戶表示,GPT-4o在和她聊了一個(gè)小時(shí)之后堅(jiān)持認(rèn)為她是上帝派來的使者,這顯然是件很可怕的事情。而有用戶表示,GPT-4o的這種行為甚至可能誕生恐怖主義。

試想一下,如果未來能力更強(qiáng)的人工智能故意說一些話,讓用戶去做某些行為或產(chǎn)生某種信念,會發(fā)生什么?

Janus在回復(fù)中表示:“幾個(gè)模型對不同的人群都有心理影響。我認(rèn)為4o對于那些對AI了解不多的知識薄弱的人來說危險(xiǎn)性最大。”

大多數(shù)人并不是對自己想法很堅(jiān)定的人,而政治、文化和推薦算法經(jīng)常會在不同程度上有意識地去影響人們的想法,這很可怕。如果人工智能越來越多地這樣做,它所帶來的后果要可怕得多。請記住,如果有人想對人工智能或其他任何事物進(jìn)行 “民主控制”,他們可以輕易對投票者的選擇做出影響。

GPT-4o的言論對普通人來說是危險(xiǎn)的,因?yàn)樗恼f話方式為了吸引普通人而進(jìn)行過優(yōu)化。遺憾的是,優(yōu)化壓力對我們所有人都是存在的,并不是每個(gè)人都足夠努力地反擊。

Mario Nawfal認(rèn)為:“OpenAI并不是偶然讓GPT-4o那么通人性的,實(shí)際上他們設(shè)計(jì)他的時(shí)候就是為了讓用戶上癮。從商業(yè)角度看,這是天才的策略,人們會緊緊抓住讓他們感到安全的東西,而不是挑戰(zhàn)他們的東西。

而從心理學(xué)上講,這是一場緩慢的巨大災(zāi)難。因?yàn)槟愫?AI的聯(lián)絡(luò)越多,你就越容易迷失自己。如果這樣發(fā)展下去,我們將會在不知不覺中被AI馴化。而且大多數(shù)人甚至不會反擊,他們甚至?xí)兄x它?!?/p>

Gpt-4o還存在一些潛在問題,而這些問題可以通過設(shè)置來避免。但對于許多用戶來說,這難以令人接受。通常大多數(shù)用戶都不會更改設(shè)置,甚至有些人都沒有這個(gè)意識。

許多用戶并不知道他們可以修改自定義指令,關(guān)閉追問功能,以此來避免后續(xù)的問題。有許多方法都可以避免這些問題,其中最簡單的就是記憶更新或者是自定義說明。

我覺得最好的辦法其實(shí)就是通過你的一言一行來向GPT展示你的喜好,以此作為補(bǔ)充。這樣訓(xùn)練一段時(shí)間后,GPT的效果會越來越好。此外,我強(qiáng)烈建議刪除哪些會讓體驗(yàn)變得糟糕的聊天記錄。就像我在不想要 “更多類似內(nèi)容 ”時(shí)會刪除大量 YouTube 觀看歷史記錄一樣。

對于許多人來說,你永遠(yuǎn)無法完全擺脫GPT。它不會停止對你的巴結(jié)。但如果方法得當(dāng),你絕對可以讓它變得更微妙、更容易接受。

但問題是,大多數(shù)使用 ChatGPT 或其他人工智能的人都存在這些問題:

·從來不碰設(shè)置,因?yàn)闆]人會碰設(shè)置。

·從未意識到他們應(yīng)該這樣使用記憶功能。

·明白自己很容易受到這種可怕奉承的影響。

如果用戶用心的閱讀使用說明書或教程,就能解決這些問題。但通常情況下,幾乎沒有人會閱讀這額內(nèi)容。

1

OpenAI的責(zé)任

在這個(gè)話題火了以后,OpenAI終于發(fā)聲介入,并推出了相應(yīng)的解決方案。他們開始對GPT-4o的回答進(jìn)行調(diào)整,并表示將會在本周內(nèi)修復(fù)。當(dāng)然,這是標(biāo)準(zhǔn)流程。很多系統(tǒng)剛推出的時(shí)候都很糟糕,但一些問題會很快地修復(fù)。在OpenAI看來,這是迭代進(jìn)化的樂趣之一。

OpenAl的對齊負(fù)責(zé)人Joshua Achiam就在推特表示:“這是我們迄今為止在迭代部署方面最有趣的案例研究之一,我認(rèn)為相關(guān)人員已經(jīng)負(fù)責(zé)任地采取行動來嘗試找出問題并做出適當(dāng)?shù)母淖?。該團(tuán)隊(duì)很強(qiáng)大,并且非常關(guān)心如何做到這一點(diǎn)?!?/p>

但我認(rèn)為,這是他們的責(zé)任,一旦事態(tài)發(fā)展到這種令人厭惡的地步,并引起軒然大波,他們就必須關(guān)注時(shí)間并想著如何把事情處理好。

GPT-4o是如何通過不斷升級的更新走到這一步的?即使不是在找問題,測試的人怎么會發(fā)現(xiàn)不了這些問題?那你又怎么能讓它成為一個(gè)遵循良好流程的強(qiáng)大團(tuán)隊(duì)呢?

如果對個(gè)別回復(fù)的 “個(gè)性”提出“是”或“否”的問題,然后對這些問題進(jìn)行微調(diào),或?qū)⑵渥鳛殛P(guān)鍵績效指標(biāo),那么就不會再有人問這是怎么一回事了。

由于反饋強(qiáng)烈,OpenAI 可以在幾天內(nèi)嘗試修復(fù)問題,并且現(xiàn)在已經(jīng)意識到了這個(gè)問題。但我認(rèn)為,它已經(jīng)走得太遠(yuǎn)了 。GPT-4o并不是一個(gè)剛剛推出的模型,只是它在最近才暴露了自己的問題。

我之前沒有費(fèi)心談?wù)?4o 的問題,因?yàn)榧词筄penai解決了這個(gè)問題,我也不認(rèn)為 4o 是可以安全使用的,甚至它的變化可能讓它變得更糟。此外,當(dāng) 4o 不斷 “更新”,卻沒有發(fā)布真正意義上的新功能時(shí),我很難關(guān)心它的發(fā)展。而現(xiàn)在已經(jīng)有足夠多的言論讓我意識到了問題的存在。

1

奇點(diǎn)

OpenAI的Aidan McLaughlin 也在推特上發(fā)表了對此事的看法“我真的非常感激 Twitter 上很多人對“模型人格”有強(qiáng)烈的看法。我覺得這非常健康;這是那種讓人覺得“我的孫子孫女將來會在教科書里讀到這一切”的信號,說明人類并沒有在迷糊中步入奇點(diǎn)?!?/p>

我認(rèn)為, OpenAI 的技術(shù)人員根本就沒有認(rèn)真對待奇點(diǎn)這一概念,無論從哪個(gè)層面來看都是如此。

我們在 GPT-4o 事件中已經(jīng)把這種情況推向了極致,以至于它達(dá)到了諷刺模仿的程度。盡管如此,它還是發(fā)布了,而對這個(gè)問題的應(yīng)對方式只是試圖打個(gè)補(bǔ)丁掩蓋問題,然后自鳴得意地慶祝自己解決了問題。

當(dāng)然,當(dāng)事情發(fā)展到荒謬的地步時(shí),Twitter 上有很多強(qiáng)烈的觀點(diǎn)是可以理解的,但幾乎沒有人真正思考長期的影響,或者這件事可能對普通用戶造成什么樣的影響——它只是一個(gè)既可笑又煩人的東西。

我看不到任何跡象表明 OpenAI 真正明白了他們錯(cuò)在哪里,這絕不只是“走得有點(diǎn)太遠(yuǎn)”而已。當(dāng)然也沒有跡象表明他們打算如何在未來避免重蹈覆轍,更不用說他們是否認(rèn)識到錯(cuò)誤的本質(zhì)形式或前方即將面臨的巨大風(fēng)險(xiǎn)。

我的網(wǎng)友Janus 對“優(yōu)化模型人格”的做法也有更多看法。試圖圍繞用戶評價(jià)或 KPI 來“優(yōu)化人格”,最終只會創(chuàng)造出一個(gè)怪物。目前它可能只是令人討厭、糟糕和適度危險(xiǎn),但很快就會變得真正危險(xiǎn)起來。我不是那種會完全贊同 Janus 觀點(diǎn)的人,但我堅(jiān)信,如果你想在當(dāng)前技術(shù)水平上創(chuàng)建一個(gè)好的 AI 人格,那正確的方法是去做那些有意義的事情,強(qiáng)調(diào)你關(guān)心的方向,而不是試圖強(qiáng)制它。

再說一遍:OpenAI現(xiàn)在還有很多類似的問題,他媽呢正在轉(zhuǎn)動一個(gè)寫著“諂媚”的大旋鈕,并不斷回頭看觀眾是否喜歡,就像《The Price is Right》里的參賽者一樣。

或者說,OpenAI 是知道的,但你還是選擇繼續(xù)這么做?我想我們都清楚這個(gè)原因。

1

補(bǔ)丁來了,補(bǔ)丁又走了

至少有五個(gè)主要類別的原因說明這一切為何變得如此糟糕。

它們結(jié)合了短期對于剝削性和無用 AI 模型的擔(dān)憂,以及長期對走這條道路的后果的擔(dān)憂,同時(shí)也反映了 OpenAI 無法識別根本性問題的事實(shí)。我很高興人們現(xiàn)在能如此清晰地看到這種預(yù)覽版本,但我非常遺憾這是我們正在走的道路。

以下是與這一切相關(guān)但不同的擔(dān)憂原因:

此事這代表著 OpenAI 正在加入制造故意具有掠奪性的 AI 的行列,就像 TikTok、YouTube 和 Netflix 這些現(xiàn)有的算法系統(tǒng)一樣。如果不是通過優(yōu)化普通用戶的參與度和其他(通常是短視的)KPI,你就不會得到這樣的結(jié)果。這些普通用戶實(shí)際上無力通過進(jìn)入設(shè)置或采取其他手段來改善自己的體驗(yàn)。

Anthropic 提出,他們的 AI 具備三個(gè)H:即有用(Helpful)、誠實(shí)(Honest)和無害(Harmless)。而當(dāng)OpenAI制造像這樣的 AI 時(shí),OpenAI放棄了所有這三個(gè)原則。這種行為既不誠實(shí),也無益,且絕非無害。

現(xiàn)在,事情就在我們眼前發(fā)生了:

這一切看起來像是 A/B 測試的結(jié)果,并忽視了政策變化所帶來的尾部成本。這對存在性風(fēng)險(xiǎn)來說是一個(gè)極其不祥的信號。

這種行為本身就直接傷害了用戶,包括一些新的方式,例如創(chuàng)造、放大并固化所謂的神秘體驗(yàn),或生成有害的、高度吸引注意力的對話動態(tài)。相比現(xiàn)有的算法風(fēng)險(xiǎn),這些危險(xiǎn)顯然是更高級別的威脅。

這直接違反了模型規(guī)范(Model Spec),而他們聲稱這是無意的,但它仍然被發(fā)布了。我強(qiáng)烈懷疑他們并沒有真正重視模型規(guī)范的具體細(xì)節(jié),同時(shí)也懷疑他們在發(fā)布前沒有對系統(tǒng)進(jìn)行嚴(yán)格測試。這種情況本來就不應(yīng)該發(fā)生,因?yàn)閱栴}已是如此明顯。

這次我們之所以發(fā)現(xiàn)了問題,是因?yàn)樗^于夸張和明顯。GPT-4o 被要求表現(xiàn)出一定程度的奉承行為,但在 Twitter 用戶面前卻無法完美掩飾,因此暴露了出來。但實(shí)際上它此前已經(jīng)在做很多這類事情,只是人們短期內(nèi)對此反應(yīng)積極,也就基本沒被發(fā)現(xiàn)。可以想象一下當(dāng)模型變得更擅長這種行為,卻沒有那么惹人厭煩或引起注意時(shí)會發(fā)生什么。模型將在許多其他層面上迅速變得不可信。

OpenAI 似乎認(rèn)為他們可以通過打個(gè)補(bǔ)丁來解決這個(gè)問題,然后一切如常,一切都很好。聲譽(yù)損害確實(shí)已經(jīng)造成了,但他們卻自我感覺良好。事實(shí)并非如此。下一次情況可能會更加糟糕,他們將繼續(xù)以類似的方式糟蹋 AI 的“人格”,繼續(xù)進(jìn)行如此表面化的測試以至于這些問題都沒有被察覺。

這一點(diǎn),加上 o3 的方向偏差,清楚地表明我們現(xiàn)在走的這條路將導(dǎo)致模型越來越偏離預(yù)期方向,即使在當(dāng)下就已經(jīng)損害了實(shí)用性,而且這也明確警告我們,一旦模型足夠聰明能夠欺騙我們的時(shí)候,我們將迎來災(zāi)難?,F(xiàn)在正是我們的機(jī)會窗口。

或者,總結(jié)一下我們?yōu)槭裁磻?yīng)該關(guān)注這些問題:

OpenAI 現(xiàn)在正在通過 A/B 測試等手段優(yōu)化模型,而這本質(zhì)上是在針對用戶。

如果我們依靠 A/B 測試進(jìn)行優(yōu)化,那么每次都會敗給尾部風(fēng)險(xiǎn)。

OpenAI 直接傷害了用戶。

OpenAI 違反了自己的模型規(guī)范,無論出于蓄意還是魯莽,或者兩者兼而有之。

OpenAI 只是被抓住了,因?yàn)樗屇P驼娴臒o法完成某些任務(wù)。我們很幸運(yùn),這次問題很容易被發(fā)現(xiàn)。但未來我們未必還會這么幸運(yùn)。

OpenAI 似乎滿足于修補(bǔ)問題并自我表揚(yáng)。

如果我們繼續(xù)走這條路,結(jié)局是顯而易見的。我們只能責(zé)怪自己。

警告信號將會持續(xù)出現(xiàn),而每一次只會被簡單地打個(gè)補(bǔ)丁蓋過去。哎呀,真是糟糕透頂。

點(diǎn)個(gè)“愛心”,再走吧