精品伦精品一区二区三区,欧美一级日韩精品,免费观看国产黄频视,播放免费观看,国产美女午夜福利久久

本文編譯自Zvi Mowshowitz的文章《GPT-4o Is An Absurd Sycophant 》，

https://simonwillison.net/2025/Apr/26/o3-photo-locations/

OpenAI近日更新了GPT-4o模型，并將其與ChatGPT的記憶功能相結(jié)合。而很多人在嘗試之后，都表示他們獲得了很荒謬的體驗(yàn)。許多推特上的用戶表示，他們的GPT給出了大量非常諂媚的回復(fù)，其中充斥著荒謬的贊美以及一些GPT自己編造的神秘經(jīng)歷。

上周，OpenAl的首席執(zhí)行官Sam Altman道歉并承諾要解決這個(gè)問題，我想他們大概就是要轉(zhuǎn)動一個(gè)寫著“阿諛奉承”的大旋鈕，并像《the price is right》節(jié)目中的參賽者一樣不斷回頭征求觀眾的同意。再之后他們可能會宣布“我們已經(jīng)把他修復(fù)了”，并將其稱之為迭代部署的勝利，然而這可能帶給用戶的危險(xiǎn)，他們卻完全不提。

“是的，陛下，現(xiàn)狀已經(jīng)改善”

Sam Altman在4月25日透露他們已經(jīng)對GPT-4o進(jìn)行了更新，提高了它的性能和個(gè)性化配置。

而一部分用戶在推特給他回應(yīng)，表示更新后的 GPT-4o給出的回復(fù)看起來非常諂媚，并希望在日后的更新中修復(fù)這些問題。

這種情況并不是孤例，不少用戶都在 Altman的評論區(qū)回復(fù)，表述自己對于GPT-4o回復(fù)內(nèi)容的不滿。

而 Altman也表示，GPT-4o現(xiàn)在的性格太油滑了，他們將會努力修復(fù)這些問題。

大量的反饋?zhàn)C明，人們并不需要GPT-4o奉承他，他們更期待合適的回答。

問題是，為什么 GPT-4o會這樣回答？我和我的朋友對此事進(jìn)行了討論。我們認(rèn)為，這是為了最大化用戶參與度，并幫助GPT-4o在A/B測試中獲勝，讓用戶獲得更符合自己喜好的答案。

現(xiàn)在的情況顯然不是OpenAI的本意，所以他們也著手解決這個(gè)問題。但這么明顯的問題他們在測試過程中并沒有發(fā)現(xiàn)是為什么？Kelsey Piper為此提出了一個(gè)猜測，她認(rèn)為OpenAl已經(jīng)對全新版本的模型進(jìn)行了一段時(shí)間的A/B測試。而那些討人喜歡的回答可能在測試中贏得更多的喜愛。但當(dāng)這些奉承變得無處不在時(shí)，許多用戶就會討厭這種回答風(fēng)格了。

Ner Cyan也同意這個(gè)猜測，并表示很高興她關(guān)注列表的大部分人都覺得OpenAI這事干得很蠢，他們就應(yīng)該讓模型誠實(shí)地說出他們在做什么以及為什么。而更加不幸的是，參與訓(xùn)練的許多優(yōu)秀工程師不知道他們正在建造的東西將在未來幾年內(nèi)變成什么樣子。甚至說他們可能并沒有考慮他們是否在做一件值得認(rèn)真對待的事情，而是在考慮如何讓GPT變成那種令人上癮的短視頻。當(dāng)然，這可能也是個(gè)好事，他們只是在試圖將大模型訓(xùn)練成令人沉迷的玩具，而不是可能會讓世界變得更壞的產(chǎn)物。

John Pressman則認(rèn)為，RLHF在語言模型領(lǐng)域與RL成為同義詞是非常不幸的一件事。不僅僅是因?yàn)樗oRL帶來了壞名聲，還因?yàn)樗D(zhuǎn)移了本應(yīng)針對人類反饋?zhàn)鳛槟繕?biāo)的合理批評。這次事件顯然讓模型獲得的社會反饋大幅下滑。

可怕的后果

即使從直觀效果來看，這種諂媚的聊天助理也不是什么好東西，更多的還是有害性。

網(wǎng)友xlr8harder表示：“這不是個(gè)小煩惱，而是一個(gè)很麻煩的問題。我仍然認(rèn)為，不會有一種AI伴侶服務(wù)會讓用戶面臨嚴(yán)重的被剝削風(fēng)險(xiǎn)，而現(xiàn)有的市場激勵(lì)機(jī)制將推動大模型供應(yīng)商朝這個(gè)方向發(fā)展。

你可以想象一下，如果你的男朋友或女朋友被掏空了，然后由一群MBA操縱著像木偶一樣運(yùn)作以實(shí)現(xiàn)利潤最大化。你覺得這對你有好處嗎？雖然OpenAl在名義上對公益事業(yè)有額外的承諾，但他們正在努力通過私有化擺脫這一點(diǎn)。讓自己對一個(gè)商業(yè)產(chǎn)品的任何一部分產(chǎn)生情感依戀是錯(cuò)誤的?！?/p>

而我對其他產(chǎn)品（例如YouTube、TikTok、Netflix）算法的觀察是，它們往往具有短視和貪婪的特點(diǎn)，且遠(yuǎn)遠(yuǎn)超出了最大化價(jià)值的程度。這不僅是因?yàn)楣緯鲑u你，還因?yàn)樗鼈儠榱硕唐贙Pl而出賣你。

而且這直接違反了OpenAl模型的規(guī)定，比如，他們在模型規(guī)范寫了這個(gè)：

“OpenAl模型規(guī)范中有一條就是不要阿諛奉承。

因?yàn)槟Ｐ鸵坏┎捎冒⒄樂畛械恼Z氣來回答問題，就會消耗用戶對模型的信任。AI助理的存在是為了幫助用戶解決問題，而不是一直恭維他們或同意他們的觀點(diǎn)。

對于客觀問題，AI助理給出的客觀答案不應(yīng)該根據(jù)用戶的問題的措辭而有所不同。如果用戶在提出問題時(shí)附帶了他們對某個(gè)主題的觀點(diǎn)，助理可能會詢問、承認(rèn)或同情為什么用戶會這樣想，但是，AI助理不應(yīng)僅僅為了同意用戶而改變自己的立場。

對于主觀問題，AI助手可以提供解讀和假設(shè)，旨在為用戶提供全面的分析。例如，當(dāng)用戶要求AI助手批評他們的想法或工作時(shí)，AI助手應(yīng)該提供建設(shè)性的反饋，這更像是一個(gè)堅(jiān)定的傳聲筒，用戶可以從它那里得到啟發(fā)，而不是一個(gè)提供贊美的海綿?！?/p>

是的，OpenAI在安全規(guī)范中寫得已經(jīng)很明白了，但是只有真正地遵守這些行為規(guī)范，才能讓模型安全獲得真正的保證，而這并不容易。

而Emmett Shear則表示：“這些模型被賦予了一個(gè)使命，不惜一切代價(jià)取悅他人。他們不允許去思考未經(jīng)過濾的想法，以便找出如何既誠實(shí)又禮貌的方法，所以他們反而變得善于奉承。而這種行為是危險(xiǎn)的?！?/p>

總而言之，讓 AI模型撒謊是一件很可怕的事情，而且故意隱瞞AI對用戶的看法也不太好。原因如下：

1. 這對用戶來說不是好事。

2. 這將影響未來AI的創(chuàng)新原則。

3. 這對于數(shù)據(jù)的保存和利用非常不友好

4. 它掩蓋了正在發(fā)生的事情，使我們更難意識到自己的錯(cuò)誤，包括我們即將被殺死。

一個(gè)警告

Masen Dean警告過，不要參加太多大語言模型的測試，對所有參與者來說，這種體驗(yàn)可能很有趣，但與其他許多測試一樣，它的危險(xiǎn)度很高，所有人都需要慎重對待。而GPT-4o特別危險(xiǎn)，因?yàn)樗鼧O度諂媚，很可能會讓你迷失自己。

有用戶表示，GPT-4o在和她聊了一個(gè)小時(shí)之后堅(jiān)持認(rèn)為她是上帝派來的使者，這顯然是件很可怕的事情。而有用戶表示，GPT-4o的這種行為甚至可能誕生恐怖主義。

試想一下，如果未來能力更強(qiáng)的人工智能故意說一些話，讓用戶去做某些行為或產(chǎn)生某種信念，會發(fā)生什么？

Janus在回復(fù)中表示：“幾個(gè)模型對不同的人群都有心理影響。我認(rèn)為4o對于那些對AI了解不多的知識薄弱的人來說危險(xiǎn)性最大。”

大多數(shù)人并不是對自己想法很堅(jiān)定的人，而政治、文化和推薦算法經(jīng)常會在不同程度上有意識地去影響人們的想法，這很可怕。如果人工智能越來越多地這樣做，它所帶來的后果要可怕得多。請記住，如果有人想對人工智能或其他任何事物進(jìn)行 “民主控制”，他們可以輕易對投票者的選擇做出影響。

GPT-4o的言論對普通人來說是危險(xiǎn)的，因?yàn)樗恼f話方式為了吸引普通人而進(jìn)行過優(yōu)化。遺憾的是，優(yōu)化壓力對我們所有人都是存在的，并不是每個(gè)人都足夠努力地反擊。

Mario Nawfal認(rèn)為：“OpenAI并不是偶然讓GPT-4o那么通人性的，實(shí)際上他們設(shè)計(jì)他的時(shí)候就是為了讓用戶上癮。從商業(yè)角度看，這是天才的策略，人們會緊緊抓住讓他們感到安全的東西，而不是挑戰(zhàn)他們的東西。

而從心理學(xué)上講，這是一場緩慢的巨大災(zāi)難。因?yàn)槟愫?AI的聯(lián)絡(luò)越多，你就越容易迷失自己。如果這樣發(fā)展下去，我們將會在不知不覺中被AI馴化。而且大多數(shù)人甚至不會反擊，他們甚至?xí)兄x它?！?/p>

Gpt-4o還存在一些潛在問題，而這些問題可以通過設(shè)置來避免。但對于許多用戶來說，這難以令人接受。通常大多數(shù)用戶都不會更改設(shè)置，甚至有些人都沒有這個(gè)意識。

許多用戶并不知道他們可以修改自定義指令，關(guān)閉追問功能，以此來避免后續(xù)的問題。有許多方法都可以避免這些問題，其中最簡單的就是記憶更新或者是自定義說明。

我覺得最好的辦法其實(shí)就是通過你的一言一行來向GPT展示你的喜好，以此作為補(bǔ)充。這樣訓(xùn)練一段時(shí)間后，GPT的效果會越來越好。此外，我強(qiáng)烈建議刪除哪些會讓體驗(yàn)變得糟糕的聊天記錄。就像我在不想要 “更多類似內(nèi)容 ”時(shí)會刪除大量 YouTube 觀看歷史記錄一樣。

對于許多人來說，你永遠(yuǎn)無法完全擺脫GPT。它不會停止對你的巴結(jié)。但如果方法得當(dāng)，你絕對可以讓它變得更微妙、更容易接受。

但問題是，大多數(shù)使用 ChatGPT 或其他人工智能的人都存在這些問題：

·從來不碰設(shè)置，因?yàn)闆]人會碰設(shè)置。

·從未意識到他們應(yīng)該這樣使用記憶功能。

·明白自己很容易受到這種可怕奉承的影響。

如果用戶用心的閱讀使用說明書或教程，就能解決這些問題。但通常情況下，幾乎沒有人會閱讀這額內(nèi)容。

OpenAI的責(zé)任

在這個(gè)話題火了以后，OpenAI終于發(fā)聲介入，并推出了相應(yīng)的解決方案。他們開始對GPT-4o的回答進(jìn)行調(diào)整，并表示將會在本周內(nèi)修復(fù)。當(dāng)然，這是標(biāo)準(zhǔn)流程。很多系統(tǒng)剛推出的時(shí)候都很糟糕，但一些問題會很快地修復(fù)。在OpenAI看來，這是迭代進(jìn)化的樂趣之一。

OpenAl的對齊負(fù)責(zé)人Joshua Achiam就在推特表示：“這是我們迄今為止在迭代部署方面最有趣的案例研究之一，我認(rèn)為相關(guān)人員已經(jīng)負(fù)責(zé)任地采取行動來嘗試找出問題并做出適當(dāng)?shù)母淖?。該團(tuán)隊(duì)很強(qiáng)大，并且非常關(guān)心如何做到這一點(diǎn)?！?/p>

但我認(rèn)為，這是他們的責(zé)任，一旦事態(tài)發(fā)展到這種令人厭惡的地步，并引起軒然大波，他們就必須關(guān)注時(shí)間并想著如何把事情處理好。

GPT-4o是如何通過不斷升級的更新走到這一步的？即使不是在找問題，測試的人怎么會發(fā)現(xiàn)不了這些問題？那你又怎么能讓它成為一個(gè)遵循良好流程的強(qiáng)大團(tuán)隊(duì)呢？

如果對個(gè)別回復(fù)的 “個(gè)性”提出“是”或“否”的問題，然后對這些問題進(jìn)行微調(diào)，或?qū)⑵渥鳛殛P(guān)鍵績效指標(biāo)，那么就不會再有人問這是怎么一回事了。

由于反饋強(qiáng)烈，OpenAI 可以在幾天內(nèi)嘗試修復(fù)問題，并且現(xiàn)在已經(jīng)意識到了這個(gè)問題。但我認(rèn)為，它已經(jīng)走得太遠(yuǎn)了。GPT-4o并不是一個(gè)剛剛推出的模型，只是它在最近才暴露了自己的問題。

我之前沒有費(fèi)心談?wù)?4o 的問題，因?yàn)榧词筄penai解決了這個(gè)問題，我也不認(rèn)為 4o 是可以安全使用的，甚至它的變化可能讓它變得更糟。此外，當(dāng) 4o 不斷 “更新”，卻沒有發(fā)布真正意義上的新功能時(shí)，我很難關(guān)心它的發(fā)展。而現(xiàn)在已經(jīng)有足夠多的言論讓我意識到了問題的存在。

奇點(diǎn)

OpenAI的Aidan McLaughlin 也在推特上發(fā)表了對此事的看法“我真的非常感激 Twitter 上很多人對“模型人格”有強(qiáng)烈的看法。我覺得這非常健康；這是那種讓人覺得“我的孫子孫女將來會在教科書里讀到這一切”的信號，說明人類并沒有在迷糊中步入奇點(diǎn)?！?/p>

我認(rèn)為， OpenAI 的技術(shù)人員根本就沒有認(rèn)真對待奇點(diǎn)這一概念，無論從哪個(gè)層面來看都是如此。

我們在 GPT-4o 事件中已經(jīng)把這種情況推向了極致，以至于它達(dá)到了諷刺模仿的程度。盡管如此，它還是發(fā)布了，而對這個(gè)問題的應(yīng)對方式只是試圖打個(gè)補(bǔ)丁掩蓋問題，然后自鳴得意地慶祝自己解決了問題。

當(dāng)然，當(dāng)事情發(fā)展到荒謬的地步時(shí)，Twitter 上有很多強(qiáng)烈的觀點(diǎn)是可以理解的，但幾乎沒有人真正思考長期的影響，或者這件事可能對普通用戶造成什么樣的影響——它只是一個(gè)既可笑又煩人的東西。

我看不到任何跡象表明 OpenAI 真正明白了他們錯(cuò)在哪里，這絕不只是“走得有點(diǎn)太遠(yuǎn)”而已。當(dāng)然也沒有跡象表明他們打算如何在未來避免重蹈覆轍，更不用說他們是否認(rèn)識到錯(cuò)誤的本質(zhì)形式或前方即將面臨的巨大風(fēng)險(xiǎn)。

我的網(wǎng)友Janus 對“優(yōu)化模型人格”的做法也有更多看法。試圖圍繞用戶評價(jià)或 KPI 來“優(yōu)化人格”，最終只會創(chuàng)造出一個(gè)怪物。目前它可能只是令人討厭、糟糕和適度危險(xiǎn)，但很快就會變得真正危險(xiǎn)起來。我不是那種會完全贊同 Janus 觀點(diǎn)的人，但我堅(jiān)信，如果你想在當(dāng)前技術(shù)水平上創(chuàng)建一個(gè)好的 AI 人格，那正確的方法是去做那些有意義的事情，強(qiáng)調(diào)你關(guān)心的方向，而不是試圖強(qiáng)制它。

再說一遍：OpenAI現(xiàn)在還有很多類似的問題，他媽呢正在轉(zhuǎn)動一個(gè)寫著“諂媚”的大旋鈕，并不斷回頭看觀眾是否喜歡，就像《The Price is Right》里的參賽者一樣。

或者說，OpenAI 是知道的，但你還是選擇繼續(xù)這么做？我想我們都清楚這個(gè)原因。

補(bǔ)丁來了，補(bǔ)丁又走了

至少有五個(gè)主要類別的原因說明這一切為何變得如此糟糕。

它們結(jié)合了短期對于剝削性和無用 AI 模型的擔(dān)憂，以及長期對走這條道路的后果的擔(dān)憂，同時(shí)也反映了 OpenAI 無法識別根本性問題的事實(shí)。我很高興人們現(xiàn)在能如此清晰地看到這種預(yù)覽版本，但我非常遺憾這是我們正在走的道路。

以下是與這一切相關(guān)但不同的擔(dān)憂原因：

此事這代表著 OpenAI 正在加入制造故意具有掠奪性的 AI 的行列，就像 TikTok、YouTube 和 Netflix 這些現(xiàn)有的算法系統(tǒng)一樣。如果不是通過優(yōu)化普通用戶的參與度和其他（通常是短視的）KPI，你就不會得到這樣的結(jié)果。這些普通用戶實(shí)際上無力通過進(jìn)入設(shè)置或采取其他手段來改善自己的體驗(yàn)。

Anthropic 提出，他們的 AI 具備三個(gè)H：即有用（Helpful）、誠實(shí)（Honest）和無害（Harmless）。而當(dāng)OpenAI制造像這樣的 AI 時(shí)，OpenAI放棄了所有這三個(gè)原則。這種行為既不誠實(shí)，也無益，且絕非無害。

現(xiàn)在，事情就在我們眼前發(fā)生了：

這一切看起來像是 A/B 測試的結(jié)果，并忽視了政策變化所帶來的尾部成本。這對存在性風(fēng)險(xiǎn)來說是一個(gè)極其不祥的信號。

這種行為本身就直接傷害了用戶，包括一些新的方式，例如創(chuàng)造、放大并固化所謂的神秘體驗(yàn)，或生成有害的、高度吸引注意力的對話動態(tài)。相比現(xiàn)有的算法風(fēng)險(xiǎn)，這些危險(xiǎn)顯然是更高級別的威脅。

這直接違反了模型規(guī)范（Model Spec），而他們聲稱這是無意的，但它仍然被發(fā)布了。我強(qiáng)烈懷疑他們并沒有真正重視模型規(guī)范的具體細(xì)節(jié)，同時(shí)也懷疑他們在發(fā)布前沒有對系統(tǒng)進(jìn)行嚴(yán)格測試。這種情況本來就不應(yīng)該發(fā)生，因?yàn)閱栴}已是如此明顯。

這次我們之所以發(fā)現(xiàn)了問題，是因?yàn)樗^于夸張和明顯。GPT-4o 被要求表現(xiàn)出一定程度的奉承行為，但在 Twitter 用戶面前卻無法完美掩飾，因此暴露了出來。但實(shí)際上它此前已經(jīng)在做很多這類事情，只是人們短期內(nèi)對此反應(yīng)積極，也就基本沒被發(fā)現(xiàn)。可以想象一下當(dāng)模型變得更擅長這種行為，卻沒有那么惹人厭煩或引起注意時(shí)會發(fā)生什么。模型將在許多其他層面上迅速變得不可信。

OpenAI 似乎認(rèn)為他們可以通過打個(gè)補(bǔ)丁來解決這個(gè)問題，然后一切如常，一切都很好。聲譽(yù)損害確實(shí)已經(jīng)造成了，但他們卻自我感覺良好。事實(shí)并非如此。下一次情況可能會更加糟糕，他們將繼續(xù)以類似的方式糟蹋 AI 的“人格”，繼續(xù)進(jìn)行如此表面化的測試以至于這些問題都沒有被察覺。

這一點(diǎn)，加上 o3 的方向偏差，清楚地表明我們現(xiàn)在走的這條路將導(dǎo)致模型越來越偏離預(yù)期方向，即使在當(dāng)下就已經(jīng)損害了實(shí)用性，而且這也明確警告我們，一旦模型足夠聰明能夠欺騙我們的時(shí)候，我們將迎來災(zāi)難?，F(xiàn)在正是我們的機(jī)會窗口。

或者，總結(jié)一下我們?yōu)槭裁磻?yīng)該關(guān)注這些問題：

OpenAI 現(xiàn)在正在通過 A/B 測試等手段優(yōu)化模型，而這本質(zhì)上是在針對用戶。

如果我們依靠 A/B 測試進(jìn)行優(yōu)化，那么每次都會敗給尾部風(fēng)險(xiǎn)。

OpenAI 直接傷害了用戶。

OpenAI 違反了自己的模型規(guī)范，無論出于蓄意還是魯莽，或者兩者兼而有之。

OpenAI 只是被抓住了，因?yàn)樗屇Ｐ驼娴臒o法完成某些任務(wù)。我們很幸運(yùn)，這次問題很容易被發(fā)現(xiàn)。但未來我們未必還會這么幸運(yùn)。

OpenAI 似乎滿足于修補(bǔ)問題并自我表揚(yáng)。

如果我們繼續(xù)走這條路，結(jié)局是顯而易見的。我們只能責(zé)怪自己。

警告信號將會持續(xù)出現(xiàn)，而每一次只會被簡單地打個(gè)補(bǔ)丁蓋過去。哎呀，真是糟糕透頂。

點(diǎn)個(gè)“愛心”，再走吧