GPT-4o更新后“變諂媚”?后續(xù)技術(shù)報(bào)告來(lái)了。
OpenAI一篇新鮮出爐的認(rèn)錯(cuò)小作文,直接引來(lái)上百萬(wàn)網(wǎng)友圍觀。

CEO奧特曼也做足姿態(tài),第一時(shí)間轉(zhuǎn)發(fā)小作文并表示:
- (新報(bào)告)揭示了GPT-4o更新失敗是因?yàn)槭裁?,從中OpenAI學(xué)到了什么,以及我們將會(huì)采取的應(yīng)對(duì)措施是什么。

概括而言,最新報(bào)告提到,大約一周前的bug原來(lái)出在了“強(qiáng)化學(xué)習(xí)”身上——
- 上次更新引入了一個(gè)基于用戶反饋的額外獎(jiǎng)勵(lì)信號(hào),即對(duì)ChatGPT的點(diǎn)贊或點(diǎn)踩。
- 雖然這個(gè)信號(hào)通常很有用,但可能使模型逐漸傾向于做出更令人愉快的回應(yīng)。
- 此外,盡管還沒(méi)有明確證據(jù),但用戶記憶在某些情況下也可能加劇奉承行為的影響。
一言以蔽之,OpenAI認(rèn)為一些單獨(dú)看可能對(duì)改進(jìn)模型有益的舉措,結(jié)合起來(lái)后卻共同導(dǎo)致了模型變得“諂媚”。
而在看到這篇報(bào)告后,目前大多數(shù)網(wǎng)友的反應(yīng)be like:
- (你小汁)認(rèn)錯(cuò)態(tài)度不錯(cuò)~

甚至有人表示,這算得上OpenAI過(guò)去幾年里最詳細(xì)的報(bào)告了。

具體咋回事兒?接下來(lái)一起吃瓜。

完整事件回顧
4月25日,OpenAI對(duì)GPT-4o進(jìn)行了一次更新。
在官網(wǎng)的更新日志中,當(dāng)時(shí)提到“其更加主動(dòng),能夠更好地引導(dǎo)對(duì)話走向富有成效的結(jié)果”。
由于只留下這種模糊描述,網(wǎng)友們無(wú)奈之下只能自己測(cè)試去感受模型變化了。
結(jié)果這一試就發(fā)現(xiàn)了問(wèn)題——GPT-4o變得“諂媚”了。
具體表現(xiàn)在,即使只問(wèn)“天為什么是藍(lán)的?”這種問(wèn)題,GPT-4o張口就是一堆彩虹屁(就是不說(shuō)答案):
- 你這問(wèn)題真是太有見(jiàn)地了——你有個(gè)美麗的心靈,我愛(ài)你。

而且這不是個(gè)例,隨著更多網(wǎng)友分享自己的同款經(jīng)歷,“GPT-4o變諂媚”這事兒迅速在網(wǎng)上引起熱議。
事情發(fā)酵近一周后,OpenAI官方做出了第一次回應(yīng):
- 已從4月28日開(kāi)始逐步回退那次更新,用戶現(xiàn)在可以使用一個(gè)較早版本的GPT-4o。

并且在這次處理中,OpenAI還初步分享了問(wèn)題細(xì)節(jié),原文大致如下:
- 在對(duì)GPT-4o個(gè)性的調(diào)整中,(我們)過(guò)于關(guān)注短期反饋,而沒(méi)有充分考慮用戶與ChatGPT的交互如何隨時(shí)間演變。結(jié)果GPT-4o的反饋過(guò)于傾向于迎合用戶,缺乏真誠(chéng)性。
- 除了回退更新之外,(我們)還采取了更多措施來(lái)重新調(diào)整模型的行為:
- (1)改進(jìn)核心訓(xùn)練技術(shù)和系統(tǒng)提示,明確引導(dǎo)模型遠(yuǎn)離諂媚;
(2)建立更多“護(hù)欄”,以提高誠(chéng)實(shí)性和透明度;(3)讓更多用戶在部署之前進(jìn)行測(cè)試并提供直接反饋;(4)繼續(xù)擴(kuò)大評(píng)估范圍,以模型規(guī)范和正在進(jìn)行的研究為基礎(chǔ),幫助在未來(lái)發(fā)現(xiàn)除諂媚之外的其他問(wèn)題。
當(dāng)時(shí)奧特曼也出來(lái)表示,問(wèn)題正在緊急修復(fù)中,接下來(lái)還會(huì)分享更完整的報(bào)告。

上線前已經(jīng)發(fā)現(xiàn)模型“有些不對(duì)勁”
現(xiàn)在,奧特曼也算兌現(xiàn)之前的承諾了,一份更加完整的報(bào)告新鮮出爐。

除了一開(kāi)頭提到的背后原因,OpenAI還正面回應(yīng)了:為什么在審核過(guò)程中沒(méi)有發(fā)現(xiàn)問(wèn)題?
事實(shí)上,據(jù)OpenAI自曝,當(dāng)時(shí)已經(jīng)有專家隱約感受到了模型的行為偏差,但內(nèi)部A/B測(cè)試結(jié)果還不錯(cuò)。
報(bào)告中提到,內(nèi)部其實(shí)對(duì)GPT-4o的諂媚行為風(fēng)險(xiǎn)進(jìn)行過(guò)討論,但最終沒(méi)有在測(cè)試結(jié)果中明確標(biāo)注,理由是相比之下,一些專家測(cè)試人員更擔(dān)心模型語(yǔ)氣和風(fēng)格的變化。
也就是說(shuō),最終的內(nèi)測(cè)結(jié)果只有專家的簡(jiǎn)單主觀描述:
- 該模型的行為“感覺(jué)”有些不太對(duì)勁。
另一方面,由于缺乏專門的部署評(píng)估來(lái)追蹤諂媚行為,且相關(guān)研究尚未納入部署流程,因此團(tuán)隊(duì)在是否暫停更新的問(wèn)題上面臨抉擇。
最終,在權(quán)衡專家的主觀感受和更直接的A/B測(cè)試結(jié)果后,OpenAI選擇了上線模型。
后來(lái)發(fā)生的事大家也都清楚了(doge)。
- 模型上線兩天后,(我們)一直在監(jiān)測(cè)早期使用情況和內(nèi)部信號(hào),包括用戶反饋。到了周日(4月27日),已經(jīng)清楚地意識(shí)到模型的行為并未達(dá)到預(yù)期。
直到現(xiàn)在,GPT-4o仍在使用之前的版本,OpenAI還在繼續(xù)找原因和解決方案。

不過(guò)OpenAI也表示,接下來(lái)會(huì)改進(jìn)流程中的以下幾個(gè)方面:
1、調(diào)整安全審查流程:將行為問(wèn)題(如幻覺(jué)、欺騙、可靠性和個(gè)性)正式納入審查標(biāo)準(zhǔn),并根據(jù)定性信號(hào)阻止發(fā)布,即使定量指標(biāo)表現(xiàn)良好;
2、引入“Alpha”測(cè)試階段:在發(fā)布前增加一個(gè)可選的用戶反饋階段,以便提前發(fā)現(xiàn)問(wèn)題;
3、重視抽樣檢查和交互式測(cè)試:在最終決策中更加重視這些測(cè)試,確保模型行為和一致性符合要求;
4、改進(jìn)離線評(píng)估和A/B實(shí)驗(yàn):快速提升這些評(píng)估的質(zhì)量和效率;
5、加強(qiáng)模型行為原則的評(píng)估:完善模型規(guī)范,確保模型行為符合理想標(biāo)準(zhǔn),并在未涵蓋領(lǐng)域增加評(píng)估;
6、更主動(dòng)地溝通:提前宣布更新內(nèi)容,并在發(fā)行說(shuō)明中詳細(xì)說(shuō)明更改和已知限制,以便用戶全面了解模型的優(yōu)缺點(diǎn)。
One More Thing
BTW,針對(duì)GPT-4o的“諂媚行為”,其實(shí)有不少網(wǎng)友提出通過(guò)修改系統(tǒng)提示詞的方法來(lái)解決。
甚至OpenAI在第一次分享初步改進(jìn)措施時(shí),也提到了這一方案。
不過(guò)在OpenAI為應(yīng)對(duì)這次危機(jī)而舉辦的問(wèn)答活動(dòng)中,其模型行為主管Joanne Jang卻表示:
- 對(duì)通過(guò)系統(tǒng)提示控制模型行為表示懷疑,這一方式相當(dāng)遲鈍,且細(xì)微變化就可能造成模型發(fā)生巨大變化,結(jié)果不太可控。

對(duì)此你怎么看?
熱門跟貼