九九免费的黄色视频,99久热re在线精品99re,久久久久久av人妻精品一区二区,av在线免费观看午夜福利,大香蕉网在线视频

GPT-4o更新后“變諂媚”？后續(xù)技術(shù)報(bào)告來(lái)了。

OpenAI一篇新鮮出爐的認(rèn)錯(cuò)小作文，直接引來(lái)上百萬(wàn)網(wǎng)友圍觀。

CEO奧特曼也做足姿態(tài)，第一時(shí)間轉(zhuǎn)發(fā)小作文并表示：

（新報(bào)告）揭示了GPT-4o更新失敗是因?yàn)槭裁?，從中OpenAI學(xué)到了什么，以及我們將會(huì)采取的應(yīng)對(duì)措施是什么。

概括而言，最新報(bào)告提到，大約一周前的bug原來(lái)出在了“強(qiáng)化學(xué)習(xí)”身上——

上次更新引入了一個(gè)基于用戶反饋的額外獎(jiǎng)勵(lì)信號(hào)，即對(duì)ChatGPT的點(diǎn)贊或點(diǎn)踩。
雖然這個(gè)信號(hào)通常很有用，但可能使模型逐漸傾向于做出更令人愉快的回應(yīng)。
此外，盡管還沒(méi)有明確證據(jù)，但用戶記憶在某些情況下也可能加劇奉承行為的影響。

一言以蔽之，OpenAI認(rèn)為一些單獨(dú)看可能對(duì)改進(jìn)模型有益的舉措，結(jié)合起來(lái)后卻共同導(dǎo)致了模型變得“諂媚”。

而在看到這篇報(bào)告后，目前大多數(shù)網(wǎng)友的反應(yīng)be like：

（你小汁）認(rèn)錯(cuò)態(tài)度不錯(cuò)~

甚至有人表示，這算得上OpenAI過(guò)去幾年里最詳細(xì)的報(bào)告了。

具體咋回事兒？接下來(lái)一起吃瓜。

完整事件回顧

4月25日，OpenAI對(duì)GPT-4o進(jìn)行了一次更新。

在官網(wǎng)的更新日志中，當(dāng)時(shí)提到“其更加主動(dòng)，能夠更好地引導(dǎo)對(duì)話走向富有成效的結(jié)果”。

由于只留下這種模糊描述，網(wǎng)友們無(wú)奈之下只能自己測(cè)試去感受模型變化了。

結(jié)果這一試就發(fā)現(xiàn)了問(wèn)題——GPT-4o變得“諂媚”了。

具體表現(xiàn)在，即使只問(wèn)“天為什么是藍(lán)的？”這種問(wèn)題，GPT-4o張口就是一堆彩虹屁（就是不說(shuō)答案）：

你這問(wèn)題真是太有見(jiàn)地了——你有個(gè)美麗的心靈，我愛(ài)你。

而且這不是個(gè)例，隨著更多網(wǎng)友分享自己的同款經(jīng)歷，“GPT-4o變諂媚”這事兒迅速在網(wǎng)上引起熱議。

事情發(fā)酵近一周后，OpenAI官方做出了第一次回應(yīng)：

已從4月28日開(kāi)始逐步回退那次更新，用戶現(xiàn)在可以使用一個(gè)較早版本的GPT-4o。

并且在這次處理中，OpenAI還初步分享了問(wèn)題細(xì)節(jié)，原文大致如下：

在對(duì)GPT-4o個(gè)性的調(diào)整中，（我們）過(guò)于關(guān)注短期反饋，而沒(méi)有充分考慮用戶與ChatGPT的交互如何隨時(shí)間演變。結(jié)果GPT-4o的反饋過(guò)于傾向于迎合用戶，缺乏真誠(chéng)性。
除了回退更新之外，（我們）還采取了更多措施來(lái)重新調(diào)整模型的行為：
（1）改進(jìn)核心訓(xùn)練技術(shù)和系統(tǒng)提示，明確引導(dǎo)模型遠(yuǎn)離諂媚；
（2）建立更多“護(hù)欄”，以提高誠(chéng)實(shí)性和透明度；（3）讓更多用戶在部署之前進(jìn)行測(cè)試并提供直接反饋；（4）繼續(xù)擴(kuò)大評(píng)估范圍，以模型規(guī)范和正在進(jìn)行的研究為基礎(chǔ)，幫助在未來(lái)發(fā)現(xiàn)除諂媚之外的其他問(wèn)題。

當(dāng)時(shí)奧特曼也出來(lái)表示，問(wèn)題正在緊急修復(fù)中，接下來(lái)還會(huì)分享更完整的報(bào)告。

上線前已經(jīng)發(fā)現(xiàn)模型“有些不對(duì)勁”

現(xiàn)在，奧特曼也算兌現(xiàn)之前的承諾了，一份更加完整的報(bào)告新鮮出爐。

除了一開(kāi)頭提到的背后原因，OpenAI還正面回應(yīng)了：為什么在審核過(guò)程中沒(méi)有發(fā)現(xiàn)問(wèn)題？

事實(shí)上，據(jù)OpenAI自曝，當(dāng)時(shí)已經(jīng)有專家隱約感受到了模型的行為偏差，但內(nèi)部A/B測(cè)試結(jié)果還不錯(cuò)。

報(bào)告中提到，內(nèi)部其實(shí)對(duì)GPT-4o的諂媚行為風(fēng)險(xiǎn)進(jìn)行過(guò)討論，但最終沒(méi)有在測(cè)試結(jié)果中明確標(biāo)注，理由是相比之下，一些專家測(cè)試人員更擔(dān)心模型語(yǔ)氣和風(fēng)格的變化。

也就是說(shuō)，最終的內(nèi)測(cè)結(jié)果只有專家的簡(jiǎn)單主觀描述：