打開網(wǎng)易新聞 查看精彩圖片

新智元報(bào)道

編輯:編輯部 NYH

【新智元導(dǎo)讀】GPT-4.5比GPT-4聰明10倍!其背后的研發(fā)故事卻鮮為人知。奧特曼攜OpenAI團(tuán)隊(duì)首次敞開心扉,分享了幕后細(xì)節(jié)。從海量算力引發(fā)的「基礎(chǔ)設(shè)施危機(jī)」,到「torch.sum bug」帶來的意外突破,團(tuán)隊(duì)講述了在挑戰(zhàn)中實(shí)現(xiàn)智能飛躍。

GPT-4.5出世一個多月,鮮有人知其背后研發(fā)故事。

今天凌晨,奧特曼與三位核心研究員在線開啟播客對談,首次揭開了GPT-4.5從愿景到現(xiàn)實(shí)的史詩級突破。

打開網(wǎng)易新聞 查看精彩圖片

早在兩年前,OpenAI團(tuán)隊(duì)定下了一個大膽的目標(biāo),打造一款比GPT-4聰明10倍的模型。

這不僅意味著LLM性能提升,更是對計(jì)算、數(shù)據(jù)、協(xié)作的極限挑戰(zhàn)。

打開網(wǎng)易新聞 查看精彩圖片

從左到右:奧特曼、Alex Paino、Amin Tootoonchian和Daniel Selsam

如今,OpenAI在2月底正式交卷,GPT-4.5情商堪稱所有模型最強(qiáng)的,并再次Scaling無監(jiān)督學(xué)習(xí)的邊界。

這款「超級模型」究竟如何創(chuàng)造智能奇跡,全部濃縮在了這45分鐘的圓桌對談中。

一些精彩亮點(diǎn):

  • GPT-4.5比GPT-4聰明10倍,研發(fā)用時2年,擁有上一代不具備的微妙「魔力」

  • 訓(xùn)練GPT-4.5為OpenAI提供了寶貴的技術(shù)經(jīng)驗(yàn);現(xiàn)只需要大約5名員工,就可以從頭開始訓(xùn)練GPT-4

  • 算力基礎(chǔ)設(shè)施和大規(guī)模GPU擴(kuò)展帶來的小概率問題會捅出大亂子

  • 數(shù)據(jù)效率成為關(guān)鍵瓶頸,OpenAI下一個主要研究前沿是提高數(shù)據(jù)效率

  • 「torch.sum bug」等趣事推動模型性能飛躍。

  • Scaling Law被驗(yàn)證為可能長期有效的「宇宙規(guī)律」

打開網(wǎng)易新聞 查看精彩圖片

GPT-4.5聰明10倍

奧特曼開篇說,通常他們開這種會都是為了發(fā)布新產(chǎn)品,不過這次打算換個玩法,聊聊GPT-4.5開發(fā)背后的故事。

GPT-4.5推出后,用戶對它的興趣特別大,這大大超出了研發(fā)團(tuán)隊(duì)的預(yù)期。

他們首先從「一個巨型模型到底需要什么?」這個話題說起。

「一大堆人、一大把時間,還有海量的計(jì)算資源?!怪饕?fù)責(zé)預(yù)訓(xùn)練數(shù)據(jù)的Alex回答說。

Alex表示,他們光是準(zhǔn)備階段就花了很多心思,至于正式的訓(xùn)練,「本身就是個超級大的工程」。

在實(shí)際訓(xùn)練中,研究團(tuán)隊(duì)經(jīng)常得做選擇:是推遲發(fā)布,等更多問題解決;還是早點(diǎn)上線,邊跑邊解決問題。

這是個平衡,不能讓整個訓(xùn)練過程拖得太久。

他們謙虛地認(rèn)為,對于效率更高的算法及以如何更好地利用現(xiàn)有數(shù)據(jù),他們還只是「略知皮毛」。

在不久之前,我們還在受限于算力。但從GPT-4.5開始,我們更多地是處在一個受限于數(shù)據(jù)的環(huán)境里了。

他們說這是一個顛覆性的進(jìn)展,「整個世界對此還沒有充分認(rèn)識到?!?/p>

兩年前著手開發(fā)GPT-4.5時,他們的目標(biāo)是比GPT-4聰明10倍。

現(xiàn)在,他們覺得自己達(dá)到了這個目標(biāo)——至少在投入的有效算力下,GPT-4.5實(shí)現(xiàn)了比GPT-4聰明10倍的效果。

預(yù)訓(xùn)練的兩個難題

不過,實(shí)際的訓(xùn)練時間還是比預(yù)想的要長不少。

這里面主要有兩個問題。

一個是從1萬個GPU增加到10萬個GPU,問題會變得多得多。

尤其是一些提前沒預(yù)料到的小概率問題,在大規(guī)模計(jì)算時會捅出大亂子。

最容易出問題的就是算力基礎(chǔ)設(shè)施,由于他們的數(shù)據(jù)量實(shí)在是太大了,有些問題連硬件制造商都沒遇見過。

網(wǎng)絡(luò)架構(gòu)、單個加速器,這些都會出問題?!肝覀兊墓ぷ骶褪潜M量把這些變量的波動降到最低?!?/p>

另一個問題是探索前沿科技這件事本身就很難。

在訓(xùn)練GPT-4.5時,OpenAI投入了幾百人的努力,耗費(fèi)了大量的時間,幾乎是all in。

但如果他們現(xiàn)在重新訓(xùn)練一個GPT-4水平的模型,大概只需要5到10個人就可以搞定。

專注于數(shù)據(jù)效率和算法的Dan說,「我覺得做任何新東西都難。但是當(dāng)你知道別人已經(jīng)做成過某件事,難度就會大大降低」。

「因?yàn)樽铍y的部分是下定決心去做一件事。知道某件事是可行的,簡直就像開了掛,瞬間就容易多了。」

Dan接著表示,如果想要將訓(xùn)練規(guī)模再擴(kuò)大10倍甚至是100倍,數(shù)據(jù)就會成為瓶頸,這時候就需要一些算法上的創(chuàng)新,讓模型能用更多的算力從同樣的數(shù)據(jù)里學(xué)到更多東西。

torch.sum bug趣事

研究團(tuán)隊(duì)在GPT-4.5的訓(xùn)練中,發(fā)現(xiàn)了一些特別有趣的事情。

比如,在訓(xùn)練過程中不斷地優(yōu)化機(jī)器學(xué)習(xí)算法,做出一些調(diào)整。

尤其是團(tuán)隊(duì)解決了一些關(guān)鍵問題后,他們看到了模型性能的大幅提升。

那一刻,整個團(tuán)隊(duì)的能量都不一樣了,大家都特別興奮,動力滿滿,要把最后階段沖刺完成。

打開網(wǎng)易新聞 查看精彩圖片

「那一刻真的很震撼。這對團(tuán)隊(duì)士氣的提升,真的特別美妙?!?/p>

現(xiàn)場OpenAI的首席系統(tǒng)架構(gòu)師Amin Chian分享了一個「torch.sum bug」趣事。

在訓(xùn)練過程中遇到bug是常事,通常是找一下到底是硬件故障、數(shù)據(jù)損壞,還是機(jī)器學(xué)習(xí)相關(guān)的Bug。

但在訓(xùn)練GPT-4.5時,有一次好幾個問題一直都沒有解決。

大家沒辦法就在一起討論研究這些問題到底是由不同的Bug引起的,還是同一個Bug導(dǎo)致的。

他們圍著桌子投票。結(jié)果呢?后來確定的那個Bug在當(dāng)時得票最少!

就是個簡單的「torch.sum」Bug,來自上游的PyTorch庫,大家都覺得太不可思議了。

所有的問題都被這一行代碼給解決了,真的特別有趣。

為了慶祝,他們還把Slack頻道從「多Bug理論」改成了「單Bug理論」,那場面可熱鬧了。

這個Bug的觸發(fā)頻率特別低,可能每100步、1000步才出一次問題,特別容易被忽略。

但他們有條紀(jì)律,在訓(xùn)練過程中不能容忍這種問題出現(xiàn)。

整個過程就是一個堅(jiān)持不放棄的故事。


壓縮即智能

幾十年來,深度學(xué)習(xí)的核心一直是提升算力效率。而且,每一次小的改進(jìn),都能帶來顯著的疊加效應(yīng)。

世界上各地不同的人發(fā)現(xiàn)一個提升10%效率的技巧,另一個提出提升20%的優(yōu)化,這些看似微小的進(jìn)步累積起來,就能徹底改變模型的表現(xiàn)。

過去,因算力受限,數(shù)據(jù)效率的研究顯得并不劃算。但如今,數(shù)據(jù)效率每一次突破都將可能成為AI發(fā)展的臨界點(diǎn)。

因此,現(xiàn)在就去預(yù)測AI會有瓶頸,有點(diǎn)不明智。

他們還認(rèn)為更好的預(yù)訓(xùn)練和無監(jiān)督學(xué)習(xí)能全面提升模型的智能,幫助模型更好地泛化,這一點(diǎn)跟現(xiàn)在模型的推理能力很是互補(bǔ)。

預(yù)訓(xùn)練本質(zhì)上是在壓縮數(shù)據(jù)。壓縮數(shù)據(jù)意味著發(fā)現(xiàn)不同事物之間的聯(lián)系、類比和抽象。而推理則針對某個具體問題,需要一種謹(jǐn)慎思考的技巧。

這種謹(jǐn)慎思考能解鎖很多不同領(lǐng)域的問題,但預(yù)訓(xùn)練在跨領(lǐng)域壓縮數(shù)據(jù)時,學(xué)到的是一種更抽象的東西。

為什么無監(jiān)督學(xué)習(xí)會有效?研究員們的答案是「壓縮」。

可以說,理想的智能形態(tài)就是所謂的「所羅門諾夫歸納」(Solomonov induction)。

簡單來說,模型更傾向于簡潔的解釋。與此同時,它嚴(yán)格遵循貝葉斯原理,把所有可能性都記住,隨時根據(jù)新信息更新自己的回答。

而他們現(xiàn)在做的預(yù)訓(xùn)練——或者說理解預(yù)訓(xùn)練的一個視角——就是在做這種「壓縮」。

試圖找到一個最短的程序(或者模型),來解釋所有的數(shù)據(jù),以此作為對理想智能的一種近似。

Scaling Law是宇宙法則

在播客的最后,奧特曼表示,訓(xùn)練GPT-4.5的整個過程,花了無數(shù)的人力、時間和金錢,其實(shí)可以看成是一場實(shí)驗(yàn)。

一場驗(yàn)證Scaling Law是不是還成立的實(shí)驗(yàn)。

結(jié)果他們發(fā)現(xiàn),Scaling Law不僅有效,而且還可能會持續(xù)很長時間。

打開網(wǎng)易新聞 查看精彩圖片

奧特曼說他接受Scaling Law就像接受量子力學(xué)一樣,還不明白為什么Scaling Law會是一種宇宙的規(guī)律。

對此Dan試著解釋說,模型數(shù)據(jù)壓縮得越多,智能就越高,這個有很強(qiáng)的哲學(xué)依據(jù)。

他自己比較喜歡的一個解釋是,世界上數(shù)據(jù)的「關(guān)鍵概念」是稀疏的,符合冪律分布(power law)。

比如,第100個重要的概念,可能在每100個文檔里只出現(xiàn)一次。

也就是說數(shù)據(jù)有很強(qiáng)的「長尾效應(yīng)」。

所以現(xiàn)實(shí)是,如果你想抓到「尾巴」里下一個重要的東西,可能得把算力和數(shù)據(jù)量翻個十倍。

而這個尾巴還很長,可以一直挖下去。

參考資料:

https://x.com/sama/status/1910363434241450171

https://www.youtube.com/watch?v=6nJZopACRuQ