機(jī)器之心報(bào)道
編輯:蛋醬
眾所周知,人工智能在過去十五年里取得了令人難以置信的進(jìn)步,尤其是在最近五年。
回顧一下人工智能的「四大發(fā)明」吧:深度神經(jīng)網(wǎng)絡(luò)→Transformer 語言模型→RLHF→推理,基本概括了 AI 領(lǐng)域發(fā)生的一切。
我們有了深度神經(jīng)網(wǎng)絡(luò)(主要是圖像識(shí)別系統(tǒng)),然后是文本分類器,然后是聊天機(jī)器人,現(xiàn)在我們又有了推理模型。領(lǐng)域內(nèi)的進(jìn)步一直在持續(xù) —— 盡管范式轉(zhuǎn)變級(jí)別的重大突破并不常見,但我們堅(jiān)信能在緩慢而穩(wěn)定的發(fā)展中前進(jìn)。
值得深思的問題來了:下一個(gè)重大突破會(huì)是什么?取決于什么?
康奈爾大學(xué) (科技校區(qū)) 博士生JACK MORRIS發(fā)表了一個(gè)新穎的觀點(diǎn):從 2012 年到現(xiàn)在,AI 的根本性突破并非來自全新的算法創(chuàng)新,而是來自我們能夠利用的新數(shù)據(jù)源和更好的數(shù)據(jù)利用方式。

博客地址:https://substack.com/home/post/p-160974493
所以他認(rèn)為人工智能的下一個(gè)范式突破可能要依靠視頻數(shù)據(jù)(尤其是 YouTube)和實(shí)體世界數(shù)據(jù)(機(jī)器人)。
讓我們看看作者是如何分析的:
事實(shí)上,一些研究人員最近提出了「人工智能的摩爾定律」,即計(jì)算機(jī)執(zhí)行某些任務(wù)(在這里指的是某些類型的編碼任務(wù))的能力將隨著時(shí)間的推移呈指數(shù)級(jí)增長:

「人工智能摩爾定律」。(順便說一句,任何認(rèn)為到 2025 年 4 月就能在無人干預(yù)的情況下運(yùn)行自主智能體一小時(shí)的人都是在自欺欺人。)
雖然出于種種原因,我并不認(rèn)同這種說法,但我無法否認(rèn)人工智能的進(jìn)步趨勢(shì)。每年,我們的人工智能都會(huì)變得更智能、更快速、更便宜,而且這種趨勢(shì)尚未看到盡頭。
大多數(shù)人認(rèn)為,這種持續(xù)的進(jìn)步來自于學(xué)術(shù)界(主要是麻省理工學(xué)院、斯坦福大學(xué)、卡內(nèi)基梅隆大學(xué))和工業(yè)界(主要是 Meta、谷歌和少數(shù)中國實(shí)驗(yàn)室)研究界的穩(wěn)定 idea 供給,同時(shí)還有很多在其他地方進(jìn)行的研究是我們永遠(yuǎn)無法了解的。
研究方面確實(shí)取得了很大進(jìn)展,尤其是在系統(tǒng)方面。這尤其體現(xiàn)在如何降低模型成本。這里挑選幾個(gè)值得關(guān)注的例子:
2022 年,斯坦福大學(xué)的研究人員提出了FlashAttention,這是一種在語言模型中更好地利用記憶的方法,這種方法幾乎在任何地方都有使用;
2023 年,谷歌的研究人員開發(fā)了推測(cè)解碼,所有模型提供商都使用它來加速推理(也是 DeepMind 開發(fā)的,貌似是同時(shí)進(jìn)行的);
2024 年,一群互聯(lián)網(wǎng)狂熱分子開發(fā)了 Muon ,它似乎是一個(gè)比 SGD 或 Adam 更好的優(yōu)化器,并可能成為未來訓(xùn)練語言模型的方式;
2025 年,DeepSeek 發(fā)布了 DeepSeek-R1 ,這是一個(gè)開源模型,其推理能力與人工智能實(shí)驗(yàn)室(特別是谷歌和 OpenAI)的類似閉源模型相當(dāng)。
人們?cè)诓粩嗵剿?,現(xiàn)實(shí)也很酷:大家參與的是去中心化的全球化科學(xué)研究,研究成果會(huì)在 arXiv 、學(xué)術(shù)會(huì)議和社交媒體上公開分享。
如果我們正在進(jìn)行如此多重要的研究,為什么有些人認(rèn)為進(jìn)展正在放緩?引起人們抱怨的是,最新的兩個(gè)大模型 Grok 3 和 GPT-4.5 ,在此前的基礎(chǔ)上僅取得了微小的改進(jìn)。一個(gè)尤為突出的例子是,在最新的數(shù)學(xué)奧林匹克考試中,語言模型的得分僅為 5%,這表明最近的聲明在報(bào)告系統(tǒng)能力時(shí)可能被夸大了。
人工智能「四大發(fā)明」
如果我們?cè)噲D記錄那些「重大」的突破,那些真正的范式轉(zhuǎn)變,它們似乎正在以不同的速度發(fā)生。
1. 深度神經(jīng)網(wǎng)絡(luò):深度神經(jīng)網(wǎng)絡(luò)在 2012 年AlexNet模型贏得圖像識(shí)別競(jìng)賽后開始起飛;
2. Transformer + 大語言模型:2017 年谷歌在《Attention Is All You Need》中提出了 Transformer,導(dǎo)致了 BERT(谷歌,2018)和原始 GPT(OpenAI,2018)的誕生;
3. RLHF(基于人類反饋的強(qiáng)化學(xué)習(xí)):據(jù)我所知,最早在 OpenAI 2022 年的 InstructGPT 論文中提出;
4. 推理:2024 年 OpenAI 發(fā)布了 o1,隨后 DeepSeek 發(fā)布了 R1。
其實(shí),這四件事(深度神經(jīng)網(wǎng)絡(luò)→Transformer 語言模型→RLHF→推理)就概括了 AI 領(lǐng)域發(fā)生的一切:我們有了深度神經(jīng)網(wǎng)絡(luò)(主要是圖像識(shí)別系統(tǒng)),然后是文本分類器,然后是聊天機(jī)器人,現(xiàn)在我們有了推理模型(不管那是什么)。
假設(shè)想要實(shí)現(xiàn)第五次這樣的突破,研究一下已有的這四個(gè)案例可能會(huì)有所幫助。
是什么新的研究 idea 導(dǎo)致了這些突破性事件?所有這些突破的基礎(chǔ)機(jī)制在 1990 年代甚至更早就已存在,這并不荒謬。我們正在應(yīng)用相對(duì)簡單的神經(jīng)網(wǎng)絡(luò)架構(gòu),進(jìn)行有監(jiān)督學(xué)習(xí)(1 和 2)或強(qiáng)化學(xué)習(xí)(3 和 4)。
交叉熵的有監(jiān)督學(xué)習(xí),即預(yù)訓(xùn)練語言模型的主要方式,源自 1940 年代 Claude Shannon 的工作。強(qiáng)化學(xué)習(xí)是通過強(qiáng)化學(xué)習(xí)高頻訓(xùn)練(RLHF)和推理訓(xùn)練對(duì)語言模型進(jìn)行后期訓(xùn)練的主要方法,它出現(xiàn)得稍微晚一些。它的出現(xiàn)可以追溯到 1992 年策略梯度方法的引入(這些 idea 在 1998 年 Sutton & Barto 出版的《強(qiáng)化學(xué)習(xí)》教科書第一版時(shí)就已經(jīng)存在了)。
如果 idea 不是新的?那什么是?
這些「重大突破」可以說是我們已知一段時(shí)間的東西的新應(yīng)用。首先,這意味著「下一個(gè)重大突破」可能不會(huì)來自一個(gè)全新的 idea,而是我們已經(jīng)知道一段時(shí)間的東西的重新浮現(xiàn)。
但這里缺失一個(gè)部分 —— 這四次突破中的每一次都使我們能夠從新的數(shù)據(jù)源學(xué)習(xí):
1. AlexNet 及其后續(xù)工作解鎖了 ImageNet,一個(gè)大型的分類標(biāo)簽圖像數(shù)據(jù)庫,推動(dòng)了計(jì)算機(jī)視覺十五年來的進(jìn)步 ;
2. Transformer 解鎖了在「互聯(lián)網(wǎng)」上的訓(xùn)練,以及下載、分類和解析網(wǎng)絡(luò)上所有文本的競(jìng)賽(現(xiàn)在看來我們大部分已經(jīng)完成);
3. RLHF 讓我們可以從表明什么是「好文本」的人類標(biāo)簽中學(xué)習(xí)(主要是一種感覺);
4. 推理似乎讓我們從「驗(yàn)證器」中學(xué)習(xí),比如計(jì)算器和編譯器,它們可以評(píng)估語言模型的輸出。
提醒自己,這些里程碑中的每一個(gè)都標(biāo)志著各自的數(shù)據(jù)源(ImageNet、網(wǎng)絡(luò)、人類、驗(yàn)證器)首次大規(guī)模使用。每個(gè)里程碑之后都緊隨著一陣瘋狂的活動(dòng):研究人員競(jìng)爭 (a) 從任何可用來源汲取剩余的有用數(shù)據(jù)和 (b) 通過新技巧更好地利用已有數(shù)據(jù),使我們的系統(tǒng)更高效、對(duì)數(shù)據(jù)需求更少。
預(yù)計(jì)我們將在 2025 年和 2026 年看到這種趨勢(shì)在推理模型中出現(xiàn),因?yàn)檠芯咳藛T正競(jìng)相尋找、分類和驗(yàn)證一切可能被驗(yàn)證的東西。

研究者創(chuàng)建了 ImageNet (當(dāng)時(shí)最大的網(wǎng)絡(luò)公共圖像集),人工智能的進(jìn)步可能是不可避免的。
新 idea 有多重要?
在這些情況下,我們實(shí)際的技術(shù)創(chuàng)新可能不會(huì)產(chǎn)生巨大差異,這一點(diǎn)值得一提。檢視一下反事實(shí)。如果我們沒有發(fā)明 AlexNet,也許另一種能處理 ImageNet 的架構(gòu)會(huì)出現(xiàn)。如果我們從未發(fā)現(xiàn) Transformer,也許我們會(huì)采用 LSTM 或 SSM,或者找到其他全新的方式來從我們?cè)诰W(wǎng)絡(luò)上可用的大量有用訓(xùn)練數(shù)據(jù)中學(xué)習(xí)。
這與一些人認(rèn)為「除了數(shù)據(jù)之外什么都不重要」的理論一致。一些研究人員觀察到,對(duì)于我們所做的所有訓(xùn)練技術(shù)、建模技巧和超參數(shù)調(diào)整,總體上產(chǎn)生最大差異的是改變數(shù)據(jù)。
一個(gè)有趣的例子是,一些研究人員致力于使用 Transformer 以外的架構(gòu)開發(fā)一種新的類 BERT 模型。他們花了大約一年時(shí)間以數(shù)百種不同方式調(diào)整架構(gòu),并設(shè)法創(chuàng)造出一種不同類型的模型(這是一種狀態(tài)空間模型或 SSM),當(dāng)在相同數(shù)據(jù)上訓(xùn)練時(shí),其性能與原始 Transformer 大致相當(dāng)。
這一發(fā)現(xiàn)的等價(jià)性真正深刻,因?yàn)樗凳玖宋覀兛赡軓慕o定數(shù)據(jù)集中學(xué)習(xí)到的東西有一個(gè)上限。世界上所有的訓(xùn)練技巧和模型升級(jí)都無法繞過這個(gè)冷酷的事實(shí),即從給定的數(shù)據(jù)集中只能學(xué)到這么多。
也許,對(duì)新 idea 的漠不關(guān)心就是我們應(yīng)該從《苦澀的教訓(xùn)》中得到的。如果數(shù)據(jù)是唯一重要的東西,為什么 95% 的人都在研究新方法?
下一個(gè)范式轉(zhuǎn)變從何而來?
會(huì)是 YouTube 嗎?
顯而易見的結(jié)論是,我們的下一個(gè)范式轉(zhuǎn)變不會(huì)來自強(qiáng)化學(xué)習(xí)的改進(jìn)或一種奇特的新型神經(jīng)網(wǎng)絡(luò),而是會(huì)出現(xiàn)在我們解鎖以前未曾訪問或未能適當(dāng)利用的數(shù)據(jù)源時(shí)。
許多人正在努力利用的一個(gè)明顯信息源是視頻。根據(jù)網(wǎng)絡(luò)上的一個(gè)隨機(jī)網(wǎng)站,每分鐘約有 500 小時(shí)的視頻上傳到 YouTube。這是一個(gè)荒謬的數(shù)據(jù)量,比整個(gè)互聯(lián)網(wǎng)上可用的文本多得多。它也可能是一個(gè)更豐富的信息源,因?yàn)橐曨l不僅包含單詞,還包含它們背后的語調(diào)以及關(guān)于物理和文化的豐富信息,這些都無法從文本中獲得。
可以肯定地說,一旦我們的模型足夠高效,或者我們的計(jì)算機(jī)變得足夠強(qiáng)大,谷歌就會(huì)開始在 YouTube 上訓(xùn)練模型。畢竟,他們擁有這個(gè)平臺(tái);不利用這些數(shù)據(jù)為自己謀利將是愚蠢的。
AI 下一個(gè)「范式」的最后一個(gè)競(jìng)爭者是某種具身化的數(shù)據(jù)收集系統(tǒng) —— 或者,用普通人的話來說,機(jī)器人。目前,我們無法以適合在 GPU 上訓(xùn)練大型模型的方式從攝像頭和傳感器收集和處理信息。如果我們能夠構(gòu)建更智能的傳感器或擴(kuò)展我們的計(jì)算機(jī)直到它們能夠輕松處理來自機(jī)器人的大量數(shù)據(jù)涌入,我們可能能夠以有益的方式使用這些數(shù)據(jù)。
很難說 YouTube、機(jī)器人還是其他什么東西將成為 AI 的下一個(gè)大事件。我們現(xiàn)在似乎深深扎根于語言模型陣營,但我們似乎也很快就會(huì)用盡語言數(shù)據(jù)。
但如果我們想在 AI 方面取得進(jìn)步,也許我們應(yīng)該停止尋找新想法,開始尋找新數(shù)據(jù)!
熱門跟貼