
谷歌憑借Gemini 2.5 pro已經(jīng)徹底翻身,經(jīng)過這段時(shí)間各路大神的深度使用和評測,基本上已經(jīng)鎖定大模型top1,除了優(yōu)秀的寫作能力以外,編程能力更是打遍無敵手,最重要的Gemini一直以來基本是免費(fèi)給所有人用,連API都免費(fèi)
今天有幸看到了一份來自Google內(nèi)部的技術(shù)分享,主講人是Vlad Feinberg,谷歌Gemini Flash Pretraining的負(fù)責(zé)人。這份PPT信息量爆炸,深入探討了Gemini預(yù)訓(xùn)練背后的核心邏輯、挑戰(zhàn)以及未來方向,特別是如何在算力、數(shù)據(jù)、模型大小和推理成本之間找到那個(gè)微妙的平衡點(diǎn)。下面,我就帶大家深度解讀一下這份干貨,一探Gemini 背后的訓(xùn)練故事
關(guān)于大模型的預(yù)訓(xùn),我們熟知的Scaling Laws(縮放定律)只是故事的一部分
ppt:
https://vladfeinberg.com/assets/2025-04-24-princeton-talk.pdf

一、告別“經(jīng)驗(yàn)主義”:從Kaplan到Chinchilla的認(rèn)知革命
還記得大模型訓(xùn)練的那個(gè)經(jīng)典問題嗎?給你一筆固定的算力C(比如1000塊H100用30天),怎么訓(xùn)練出最強(qiáng)的LLM?模型參數(shù)N該多大?訓(xùn)練數(shù)據(jù)D該多少?
早期,大家主要參考Kaplan等人在2020年提出的Scaling Laws。他們的研究發(fā)現(xiàn),模型性能與算力、參數(shù)量、數(shù)據(jù)量之間存在冪律關(guān)系,并且強(qiáng)烈建議優(yōu)先擴(kuò)大模型參數(shù)N。具體來說,算力提升10倍,參數(shù)N建議擴(kuò)大5.37倍,而數(shù)據(jù)D只需擴(kuò)大1.86倍。這直接點(diǎn)燃了軍備競賽,大家瘋狂堆參數(shù)

但是,Google DeepMind (GDM) 在2022年3月發(fā)布的Chinchilla(龍貓)論文,給這個(gè)“參數(shù)為王”的時(shí)代潑了一盆冷水
Chinchilla團(tuán)隊(duì)指出,Kaplan的研究方法(基于單次訓(xùn)練中的中間loss點(diǎn)來推斷)存在缺陷,忽略了學(xué)習(xí)率衰減等優(yōu)化帶來的好處,只有最終的loss才最能反映模型真實(shí)水平
他們采用了更嚴(yán)謹(jǐn)?shù)?strong>IsoFlops方法:
1. 固定總算力C
2. 訓(xùn)練多個(gè)不同參數(shù)N的模型(對應(yīng)不同的數(shù)據(jù)量D,因?yàn)镃 ≈ 6 * N * D)
3. 找到這個(gè)算力下,loss最低的那個(gè)模型N_opt(C)和D_opt(C)
4. 重復(fù)以上步驟,得到不同算力C下的最優(yōu)(N, D)點(diǎn)
5. 擬合這些最優(yōu)點(diǎn)的關(guān)系
- 打開網(wǎng)易新聞 查看精彩圖片
Chinchilla的驚人發(fā)現(xiàn)是:模型參數(shù)N和數(shù)據(jù)量D應(yīng)該以大致相同的速率(指數(shù)約為0.5)隨算力C增長! 這意味著,按照Kaplan定律訓(xùn)練出來的很多大模型,其實(shí)是“訓(xùn)練不足(Undertrained)”的!模型太大,數(shù)據(jù)相對太少,潛力沒發(fā)揮出來。更糟糕的是,這些“虛胖”的大模型,推理成本極高,部署和使用起來非常昂貴

二、推理成本,不能承受之重!
為什么Chinchilla強(qiáng)調(diào)的“訓(xùn)練不足”和推理成本如此重要?因?yàn)榇竽P妥罱K是要用的!
看看Google內(nèi)部的應(yīng)用場景:
1.高通量服務(wù):像搜索AI Overviews、免費(fèi)的Gemini App(聊天機(jī)器人)、企業(yè)級Vertex AI平臺(tái)、AI Studio API等,用戶量巨大
2.實(shí)時(shí)交互:Project Astra、Project Mariner這類需要即時(shí)響應(yīng)的多模態(tài)應(yīng)用。
這些場景,尤其是實(shí)時(shí)交互,對模型的推理延遲有著極其苛刻的要求
Vlad Feinberg現(xiàn)場做了一個(gè)簡單的“餐巾紙計(jì)算”(Napkin Math):假設(shè)一個(gè)需要實(shí)時(shí)交互的Web Agent,上下文128k,每次交互處理8k新token,生成128個(gè)token,要求延遲在1秒內(nèi),再去掉250毫秒的網(wǎng)絡(luò)和處理開銷... 用Llama3-70B這樣的模型在谷歌的v5e芯片上跑,光是處理8k新token(Prefill)就需要近6秒(單芯),即使動(dòng)用4x4=16塊芯片并行,也才勉強(qiáng)壓到0.5秒左右。而生成階段(Decode)更是受到內(nèi)存帶寬的嚴(yán)重制約,每生成一個(gè)token可能就需要好幾毫秒
結(jié)論:對于低延遲場景,70B參數(shù)的模型可能都太大了! 我們需要更小、更快的模型,也就是像Gemini Flash/Flash-lite這樣的“小鋼炮”

傳統(tǒng)的Scaling Law研究,往往只關(guān)注訓(xùn)練loss,完全忽略了推理成本,這在實(shí)際應(yīng)用中是行不通的
三、邁向新范式:推理感知(Inference-Aware)的Scaling Laws
既然推理成本如此重要,有沒有更科學(xué)的方法來指導(dǎo)預(yù)訓(xùn)練呢?答案是肯定的。
Sardana等人在2024年提出了“推理感知”的Scaling Laws。核心思想是:不再僅僅最小化訓(xùn)練loss,而是要優(yōu)化“總成本”,這個(gè)總成本包括了訓(xùn)練成本和生命周期內(nèi)的總推理成本
其數(shù)學(xué)形式更復(fù)雜,需要考慮訓(xùn)練和推理使用的硬件(MFU不同)、輸入/輸出token量(D_inp, D_out)等因素

但結(jié)論很明確:
考慮到推理成本后,最優(yōu)的模型往往比Chinchilla定律建議的更小,但需要用更多的數(shù)據(jù)(或重復(fù)訓(xùn)練更久)!

當(dāng)然,這種新范式也面臨挑戰(zhàn):
1.硬件非同質(zhì)性:訓(xùn)練和推理芯片不同,成本難統(tǒng)一衡量
2.推理量D_inf難以預(yù)測:模型變好會(huì)刺激更多使用(杰文斯悖論),市場會(huì)擴(kuò)張
3.Scaling Law擬合本身不完美:尤其在數(shù)據(jù)量極大或極小的情況下,擬合誤差可能很大
為了解決擬合問題,Muennighoff等人(2023)提出了考慮數(shù)據(jù)約束的Scaling Law,引入了唯一數(shù)據(jù)量U和重復(fù)次數(shù)R的概念 L(N, U, R)。研究發(fā)現(xiàn),重復(fù)數(shù)據(jù)的收益會(huì)快速下降。這意味著,在數(shù)據(jù)有限的情況下,更小的模型對數(shù)據(jù)重復(fù)利用更有效

那如果數(shù)據(jù)“無限”呢?Llama3訓(xùn)練了15T token還在提升,似乎說明對于開源模型,只要算力允許,可以一直用所有數(shù)據(jù)訓(xùn)練下去。但這是否是最優(yōu)策略?用數(shù)據(jù)受限定律可以反推,如果用更少、更精的數(shù)據(jù),達(dá)到同樣效果能節(jié)省多少算力?達(dá)到Llama3 8B模型的loss,可能只需原來72%的算力
四、新維度:蒸餾與其他
除了模型大小、數(shù)據(jù)量、推理成本,模型蒸餾(Distillation)也成為了一個(gè)重要的研究方向。Busbridge等人(2025)正在研究蒸餾的Scaling Laws,試圖量化教師模型和學(xué)生模型之間的成本與性能關(guān)系
如何用有限的算力訓(xùn)練出“小而精”的學(xué)生模型?教師模型的能力上限、學(xué)生模型的“容量差距”、蒸餾過程中的技巧(如溫度控制)等,都是需要探索的問題。一個(gè)有趣的觀點(diǎn)是,蒸餾本質(zhì)上是一種方差縮減,好的教師模型能提供更穩(wěn)定的學(xué)習(xí)信號,減少學(xué)生模型學(xué)習(xí)的“噪聲”。
觀點(diǎn)總結(jié)
總結(jié)一下Vlad Feinberg分享的核心觀點(diǎn):
Scaling研究兩大方向:
1. 提升曲線:在給定的模型大小下,做到更好的性能
2. 增加斜率:讓模型性能隨規(guī)模增長得更快
Gemini的策略:類似“Tick-Tock”,用Flash版本追趕上一代Pro版本的性能,不斷優(yōu)化推理效率
推理效率是關(guān)鍵:壓縮技術(shù)(更好的蒸餾、量化、服務(wù)友好型模型設(shè)計(jì))與Scaling研究同等重要
低成本研究機(jī)遇:
硬件感知Kernel優(yōu)化:為特定硬件寫算子,比如下一代Flash Attention
量化新前沿:超越傳統(tǒng)的向量量化
FunSearch類方法:用LLM輔助搜索更好的模型結(jié)構(gòu)或訓(xùn)練策略
更魯棒的Scaling Laws:引入更多維度(如數(shù)據(jù)質(zhì)量、重復(fù)度),使用更嚴(yán)謹(jǐn)?shù)慕y(tǒng)計(jì)模型(如MLE vs. 最小二乘),甚至用主動(dòng)學(xué)習(xí)來選擇最優(yōu)的(N, D)實(shí)驗(yàn)點(diǎn)

如果你對這個(gè)話題感興趣,可以去查閱PPT中提到的幾篇關(guān)鍵論文(Kaplan 2020, Chinchilla 2022, Sardana 2024, Muennighoff 2023, Busbridge 2025等
ppt地址再次奉上:
https://vladfeinberg.com/assets/2025-04-24-princeton-talk.pdf
免責(zé)聲明:本文基于公開可獲取的Google內(nèi)部技術(shù)分享PPT進(jìn)行解讀,旨在傳遞技術(shù)信息,不代表Google官方立場。所有解讀基于博主個(gè)人理解,如有偏差敬請指正
?星標(biāo)AI寒武紀(jì),好內(nèi)容不錯(cuò)過?
用你的贊和在看告訴我~
求贊
熱門跟貼