
新智元報道
編輯:編輯部 HYZ
【新智元導(dǎo)讀】太戲劇了!攻擊字節(jié)訓(xùn)練集群的實習生,居然剛剛獲得了NeurIPS 2024最佳論文獎?雖然看起來像爽文劇情,但這位高材生接下來的路,應(yīng)該是難走了。
剛剛,惡意攻擊字節(jié)訓(xùn)練集群的實習生田柯宇,獲得了NeurIPS 2024的最佳論文獎。

更巧的是,這篇獲獎?wù)撐?,恰恰就是他在字?jié)商業(yè)化技術(shù)部門實習期間與團隊合作發(fā)表的。
甚至,這篇論文還是NeurIPS 2024第六高分的論文(7,8,8,8)。

事情在網(wǎng)上曝出的時候,網(wǎng)友們都震驚了:太有戲劇性了,這是什么短劇的大反轉(zhuǎn)劇情!
根據(jù)網(wǎng)友的說法,田柯宇的這篇論文也是國內(nèi)第二篇NeurIPS Best Paper,含金量很高。
在此之前,他就已經(jīng)有多篇論文中稿頂會。
比如被引次數(shù)最多的「Designing BERT for Convolutional Networks: Sparse and Hierarchical Masked Modeling」,就是ICLR 2023的Spotlight。此外還有,NeurIPS 2021和2020的Poster,ECCV 2020的Poster。

據(jù)新智元了解,字節(jié)商業(yè)化技術(shù)團隊早在去年就把視覺自回歸模型作為重要的研究方向,團隊規(guī)劃了VAR為高優(yōu)項目,投入研究小組和大量資源。
除了VAR,團隊還發(fā)表了LlamaGen等相關(guān)技術(shù)論文,新的研究成果也將在近期陸續(xù)放出。
事件始末:惡意注入代碼,投毒模型訓(xùn)練
回看整件事情,可謂反轉(zhuǎn)又反轉(zhuǎn)。
兩個月前,圈內(nèi)人都被這樣一條消息驚掉下巴:「字節(jié)跳動大模型訓(xùn)練被北大實習生攻擊,損失巨大」。
什么仇什么怨,要做這樣的事?
網(wǎng)友們扒出來,事情起因是這位北大高材生在字節(jié)實習期間對團隊感到不滿,一氣之下選擇了「投毒」。
具體來說,他利用了Huggingface的load ckpt函數(shù)漏洞,craft了一個看似正常的ckpt文件,但其實是加了payload進去,然后就可以遠程執(zhí)行代碼,修改參數(shù)了。
這種攻擊方式,可以通過修改或注入惡意代碼,使模型在加載時被篡改模型權(quán)重、修改訓(xùn)練參數(shù)或截取模型數(shù)據(jù)。
根據(jù)大V「Jack Cui」猜測,這位實習生所用的大概就是這個方法,注入代碼動態(tài)修改別人的optimer,修改參數(shù)梯度的方向,以及在各種地方隨機sleep了一小段時間。
修改梯度方向,意味著模型反向傳播過程中計算出的梯度被篡改,就導(dǎo)致模型一直朝錯誤的方向優(yōu)化;而sleep操作,也會明顯降低模型訓(xùn)練的速度。
甚至有人提到,該實習生可能修改了自己的預(yù)訓(xùn)練模型,因為模型參數(shù)是用ckpt文件保存的,其他人訓(xùn)練時會加載這個注入惡意代碼的ckpt文件,因此也會導(dǎo)致模型訓(xùn)練出問題。
就在全網(wǎng)嘆為觀止之時,田本人卻出來「辟謠」稱這事和自己沒關(guān)系——他發(fā)完論文后已經(jīng)從字節(jié)離職了,此時有另一個人鉆了漏洞修改模型代碼,然后趁他離職把鍋扣在他頭上。
結(jié)果一個多月后,此事再一次迎來反轉(zhuǎn)。
有媒體報道稱,法院已經(jīng)正式受理字節(jié)跳動對前實習生田某某的起訴。
法院判令田某某賠償侵權(quán)損失800萬元及合理支出2萬元,同時要求其公開賠禮道歉。
字節(jié)官方也澄清說,涉事實習生破壞的是團隊研究項目,并不影響商業(yè)化正式項目,也不涉及字節(jié)跳動大模型等其他業(yè)務(wù)。
最終,這位實習生被字節(jié)辭退,交由校方處理。

資料顯示,田柯宇本科畢業(yè)于北航軟件學院,研究生就讀于北大,師從王立威教授,研究興趣為深度學習的優(yōu)化與算法。
自2021年起,開始在字節(jié)跳動實習研究,具體包括超參數(shù)優(yōu)化、強化學習算法、自監(jiān)督的新型算法。


超越擴散,VAR開啟視覺自回歸模型新范式
這項研究中,他們提出了一種全新范式——視覺自回歸建模(Visual Autoregressive Modeling,VAR)。

論文地址:https://arxiv.org/abs/2404.02905
與傳統(tǒng)的光柵掃描「下一個token預(yù)測」方法有所不同,它重新定義了圖像上的自回歸學習,采用粗到細的「下一個尺度預(yù)測」或「下一個分辨率預(yù)測」。
這種簡單直觀的方法使得自回歸(AR)Transformer能夠快速學習視覺分布,并且具有較好的泛化能力:VAR首次使得類似GPT的AR模型在圖像生成中超越了擴散Transformer。

當前,自回歸模型(AR)主要用于語言模型從左到右、逐字順序生成文本token。同時,也用于圖像生成中,即以光柵掃描的順序從左到右,從上到下順序生成圖像token。

不過,這些AR模型的scaling law未得到充分的探索,而且性能遠遠落后于擴散模型,如下圖3所示。
與語言模型所取得成就相比,計算機視覺中的自回歸模型的強大能力卻被「禁錮」了起來。

而自回歸建模需要定義數(shù)據(jù)的順序,北大字節(jié)團隊研究中重新考慮了如何「排序」圖像:人類通常以分層方式感知或創(chuàng)建圖像,首先捕獲全局結(jié)構(gòu),然后捕獲局部細節(jié)。
這種多尺度、由從粗到細的本質(zhì),為圖像提供了一種「秩序」。
同樣,受到廣泛使用的多尺度設(shè)計的啟發(fā),研究人員將圖像的自回歸學習定義為圖2(c)中的「下一個尺度預(yù)測」,不同于傳統(tǒng)圖2(b)中的「下一個token的預(yù)測」。
VAR方法首先將圖像編碼為多尺度的token映射,然后,自回歸過程從1×1token映射開始,并逐步擴展分辨率。
在每一步中,Transformer會基于之前所有的token映射去預(yù)測下一個更高分辨率的token映射。
由此,研究人員將此稱為視覺自回歸建模(VAR)。
VAR包括兩個獨立的訓(xùn)練階段:在圖像上訓(xùn)練多尺度VQVAE,在token上訓(xùn)練VAR Transformer。
第一階段,多尺度VQ自動編碼器將圖像編碼為K個token映射R=(r_1,r_2,…,r_K),并通過復(fù)合損失函數(shù)進行訓(xùn)練。
第二階段,通過下一尺度預(yù)測對VAR Transformer進行訓(xùn)練:它以低分辨率token映射 ([s],r_1,r_2,…,r_K?1)作為輸入,預(yù)測更高分辨率的token映射 (r_1,r_2,r_3,…,r_K)。訓(xùn)練過程中,使用注意力掩碼確保每個r_k僅能關(guān)注 r_≤k。訓(xùn)練目標采用標準的交叉熵損失函數(shù),用于優(yōu)化預(yù)測精度。

田柯宇團隊在ImageNet 256×256和512×512條件生成基準上測試了深度為16、20、24和30的VAR模型,并將其與最先進的圖像生成模型家族進行比較,包括生成對抗網(wǎng)絡(luò)(GAN)、擴散模型(Diff.)、BERT 風格的掩碼預(yù)測模型(Mask.)和 GPT 風格的自回歸模型(AR)。
在ImageNet 256×256基準測試中,VAR顯著提高了AR基準性能,將Fréchet Inception距離(FID)從18.65降低到1.73,Inception得分(IS)從80.4提高到350.2,同時推理速度提高了20倍。

如上表所示,VAR不僅在FID/IS上達到了最佳成績,還在圖像生成速度上表現(xiàn)出色。VAR還保持了良好的精度和召回率,證明了其語義一致性。
這些優(yōu)勢在512×512合成基準測試中同樣得到了體現(xiàn)。

實驗證明,VAR在多個維度上超越了擴散Transformer(DiT),包括圖像質(zhì)量、推理速度、數(shù)據(jù)效率和可擴展性。
VAR模型的擴展表現(xiàn)出了類似于大語言模型(LLM)的清晰冪律縮放規(guī)律,線性相關(guān)系數(shù)接近?0.998,這提供了強有力的證據(jù)。

VAR還在下游任務(wù)中展示了零樣本泛化能力,包括圖像修復(fù)、圖像外延和圖像編輯等。

這些結(jié)果表明,VAR初步模仿了大語言模型的兩個重要特性:縮放規(guī)律和零樣本泛化能力。
田柯宇團隊已在GitHub上發(fā)布了所有模型和代碼,現(xiàn)已斬獲4.4k星。

項目地址:https://github.com/FoundationVision/VAR
AI頂會NeurIPS,錄用率25.8%
NeurIPS全稱神經(jīng)信息處理系統(tǒng)大會(The Conference on Neural Information Processing Systems),是人工智能(AI)、機器學習(ML)和數(shù)據(jù)科學領(lǐng)域最負盛名且最具影響力的會議之一。
它于1987年首次舉辦,當時名字是「神經(jīng)信息處理系統(tǒng)」(NIPS),主要為快速興起的神經(jīng)網(wǎng)絡(luò)領(lǐng)域提供一個交流思想的平臺。
隨著會議范圍逐漸擴大,涵蓋了人工智能和機器學習更廣泛的主題,會議名稱于2018年更改為NeurIPS。
今年,是NeurIPS第38屆年會,將于下周12月9日-15日在溫哥華召開。

NeurIPS頂會同樣以嚴格的同行評審過程而著稱,2023年錄用率為26.1%,2022年為25.6%。

NeurIPS歷年接收率
今年,頂會一共接受了15671篇論文,錄用率為25.8%,其中評審最低分2.2,最高分8.7,具體來說:
- Oral 61篇(0.39%)
- Spotlight 326篇(2.08%)
- Poster 3650篇(23.29%)

參考資料:
https://www.toutiao.com/w/1813324433807370/?log_from=d66b759dee10a_1733273717412
https://github.com/FoundationVision/VAR
熱門跟貼