打開網(wǎng)易新聞 查看精彩圖片

新智元報(bào)道

編輯:LRST

【新智元導(dǎo)讀】港中文、清華等高校提出SICOG框架,通過預(yù)訓(xùn)練、推理優(yōu)化和后訓(xùn)練協(xié)同,引入自生成數(shù)據(jù)閉環(huán)和結(jié)構(gòu)化感知推理機(jī)制,實(shí)現(xiàn)模型自我進(jìn)化,為大模型發(fā)展提供新思路。

當(dāng)前(多模態(tài))大模型正深陷「數(shù)據(jù)饑渴」困境:其性能高度依賴預(yù)訓(xùn)練階段大量高質(zhì)量(圖文對(duì)齊)數(shù)據(jù)的支撐。

然而,現(xiàn)實(shí)世界中這類高價(jià)值數(shù)據(jù)資源正在迅速耗盡,傳統(tǒng)依賴真實(shí)數(shù)據(jù)驅(qū)動(dòng)模型能力增長的路徑已難以為繼。

在NeurIPS 2024會(huì)議上,OpenAI聯(lián)合創(chuàng)始人Ilya Sutskever明確指出:「Pre-training as we know it will end」, 這一判斷是對(duì)傳統(tǒng)預(yù)范式極限的清晰警示。

打開網(wǎng)易新聞 查看精彩圖片

為延續(xù)性能提升,主流研究方向開始轉(zhuǎn)向推理優(yōu)化與后訓(xùn)練微調(diào)(如強(qiáng)化學(xué)習(xí))。

然而,最新研究表明:此類改進(jìn)極其依賴模型在預(yù)訓(xùn)練中所奠定的能力基礎(chǔ):如果模型在早期未能系統(tǒng)性地習(xí)得相關(guān)能力,后續(xù)優(yōu)化就如同在沙地上建高樓——進(jìn)展有限,風(fēng)險(xiǎn)頗高。

不同模型在「自我進(jìn)化」能力上的表現(xiàn)也存在巨大差異,其實(shí)質(zhì)仍是「題海戰(zhàn)術(shù)」的延伸:缺乏方法論支撐的訓(xùn)練,難以應(yīng)對(duì)真實(shí)世界中的復(fù)雜和變化。

面對(duì)這一瓶頸,大模型的未來路在何方?

微軟研究院科學(xué)家 Shital Shah 在社交媒體上指出:合成數(shù)據(jù)synthetic data)或許是打破當(dāng)前能力天花板的關(guān)鍵。

打開網(wǎng)易新聞 查看精彩圖片

近日,港中文聯(lián)合清華等高校提出:未來大模型性能的持續(xù)提升,需依賴「預(yù)訓(xùn)練、推理階段的計(jì)算擴(kuò)展、后訓(xùn)練優(yōu)化」三者的深度協(xié)同。這一觀點(diǎn)打破了傳統(tǒng)依賴單一預(yù)訓(xùn)練路徑的范式,為下一代多模態(tài)基礎(chǔ)大模型(Foundation MLLMs)的構(gòu)建提供了全新思路。

打開網(wǎng)易新聞 查看精彩圖片

論文鏈接:https://arxiv.org/html/2503.12303v5

在此基礎(chǔ)上,研究團(tuán)隊(duì)提出了創(chuàng)新性框架——SICOG(Structured In-Context Optimization and Generation),旨在重塑大模型的進(jìn)化路徑。SICOG引入了獨(dú)創(chuàng)的「鏈?zhǔn)矫枋觥辜夹g(shù),通過五步漸進(jìn)式視覺解析引擎,實(shí)現(xiàn)模型從顯著內(nèi)容捕捉到細(xì)粒度關(guān)聯(lián)推理的全面感知躍升。

該框架同時(shí)采用了「結(jié)構(gòu)化思維鏈」機(jī)制,有效增強(qiáng)模型對(duì)多模態(tài)信息的融合處理與復(fù)雜推理能力。更具突破性的是,SICOG通過自生成數(shù)據(jù)閉環(huán)+語義一致性篩選機(jī)制,使模型在零人工標(biāo)注的條件下實(shí)現(xiàn)認(rèn)知能力的持續(xù)進(jìn)化,真正邁向高效、自主的學(xué)習(xí)范式。

SICOG的提出,不僅打破了當(dāng)前模型在數(shù)據(jù)、算力與微調(diào)優(yōu)化三者割裂發(fā)展的瓶頸,也為未來通用人工智能(AGI)模型的構(gòu)建提供了可擴(kuò)展、可遷移的新路徑。

SICOG:三位一體協(xié)同框架,讓模型學(xué)會(huì)「自我進(jìn)化」

傳統(tǒng)多模態(tài)大模型(MLLMs)依賴海量標(biāo)注數(shù)據(jù)與靜態(tài)預(yù)訓(xùn)練范式,面臨數(shù)據(jù)稀缺與能力增長受限的雙重瓶頸。為突破這一困境,本文提出全新框架SICOG(Self-Improving Systematic Cognition),首次構(gòu)建了涵蓋「后訓(xùn)練增強(qiáng)—推理優(yōu)化—再預(yù)訓(xùn)練強(qiáng)化」三位一體自進(jìn)化機(jī)制,重新定義了預(yù)訓(xùn)練邊界,為下一代MLLMs注入動(dòng)態(tài)認(rèn)知與持續(xù)學(xué)習(xí)能力。

打開網(wǎng)易新聞 查看精彩圖片

SICOG的三階段協(xié)同機(jī)制包括:

  1. 后訓(xùn)練增強(qiáng)利用少量高質(zhì)量標(biāo)注數(shù)據(jù),提升模型的系統(tǒng)性認(rèn)知與基礎(chǔ)推理能力;

  2. 推理優(yōu)化在大規(guī)模無標(biāo)簽多模態(tài)數(shù)據(jù)上進(jìn)行自主推理,通過「自我一致性投票機(jī)制」篩選出高置信度答案,自動(dòng)生成偽標(biāo)簽;

  3. 再預(yù)訓(xùn)練強(qiáng)化將篩選后的高質(zhì)量偽標(biāo)注數(shù)據(jù)反饋用于預(yù)訓(xùn)練,實(shí)現(xiàn)模型能力的持續(xù)進(jìn)化。

SICOG的關(guān)鍵創(chuàng)新在于實(shí)現(xiàn)了模型的「學(xué)中實(shí)踐、實(shí)踐中進(jìn)化」:從少量種子數(shù)據(jù)出發(fā),模型通過「看圖總結(jié)+解題推理」主動(dòng)構(gòu)建多任務(wù)樣本,實(shí)現(xiàn)數(shù)據(jù)生成與學(xué)習(xí)閉環(huán)。無需大規(guī)模人工標(biāo)注,即可高效擴(kuò)展預(yù)訓(xùn)練數(shù)據(jù),根本性緩解當(dāng)前高質(zhì)量多模態(tài)數(shù)據(jù)稀缺的問題。

打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片

描述鏈(Chain-of-Description, CoD)

讓模型「看圖像像人一樣」

CoD(描述鏈)是一種結(jié)構(gòu)化分步感知方法,使模型像偵探一樣逐層觀察圖像,從主體到細(xì)節(jié)、從關(guān)系到背景,構(gòu)建出完整、邏輯嚴(yán)密的圖像理解過程。

以「一位女孩彈吉他」的圖像為例,傳統(tǒng)模型可能僅生成「女生在彈吉他」的粗略描述,而CoD會(huì)分為五個(gè)有序階段,逐步深化理解:

  1. 提取主體內(nèi)容:首先識(shí)別圖像的核心語義元素,如:「一位紅發(fā)女性坐在床上,懷中抱著一把木吉他」,確保模型對(duì)主要對(duì)象有清晰把握,為后續(xù)分析打下基礎(chǔ)。

  2. 分析細(xì)節(jié)信息:進(jìn)一步觀察細(xì)節(jié)屬性,如「吉他為淺色指板的經(jīng)典木制款式,光線柔和,渲染出溫暖氛圍」,捕捉紋理、顏色、光影等低層信息,增強(qiáng)描述的豐富性與精度。

  3. 考慮關(guān)系屬性:描述圖像中元素之間的交互關(guān)系,如:「她坐在床上,筆記本放在小桌上,燈串和掛飾點(diǎn)綴背景」,強(qiáng)化對(duì)空間布局與語義結(jié)構(gòu)的建模。

  4. 檢查邊緣/背景內(nèi)容:不忽略次要信息,如:「房間內(nèi)有梳妝臺(tái)、墻面裝飾等背景元素」,補(bǔ)充場(chǎng)景語義,完善整體理解。

  5. 整合為連貫描述:將上述觀察統(tǒng)一組織為一段完整、邏輯清晰的自然語言描述。

通過CoD,模型能夠逐步「構(gòu)建圖像語義結(jié)構(gòu)」,實(shí)現(xiàn)從感知到理解的飛躍,顯著提升圖文對(duì)齊的質(zhì)量與邏輯性。

結(jié)構(gòu)化解題思路(Structured Chain-of-Thought, CoT)

讓模型「解題像學(xué)霸一樣」

CoT(結(jié)構(gòu)化思維鏈)是一種任務(wù)驅(qū)動(dòng)的推理框架,支持模型在面對(duì)復(fù)雜問題時(shí)進(jìn)行分步推理、信息整合與因果判斷,廣泛應(yīng)用于數(shù)學(xué)計(jì)算、邏輯問答、跨模態(tài)推理等任務(wù)。

例如,在一道幾何題中,傳統(tǒng)模型可能直接嘗試「猜測(cè)答案」,而CoT的解題過程如下:

  1. 明確任務(wù)目標(biāo):識(shí)別問題類型,例如「求三角形某邊的長度」。

  2. 提取關(guān)鍵信息:從圖像中提取直角三角形、垂線、邊長等必要條件。

  3. 邏輯推理分析:判斷相似三角形關(guān)系,列出比例公式并代入數(shù)值。

  4. 總結(jié)計(jì)算得解:通過計(jì)算得出答案,例如「選項(xiàng)C」。

CoT讓模型具備類人的「解題能力」,不僅能處理復(fù)雜的數(shù)理任務(wù),還能支持跨模態(tài)因果推斷,奠定模型認(rèn)知系統(tǒng)化的基礎(chǔ)。

能力全面躍升:SICOG的三大關(guān)鍵優(yōu)勢(shì)

借助CoD和CoT,SICOG不僅構(gòu)建了結(jié)構(gòu)化的感知與推理流程,更在訓(xùn)練范式上實(shí)現(xiàn)了根本性突破,具備以下三大核心優(yōu)勢(shì):

  1. 顯著降低對(duì)高質(zhì)量數(shù)據(jù)的依賴:僅需少量種子數(shù)據(jù)即可啟動(dòng),通過自生成數(shù)據(jù)循環(huán)優(yōu)化,實(shí)現(xiàn)大規(guī)模多模態(tài)數(shù)據(jù)的「零標(biāo)注」擴(kuò)展。

  2. 實(shí)現(xiàn)動(dòng)態(tài)認(rèn)知進(jìn)化:打破傳統(tǒng)「一訓(xùn)定終身」的預(yù)訓(xùn)練模式,支持模型在使用過程中持續(xù)學(xué)習(xí)、能力不斷升級(jí),具備「終身學(xué)習(xí)」特征。

  3. 感知與推理一體優(yōu)化:不再局限于感知能力的提升,SICOG在預(yù)訓(xùn)練階段即融合「感知+推理」,模擬人類認(rèn)知流程,使模型對(duì)圖文、圖問等復(fù)雜任務(wù)具備更強(qiáng)泛化與應(yīng)變能力。

實(shí)驗(yàn)驗(yàn)證:SICOG實(shí)現(xiàn)模型能力全面提升

為了驗(yàn)證SICOG框架的有效性,研究在12個(gè)主流多模態(tài)評(píng)測(cè)集上進(jìn)行了系統(tǒng)性評(píng)估,涵蓋圖表理解、數(shù)學(xué)推理、抗幻覺能力等多個(gè)關(guān)鍵維度。實(shí)驗(yàn)結(jié)果表明,SICOG能顯著提升模型的綜合表現(xiàn),具體成果如下:

綜合性能穩(wěn)步提升

  • 在整體評(píng)測(cè)中,模型平均表現(xiàn)提升2%–4%

  • 尤其在依賴多步推理的任務(wù)中表現(xiàn)突出,如ScienceQA,展現(xiàn)出更強(qiáng)的邏輯推理與跨模態(tài)理解能力。

幻覺控制能力增強(qiáng)

  • POPE等抗幻覺評(píng)測(cè)中,模型錯(cuò)誤率下降了1%–2%

自生成數(shù)據(jù)推動(dòng)持續(xù)進(jìn)化

  • 隨著自生成數(shù)據(jù)量從11.8萬條提升至21.3萬條,模型性能持續(xù)上升,呈現(xiàn)出良好的擴(kuò)展性與學(xué)習(xí)能力;

  • 表明SICOG的「自我進(jìn)化機(jī)制」不僅可行,而且具備高度可擴(kuò)展性。

超越主流預(yù)訓(xùn)練方法

  • SICOG在多個(gè)任務(wù)中表現(xiàn)甚至超過了主流的strong-to-weak distillation和multi-agent collaboration方法

打開網(wǎng)易新聞 查看精彩圖片

實(shí)驗(yàn)還表明,基礎(chǔ)模型性能越強(qiáng),其在自我進(jìn)化過程中的能力提升也越顯著。例如,LLaVA-Qwen2-7B-UHD相較于LLaVA-Llama3.1-8B-UHD,性能提升幅度高出約50%。這表明:強(qiáng)大的基礎(chǔ)能力不僅決定模型的初始表現(xiàn),更顯著增強(qiáng)其后續(xù)自學(xué)習(xí)與優(yōu)化能力。

這一現(xiàn)象類似于人類學(xué)習(xí)中的「馬太效應(yīng)」——「學(xué)霸更會(huì)自學(xué)」。具備更優(yōu)初始結(jié)構(gòu)與知識(shí)表示的模型,能夠更高效地利用數(shù)據(jù)、激發(fā)潛力,在持續(xù)進(jìn)化中取得更大進(jìn)步。

打開網(wǎng)易新聞 查看精彩圖片

研究進(jìn)一步表明,基于合成數(shù)據(jù)的預(yù)訓(xùn)練顯著提升了模型的基礎(chǔ)認(rèn)知能力,從而強(qiáng)化了后續(xù)微調(diào)效果。這一結(jié)果再次驗(yàn)證了:預(yù)訓(xùn)練、推理階段的計(jì)算擴(kuò)展與后訓(xùn)練優(yōu)化三者之間存在高度協(xié)同關(guān)系。只有打通這三環(huán)節(jié),才能實(shí)現(xiàn)模型能力的持續(xù)躍升與高效進(jìn)化。

此外,研究發(fā)現(xiàn),SICOG生成的合成數(shù)據(jù)同樣遵循規(guī)模法則(scaling law):模型能力隨著數(shù)據(jù)量的增加持續(xù)提升。這進(jìn)一步證明了自生成數(shù)據(jù)在模型進(jìn)化過程中的有效性與可擴(kuò)展性。

打開網(wǎng)易新聞 查看精彩圖片

研究人員提出了一種變體方法:在第一階段的后訓(xùn)練增強(qiáng)中,以偏好學(xué)習(xí)(Preference Learning)替代傳統(tǒng)的監(jiān)督微調(diào)(SFT),以進(jìn)一步強(qiáng)化模型的基礎(chǔ)能力。

實(shí)驗(yàn)結(jié)果表明,偏好學(xué)習(xí)在提升模型泛化能力方面優(yōu)于SFT,尤其在處理復(fù)雜任務(wù)時(shí)表現(xiàn)更為穩(wěn)健。這一結(jié)果從實(shí)證層面驗(yàn)證了長期以來的觀點(diǎn):強(qiáng)化學(xué)習(xí)范式在特定任務(wù)中相較于監(jiān)督微調(diào)更具優(yōu)勢(shì)。

打開網(wǎng)易新聞 查看精彩圖片

細(xì)粒度圖像感知能力顯著增強(qiáng),在細(xì)節(jié)識(shí)別與關(guān)系屬性捕捉方面表現(xiàn)出更高的準(zhǔn)確性與魯棒性。

打開網(wǎng)易新聞 查看精彩圖片

多模態(tài)理解與推理能力顯著提升。

展望:預(yù)訓(xùn)練的新邊疆——從靜態(tài)訓(xùn)練到動(dòng)態(tài)進(jìn)化

SICOG通過構(gòu)建一個(gè)涵蓋「數(shù)據(jù)生成→模型訓(xùn)練→能力進(jìn)化」的閉環(huán)體系,突破了傳統(tǒng)預(yù)訓(xùn)練對(duì)高質(zhì)量人工標(biāo)注數(shù)據(jù)的依賴,展現(xiàn)出類人認(rèn)知發(fā)展的潛力。該框架不僅實(shí)現(xiàn)了模型的自我學(xué)習(xí)與持續(xù)優(yōu)化,也為邁向真正自主學(xué)習(xí)型智能體奠定了堅(jiān)實(shí)基礎(chǔ)。

在當(dāng)前研究中,SICOG通過引入Chain-of-Description(CoD)并配合Chain-of-Thought(CoT)的推理機(jī)制,顯著增強(qiáng)了多模態(tài)模型的感知與推理能力。然而,這一進(jìn)展仍只是通向完全自主學(xué)習(xí)的起點(diǎn)。

未來,若能進(jìn)一步引入環(huán)境反饋機(jī)制(如具身智能場(chǎng)景)與持續(xù)優(yōu)化機(jī)制,模型將有望具備終身學(xué)習(xí)的能力,實(shí)現(xiàn)從「被動(dòng)學(xué)習(xí)」向「主動(dòng)成長」的躍遷。在與環(huán)境的持續(xù)交互中,模型不僅可以利用自身生成的數(shù)據(jù)進(jìn)行自我優(yōu)化,更能夠主動(dòng)識(shí)別知識(shí)盲區(qū)、動(dòng)態(tài)調(diào)整學(xué)習(xí)策略,從而在復(fù)雜任務(wù)與多變環(huán)境中不斷進(jìn)化、持續(xù)提升。

參考資料:

https://arxiv.org/html/2503.12303v5