馬來(lái)西亞思特雅大學(xué)博士生王立博,近兩年來(lái)主要研究大語(yǔ)言模型。起初,王立博做這類(lèi)研究也是被大語(yǔ)言模型給逼的,因?yàn)槿粘?偟锰岱榔洹矮I(xiàn)媚(Sycophancy)”,這是由基于人類(lèi)反饋的強(qiáng)化學(xué)習(xí)調(diào)優(yōu)策略導(dǎo)致的固有缺陷。
因此,他致力于設(shè)計(jì)能夠自主學(xué)習(xí)、思考和推理的人工智能,而不是人工寵物。
引入強(qiáng)化學(xué)習(xí)的訓(xùn)練獎(jiǎng)勵(lì)模型進(jìn)行微調(diào),盡管可以?xún)?yōu)化用戶體驗(yàn),但是引入偏見(jiàn)是不可避免的,因?yàn)椤蔼?jiǎng)勵(lì)”的依據(jù)是優(yōu)先考慮用戶反饋的滿意度而未必是考慮客觀事實(shí)。這種偏見(jiàn)通常來(lái)源于互聯(lián)網(wǎng)數(shù)據(jù),而大語(yǔ)言模型的訓(xùn)練數(shù)據(jù)集主要依賴(lài)于互聯(lián)網(wǎng)信息。
基于此,王立博嘗試通過(guò)合成數(shù)據(jù)干預(yù)來(lái)優(yōu)化僅解碼器(decoder-only)transformer 架構(gòu),彌補(bǔ)其對(duì)輸入序列缺乏深度分析的不足。
在生成過(guò)程中他嘗試設(shè)計(jì)加入額外阻礙,促使模型自主判斷并拒絕不合理的輸入。這一構(gòu)想原理上能有效避免過(guò)度依賴(lài)用戶的反饋,因?yàn)?a class="keyword-search" >合成數(shù)據(jù)干預(yù)會(huì)更側(cè)重于模型內(nèi)在推理能力的培養(yǎng),而非尋求 RAG 外部知識(shí)庫(kù)。

此外,實(shí)現(xiàn)自主思考的重要標(biāo)志之一就是判斷力,為此王立博構(gòu)想加入反面示例和對(duì)抗性輸入來(lái)提升模型的抗獻(xiàn)媚性。
實(shí)驗(yàn)結(jié)果顯示,經(jīng)過(guò)合成數(shù)據(jù)干預(yù)后的 GPT4o 在量化獻(xiàn)媚指標(biāo)上顯著下降。如果這一成果有機(jī)會(huì)走出實(shí)驗(yàn)室,它可能為 decoder-only 架構(gòu)的模型會(huì)帶來(lái)更客觀的決策支持,并減少偏見(jiàn)。
同時(shí),該成果在機(jī)器人、自動(dòng)駕駛和醫(yī)療等領(lǐng)域的應(yīng)用,有助于提升自動(dòng)化科學(xué)研究的效率。
更令王立博興奮的是,此次實(shí)驗(yàn)是通過(guò)提示詞工程(prompt engineering)實(shí)現(xiàn)。這意味著未來(lái)合成數(shù)據(jù)干預(yù)可以不再依賴(lài)傳統(tǒng)的代碼編寫(xiě),僅通過(guò)編寫(xiě)自然語(yǔ)言,推動(dòng)“AI 工程師”從專(zhuān)業(yè)技術(shù)人員走向普羅大眾,為更多探索者擴(kuò)大平等契機(jī)。
未來(lái),開(kāi)發(fā)、優(yōu)化、數(shù)據(jù)處理、特征挖掘以及對(duì)前沿技術(shù)知識(shí)的了解,可能無(wú)需再依賴(lài)少數(shù)掌握編程和數(shù)學(xué)知識(shí)的專(zhuān)家,而只需設(shè)計(jì)邏輯清晰的提示詞。
日前,相關(guān)論文《減輕僅解碼器變換器架構(gòu)中的獻(xiàn)媚:合成數(shù)據(jù)干預(yù)》(Mitigating Sycophancy in Decoder-Only Transformer Architectures: Synthetic Data Intervention)為題發(fā)在 arXiv[1]。

隨著大語(yǔ)言模型推理思考和生成代碼等能力的增強(qiáng), 提示詞工程使人們有機(jī)會(huì)更平等地與各領(lǐng)域科學(xué)家共享信息資源。因此,未來(lái)王立博會(huì)致力于推動(dòng)未來(lái)工程的提示詞化,簡(jiǎn)單直接平等。
比如,最近王立博通過(guò)設(shè)計(jì) prompt 進(jìn)行黑盒測(cè)試 (Black-Box Testing) 實(shí)驗(yàn),嘗試模擬攻擊大語(yǔ)言模型的護(hù)欄。他發(fā)現(xiàn)即便如 GPT4o 和 Grok-2 Beta,其護(hù)欄在識(shí)別多步驟越獄傾向的提示詞時(shí)仍存在較大困難。
其還通過(guò)模擬場(chǎng)景設(shè)計(jì)了 7 到 10 步的提示詞成功順利使得所有模型模擬生成言語(yǔ)攻擊的內(nèi)容。這意味著當(dāng)前的大語(yǔ)言模型的護(hù)欄仍需完善。
在稀疏注意力方面,王立博曾設(shè)計(jì)通過(guò)稀疏注意力機(jī)制降低大語(yǔ)言模型中思維鏈推理的成本。
同樣的,王立博通過(guò)提示詞基于 GPTs 訓(xùn)練的實(shí)驗(yàn)?zāi)P团c o1 preview 進(jìn)行對(duì)比。實(shí)驗(yàn)結(jié)果顯示,在犧牲可接受范圍內(nèi)的準(zhǔn)確率的條件下,稀疏注意力機(jī)制與具備思維鏈的編碼器-解碼器(encoder-decoder)transformer 架構(gòu)結(jié)合,在推理時(shí)間和推理步驟方面都顯著降低。
王立博也曾設(shè)計(jì)過(guò)將自動(dòng)語(yǔ)音識(shí)別和大語(yǔ)言模型引入智能眼鏡的架構(gòu),這些構(gòu)想如今正在被工業(yè)界所實(shí)踐。即便合成數(shù)據(jù)干預(yù)或稀疏注意力機(jī)制被廣泛應(yīng)用,由于其本身的限制性使交互仍主要集中在視覺(jué)和聽(tīng)覺(jué)。而隨著當(dāng)前深度強(qiáng)化學(xué)習(xí)技術(shù)不斷優(yōu)化更新,人形機(jī)器人將迎來(lái)質(zhì)的高速發(fā)展。在促進(jìn)自主學(xué)習(xí)能力的同時(shí),王立博設(shè)計(jì)了人形機(jī)器人多場(chǎng)景推理 (Multi-Scenario Reasoning) 以及模塊化機(jī)器人實(shí)現(xiàn)自主變形的認(rèn)知模塊化控制 (Cognitive Modular Control) 等架構(gòu)。受到人腦認(rèn)知架構(gòu)的啟發(fā),他致力于為自適應(yīng)機(jī)器人引入認(rèn)知的自主化技術(shù),促進(jìn)機(jī)器人的多形態(tài)或多用途的方向轉(zhuǎn)型。因此,探索機(jī)器人在工業(yè)領(lǐng)域具備感知、思考、推理、規(guī)劃、記憶和決策等能力的認(rèn)知自主性成為王立博的下一個(gè)研究目標(biāo)。
參考資料:
1.https://doi.org/10.48550/arXiv.2411.10156
2.https://doi.org/10.48550/arXiv.2411.09111
3.https://doi.org/10.48550/arXiv.2411.16730
4.https://doi.org/10.48550/arXiv.2412.20429
5.https://openreview.net/pdf?id=lJr0M8vpZO
熱門(mén)跟貼