
近年來(lái),大語(yǔ)言模型(LLM)在人工智能領(lǐng)域取得了突破性進(jìn)展,成為推動(dòng)自然語(yǔ)言處理技術(shù)發(fā)展與通用人工智能實(shí)現(xiàn)的核心力量。上下文學(xué)習(xí)能力(In-Context Learning, ICL)是 LLM 最顯著且重要的能力之一,它允許 LLM 在給定包含輸入輸出示例的提示(prompt)后,直接生成新輸入的輸出,這一過(guò)程僅通過(guò)前向傳播而無(wú)需調(diào)整模型權(quán)重。這種能力使得 LLM 能夠基于上下文中的示例快速理解并適應(yīng)新任務(wù),展現(xiàn)出強(qiáng)大的小樣本學(xué)習(xí)和泛化能力。理解 LLM 是如何實(shí)現(xiàn) ICL 的,對(duì)于提高模型性能與效率、提升模型可解釋性與 AI 安全、推廣大模型應(yīng)用與改進(jìn)小樣本學(xué)習(xí)算法具有重要意義,也是近來(lái)機(jī)器學(xué)習(xí)研究熱點(diǎn)之一。有以下關(guān)鍵問(wèn)題需要回答:
1.LLM 能夠?qū)W到哪些學(xué)習(xí)算法,例如梯度下降、比較近鄰等?
2. 在具體問(wèn)題的 ICL 過(guò)程中在執(zhí)行哪一種學(xué)習(xí)算法?
3. 如何進(jìn)一步提升 LLM 的 ICL 能力?
ICL 通常建模為將多個(gè)已知樣例與預(yù)測(cè)目標(biāo)輸入一起,拼接成序列輸入 LLM 中的 transformer 模型,輸出對(duì)目標(biāo)的預(yù)測(cè)(圖 1 左)。現(xiàn)有工作已證明 ICL 在不同模型和數(shù)據(jù)分布條件下,能夠分別實(shí)現(xiàn)如線性回歸和梯度下降等具體的學(xué)習(xí)算法,從已知樣例中學(xué)習(xí)到任務(wù)對(duì)應(yīng)輸入輸出映射,并作用于目標(biāo)輸入上產(chǎn)生預(yù)測(cè)輸出。而這種學(xué)習(xí)算法是 transformer 模型通過(guò)預(yù)訓(xùn)練過(guò)程得到的,現(xiàn)實(shí)中 LLM 的預(yù)訓(xùn)練涉及海量的文本數(shù)據(jù),含有復(fù)雜的語(yǔ)義信息,難以用單一的數(shù)學(xué)分布建?!,F(xiàn)有工作對(duì) ICL 實(shí)現(xiàn)小樣本學(xué)習(xí)算法的解釋難以泛化到真實(shí)世界場(chǎng)景或?qū)嶋H LLM。為了對(duì) ICL 的小樣本學(xué)習(xí)能力有更直觀的認(rèn)識(shí),在近期發(fā)表于 ICLR2025 的工作 “Why In-Context Learning Models are Good Few-Shot Learners?” 中我們對(duì) ICL 模型作為元學(xué)習(xí)器的本質(zhì)進(jìn)行了建模與研究,以對(duì)上面三個(gè)問(wèn)題進(jìn)行了回答。

- 論文鏈接:https://openreview.net/pdf?id=iLUcsecZJp
- 代碼鏈接:https://github.com/ovo67/Uni_ICL
1. 將 LLM 建模為元學(xué)習(xí)器覆蓋學(xué)習(xí)算法空間
ICL 模型可以學(xué)到所有傳統(tǒng)元學(xué)習(xí)器學(xué)到的算法。元學(xué)習(xí)(Meta-Learning)是一種 “學(xué)習(xí)如何學(xué)習(xí)” 的方法,可通過(guò)設(shè)計(jì)模型使其能夠快速適應(yīng)新任務(wù)應(yīng)用于小樣本學(xué)習(xí)。它通過(guò)在多個(gè)相關(guān)任務(wù)上進(jìn)行訓(xùn)練,學(xué)習(xí)到一種通用的學(xué)習(xí)策略或算法,從而在面對(duì)新任務(wù)時(shí)能夠快速調(diào)整自身參數(shù)或結(jié)構(gòu),實(shí)現(xiàn)快速優(yōu)化和泛化。借助元學(xué)習(xí)領(lǐng)域成熟的理論基礎(chǔ)與方法經(jīng)驗(yàn),理論證明了作為實(shí)現(xiàn)學(xué)習(xí)算法的模型,基于 transformer 的 ICL 模型與傳統(tǒng)的元學(xué)習(xí)器相比具有更強(qiáng)的表達(dá)能力(圖 1 右)。

圖 1 大語(yǔ)言模型的上下文學(xué)習(xí)示例,以及上下文學(xué)習(xí)模型在學(xué)習(xí)算法空間中與傳統(tǒng)元學(xué)習(xí)模型的關(guān)系。
2. ICL 模型學(xué)到并執(zhí)行在預(yù)訓(xùn)練分布上最優(yōu)的算法
ICL 算法的學(xué)習(xí)是通過(guò)對(duì)預(yù)訓(xùn)練數(shù)據(jù)分布的擬合。在預(yù)訓(xùn)練充足的情況下,ICL 模型能夠?qū)W習(xí)到在預(yù)訓(xùn)練任務(wù)集上最優(yōu)(在與訓(xùn)練數(shù)據(jù)分布上最小化損失)的學(xué)習(xí)算法,從而在僅有少量樣本的情況下實(shí)現(xiàn)快速適應(yīng)。我們構(gòu)建三類已知最優(yōu)算法(Pair-wise metric-based/Class-prototype metric-based/Amortization-based 三種任務(wù)的最優(yōu)算法分別可由元學(xué)習(xí)器 MatchNet/ProtoNet/CNPs 學(xué)習(xí)得到,圖 3a)的任務(wù)。首先分別在單一種類任務(wù)集上訓(xùn)練,測(cè)試表明 ICL 性能與該預(yù)訓(xùn)練數(shù)據(jù)下能學(xué)到的最優(yōu)算法表現(xiàn)相當(dāng)(圖 2 上)。然后再混合三種任務(wù)集上訓(xùn)練,三種傳統(tǒng)元學(xué)習(xí)器的性能都有所下降,而 ICL 的性能依然與單一種類任務(wù)訓(xùn)練得到的最優(yōu)性能一致(圖 2 下)。以上結(jié)果說(shuō)明 ICL 模型能夠?qū)W習(xí)到預(yù)訓(xùn)練任務(wù)集上最優(yōu)的學(xué)習(xí)算法,并且與傳統(tǒng)的元學(xué)習(xí)器相比 ICL 模型具有更強(qiáng)的表達(dá)能力,因?yàn)樗鼈儾粌H能夠?qū)W習(xí)到已知的最優(yōu)學(xué)習(xí)算法,還能夠根據(jù)數(shù)據(jù)的分布特性表達(dá)出傳統(tǒng)視野之外的學(xué)習(xí)算法,這使得 ICL 模型在處理多樣化任務(wù)時(shí)具有顯著優(yōu)勢(shì)。


圖 2(上)分別在三種任務(wù)集上訓(xùn)練并對(duì)應(yīng)測(cè)試的測(cè)試表現(xiàn);(下)在混合任務(wù)集上訓(xùn)練并分別測(cè)試三種任務(wù)的性能表現(xiàn)。
我們還對(duì) ICL 模型學(xué)習(xí)到的算法的泛化性進(jìn)行了實(shí)驗(yàn)研究。展示出了其作為深度神經(jīng)網(wǎng)絡(luò)受數(shù)據(jù)分布影響的特性:其預(yù)訓(xùn)練過(guò)程本質(zhì)上是在擬合以特定結(jié)構(gòu)輸入的訓(xùn)練任務(wù)集的數(shù)據(jù)分布,而無(wú)法保證學(xué)習(xí)到顯式的基于規(guī)則的學(xué)習(xí)算法,這一發(fā)現(xiàn)糾正了現(xiàn)有工作將 ICL 解釋為算法選擇(Algorithm Selection)的過(guò)程。這將導(dǎo)致 ICL 模型在預(yù)訓(xùn)練數(shù)據(jù)受限或測(cè)試數(shù)據(jù)分布有偏移時(shí)性能表現(xiàn)不及預(yù)期(圖 3)。

圖 3 ICL 與 “算法選擇” 行為的比較(a)兩種模型在三類已知最優(yōu)算法的任務(wù)上訓(xùn)練,在未知最優(yōu)算法任務(wù)上測(cè)試;(b)對(duì)于測(cè)試任務(wù) ICL 可以處理而 “算法選擇” 無(wú)法處理;(b)ICL 對(duì)測(cè)試數(shù)據(jù)分布敏感而 “算法選擇” 不敏感。
3. 將傳統(tǒng)深度網(wǎng)絡(luò)的相關(guān)方法遷移到元學(xué)習(xí)層面以提升 ICL 性能
基于上述對(duì) ICL 模型作為學(xué)習(xí)算法強(qiáng)表達(dá)、難泛化的認(rèn)識(shí),可以將 ICL 模型對(duì)特性與傳統(tǒng)深度神經(jīng)網(wǎng)絡(luò)的特性進(jìn)行類比。我們提出通過(guò) “樣本 - 任務(wù)” 的概念映射將傳統(tǒng)深度學(xué)習(xí)技巧遷移到元學(xué)習(xí)層面以優(yōu)化 ICL 模型。例如實(shí)現(xiàn)了基于任務(wù)難度的元課程學(xué)習(xí)提升 ICL 模型預(yù)訓(xùn)練過(guò)程的收斂速度:圖 4 展示了對(duì)于線性回歸任務(wù)以遞增非零維度數(shù)量作為課程的效果,元 - 課程學(xué)習(xí)能有效加速 ICL 模型的收斂,但不一定提升其最終性能。

圖 4 元 - 課程學(xué)習(xí)(左)訓(xùn)練過(guò)程 loss 變化;(中)200000 episodes 時(shí)的測(cè)試結(jié)果;(右)500000 episodes 時(shí)的測(cè)試結(jié)果。
又例如實(shí)現(xiàn)了基于領(lǐng)域劃分的元 - 元學(xué)習(xí),即將訓(xùn)練數(shù)據(jù)劃分為多個(gè)領(lǐng)域,每個(gè)領(lǐng)域含有一個(gè)訓(xùn)練任務(wù)集和驗(yàn)證任務(wù)集,即可將以單個(gè)任務(wù)為輸入的 ICL 模型作為待適應(yīng)網(wǎng)絡(luò),構(gòu)建元 - 元學(xué)習(xí)器在每個(gè)領(lǐng)域上利用訓(xùn)練任務(wù)集進(jìn)行適應(yīng)。實(shí)驗(yàn)效果如圖 5 所示,提升了 ICL 模型的有限垂域數(shù)據(jù)高效適應(yīng)能力。

圖 5 采用元 - 元學(xué)習(xí)的 ICL 模型分別在給定每領(lǐng)域 64/256/1024 個(gè)任務(wù)時(shí)的適應(yīng)表現(xiàn)。
4. 總結(jié)
本文通過(guò)將 ICL 模型建模為元學(xué)習(xí)器,證明了 ICL 模型具有超過(guò)已有元學(xué)習(xí)器的表達(dá)學(xué)習(xí)算法的能力;ICL 執(zhí)行在預(yù)訓(xùn)練數(shù)據(jù)分布上最優(yōu)的算法,而不一定具有可泛化的規(guī)則;可以將傳統(tǒng)深度網(wǎng)絡(luò)有關(guān)技術(shù)遷移到元學(xué)習(xí)層面用以提升 ICL,如元 - 課程學(xué)習(xí)加速預(yù)訓(xùn)練收斂,元 - 元學(xué)習(xí)提升少數(shù)據(jù)領(lǐng)域微調(diào)快速適應(yīng)能力。
作者介紹
吳世光,清華大學(xué)電子工程系博士研究生,本科畢業(yè)于清華大學(xué)電子工程系。當(dāng)前主要研究方向包括元學(xué)習(xí)與大語(yǔ)言模型。
王雅晴,現(xiàn)任北京雁棲湖應(yīng)用數(shù)學(xué)研究院(BIMSA)副研究員,長(zhǎng)期從事機(jī)器學(xué)習(xí)、人工智能和科學(xué)智能的研究,致力于構(gòu)建高效、低成本的智能算法,以精準(zhǔn)匹配海量數(shù)據(jù)的科學(xué)解釋并解決現(xiàn)實(shí)問(wèn)題。她在 NeurIPS、ICML、ICLR、KDD、WWW、SIGIR、TPAMI、JMLR、TIP 等國(guó)際頂級(jí)會(huì)議和期刊上發(fā)表 27 篇論文,總被引用 4500 次。2024 年,她入選全球前 2% 頂尖科學(xué)家榜單。
姚權(quán)銘,現(xiàn)任清華大學(xué)電子工程系助理教授,研究方向?yàn)闄C(jī)器學(xué)習(xí)和深度學(xué)習(xí)。共發(fā)表文章 100 + 篇,涵蓋機(jī)器學(xué)習(xí)領(lǐng)域頂級(jí)期刊 JMLR、IEEE TPAMI 和頂級(jí)會(huì)議 ICML、NeurIPS、ICLR 等,累計(jì)引用超 1.2 萬(wàn)余次。擔(dān)任 ICML、NeurIPS、ICLR 等會(huì)議領(lǐng)域主席,NN、TMLR、MLJ 等期刊(資深)編委。獲首屆螞蟻 In Tech 科技獎(jiǎng)、國(guó)際人工智能學(xué)會(huì)(AAAI)學(xué)術(shù)新星、國(guó)際神經(jīng)網(wǎng)絡(luò)學(xué)會(huì)(INNS)青年研究員獎(jiǎng)、吳文俊人工智能學(xué)會(huì)優(yōu)秀青年獎(jiǎng),同時(shí)入選全球 Top 50 華人 AI 青年學(xué)者榜和福布斯 30under30 精英榜。
熱門跟貼