
作者 | 陳志珺、李京政等
論文摘要:LLM Ensemble(大語言模型集成)在近年來快速地獲得了廣泛關(guān)注。它指的是在下游任務(wù)推理階段,綜合考慮并利用多個大語言模型(每個模型都旨在處理用戶查詢),從而發(fā)揮它們各自的優(yōu)勢。大語言模型的廣泛可得性,以及其開箱即用的特性和各個模型所具備的不同優(yōu)勢,極大地推動了 LLM Ensemble 領(lǐng)域的發(fā)展。本文系統(tǒng)性地回顧了 LLM Ensemble 領(lǐng)域的最新進(jìn)展。首先,我們介紹了 LLM Ensemble 的分類法,并討論了幾個相關(guān)的研究問題。然后,我們把“推理前集成、推理中集成、推理后集成”這三大范式下的各種方法劃分為七大類,并回顧了所有相關(guān)方法。最后,我們介紹了相關(guān)的基準(zhǔn)測試集和典型應(yīng)用,總結(jié)和分析了現(xiàn)有的研究成果,并提出了若干值得關(guān)注的未來研究方向。
論文題目:
Harnessing Multiple Large Language Models: A Survey on LLM Ensemble
論文鏈接:
https://arxiv.org/abs/2502.18036
GitHub 倉庫:
https://github.com/junchenzhi/Awesome-LLM-Ensemble

近年來,人工智能領(lǐng)域的格局因大型語言模型(LLM)的飛速發(fā)展而發(fā)生了深刻變化,代表性的模型包括 Gemini、GPT-4、Llama,以及最近推出的 DeepSeek。這些 LLM 的成功持續(xù)激發(fā)著廣泛的研究熱情。目前,在 Hugging Face 平臺上,可以訪問的大語言模型數(shù)量已經(jīng)超過了 182,000 個。然而,在這股研究熱潮背后,我們可以觀察到兩個主要方面:
LLM 的直接開箱即用能力(零樣本推理)和間接開箱即用能力(基于 In-Context Learning 的少樣本推理)仍引發(fā)著人們在性能方面的擔(dān)憂,如準(zhǔn)確性不足、幻覺(Hallucinations)頻發(fā)以及與人類意圖不對齊等;
不同的 LLM 在擅長領(lǐng)域、推理成本與效率方面差異顯著,這源于其在模型架構(gòu)、參數(shù)量、分詞策略、訓(xùn)練數(shù)據(jù)等方面的不同設(shè)計。面對同一個用戶查詢,不同模型的輸出經(jīng)常表現(xiàn)出較大差異(并且不同的模型常常伴隨著不同的推理成本)。
考慮到上述兩個方面,并借鑒集成學(xué)習(xí)的精神,我們自然地可以考慮一種解決問題的思路:對于每一個任務(wù)查詢,與其持續(xù)依賴某個“基于公共排行榜或其他指標(biāo)挑選出的”單一固定 LLM,不如同時考慮多個可以開箱即用的 LLM 候選模型,以充分發(fā)揮它們的各自優(yōu)勢。實際上,這正是近年來新興的 LLM Ensemble 領(lǐng)域所探索的內(nèi)容。
現(xiàn)有的 LLM Ensemble 方法可以根據(jù)“LLM 推理”和“集成”的先后順序而分為三大范式:
推理前集成方法:在 LLM 執(zhí)行推理前,利用給定的用戶查詢信息并結(jié)合各個 LLM 的不同特性,選擇出最合適的模型以進(jìn)行推理(此方法在本質(zhì)上類似于集成學(xué)習(xí)中的硬投票策略);
推理時集成方法:在大語言模型解碼過程中(即在推理過程中),聚合來自多個 LLM 的不完整響應(yīng)(例如,token 級別的信息或者是固定 2 個 words 長度的信息),并將聚合結(jié)果反饋給所有模型以進(jìn)行下一個循環(huán);
推理后集成方法:在所有 LLM 候選或其某個子集生成完整響應(yīng)(而非片段)后進(jìn)行集成。比如,在所考慮的所有 LLM 輸出所有響應(yīng)后,綜合考慮它們的所有回復(fù)以生成最終的獨一份的回復(fù)信息。
盡管基于上述三大范式,近年來衍生出了大量方法,但目前仍缺乏一篇正式的綜述文章以對快速發(fā)展的 LLM Ensemble 領(lǐng)域中的研究方向進(jìn)行系統(tǒng)梳理和深入分析。本文系統(tǒng)性地回顧了 LLM Ensemble 領(lǐng)域的最新進(jìn)展,分別討論了分類法、相關(guān)問題、方法、基準(zhǔn)、應(yīng)用和未來方向。我們希望這篇綜述能夠為研究人員提供全面的回顧,并激發(fā)進(jìn)一步的探索。

圖 1: 各類 LLM Ensemble 方法的示意圖(請注意:對于 (b) Ensemble-during-inference,還存在 (b,3)process-level ensemble 方法。我們并沒有在此圖中畫出這類方法,因為考慮到排版問題以及目前這類方法只存在一個實例化的方法。)
LLM Ensemble 方法分類與相關(guān)研究問題
LLM Ensemble 方法分類
本節(jié)將正式介紹 LLM Ensemble 分類體系,對應(yīng)的示意圖和各類方法下的研究工作見圖 1 和圖 2。如上文所述,當(dāng)前的 LLM Ensemble 方法可以分為以下 3 大類范式(關(guān)于對此三大范式的劃分,我們采用了文獻(xiàn) [2] 的劃分方法)與 7 大類方法:
(a) 推理前集成(Ensemble before inference)方法。該類方法的核心思想是,在 LLM 進(jìn)行推理之前,先通過路由算法將具體任務(wù)查詢分配給最合適的模型,以實現(xiàn)更專業(yè)、更高效的推理過程。如圖 1 和圖 2 所示,根據(jù)是否需要使用預(yù)先定制的數(shù)據(jù)以進(jìn)行預(yù)訓(xùn)練,該類方法可細(xì)分為以下兩類:
(a1) 預(yù)訓(xùn)練路由器(pretrained router)
(a2) 非預(yù)訓(xùn)練路由器(non-pretrained router)
(b) 推理時集成(Ensemble during inference)方法。這是三大類中最細(xì)粒度的集成方式。需要注意的是,此類方法通常會將中間“集成結(jié)果”拼接上上文信息并再次輸送給所有模型,以進(jìn)行下一輪處理。此類方法可細(xì)分為以下三類:
(b1) 分詞級集成(token-level ensemble)方法。在解碼過程中,此類方法將多個模型生成的 token 級別輸出信息進(jìn)行集成,以生成最終的獨一份信息;
(b2) 片段級集成(span-level ensemble)方法。此類方法類似于上述的 token-level ensemble 方法,并且以若干個單詞所形成的片段為單位來進(jìn)行集成;
(b3) 過程級集成(process-level ensemble)方法。針對復(fù)雜的推理任務(wù),此類方法逐步在推理鏈中選擇最優(yōu)的中間步驟路徑,即在每一步的推理過程中去集成來自多個模型的多份輸出信息。
(c) 推理后集成(Ensemble after inference)方法。這類方法可以進(jìn)一步分為以下兩類:
(c1) 非級聯(lián)(Non-cascade)方法。此類方法直接整合多個 LLM 候選生成的完整回復(fù),以進(jìn)行集成。在集成過程中,此類方法要么是利用算法分析并挑選出一份最優(yōu)回復(fù),要么是利用另外一個大模型來進(jìn)行再次生成;
(c2) 級聯(lián)(Cascade)方法。在綜合考慮性能和推理成本的基礎(chǔ)上,此類方法按照模型規(guī)模等標(biāo)準(zhǔn)對多個 LLM 候選進(jìn)行排序并進(jìn)行依次推理,直到得到最合適的回復(fù)為止,從而終止整個推理流程。

圖 2: 各類 LLM Ensemble 方法下的研究工作
相關(guān)研究問題

圖 3: Ensemble Learning 與 Model Merging 的示意圖(圖片來自文獻(xiàn) [1];請注意,子圖 b 中對應(yīng)了 LLM Ensemble 中的一類典型方法,即“推理后集成方法”中的“(c1) 非級聯(lián)方法”。)
如圖 3 所示,大語言模型融合(LLM Merging,LLM Fusion)[1] 指的是在無需原始訓(xùn)練數(shù)據(jù)的前提下,將多個大語言模型的參數(shù)進(jìn)行融合,從而構(gòu)建一個統(tǒng)一的模型。這種方法與 LLM Ensemble 密切相關(guān),因為它們都強調(diào)知識的融合與遷移。
大語言模型協(xié)作(LLM Collaboration)[2][3] 則是通過利用每個模型的不同優(yōu)勢,以更加靈活的方式完成任務(wù)。與 LLM Ensemble 不同,LLM Collaboration 方法并不將所有模型平等地直接用于用戶查詢,而是為每個模型分配不同的角色,并通過交換不同模型所生成的響應(yīng)信息來提升效果。
弱監(jiān)督學(xué)習(xí)(Weak Supervision)[4][5],又被稱為眾包學(xué)習(xí)與群智監(jiān)督學(xué)習(xí)(Learning from Crowds)[6],主要利用“來自多弱標(biāo)注源所提供的弱標(biāo)簽信息”來實施關(guān)于真值標(biāo)簽的真值推理與后續(xù)的基于推理后標(biāo)簽的學(xué)習(xí)(這對應(yīng)于 LLM Ensemble 中的“(c1) 非級聯(lián)方法”),或者直接用弱標(biāo)簽信息來進(jìn)行端對端學(xué)習(xí)以獲得分類器。然而,目前關(guān)于此類方法的研究主要集中在分類任務(wù)上,而不是通用的生成任務(wù)。
方 法
此部分可詳見論文。我們在論文中對 7 類 LLM Ensemble 方法(即圖 1 和圖 2 中所示的 a1、a2、b1、b2、b3、c1、c2)對應(yīng)的各個研究工作進(jìn)行了深入分析,并在其中盡可能地對方法進(jìn)行進(jìn)一步的細(xì)化分類。比如,對于“(c) 推理后集成(Ensemble after inference)方法”,我們又根據(jù)方法是否需要在下游任務(wù)中的監(jiān)督學(xué)習(xí)而進(jìn)行進(jìn)一步的分類和分析(如圖 4 所示)。

圖 4: 對推理后集成(Ensemble after inference)方法中的各個研究工作的歸納性總結(jié)
討 論
總結(jié)性分析
我們在論文中對 7 類 LLM Ensemble 方法進(jìn)行了總結(jié)性分析。如圖 5 所示,分析主要從三個核心維度展開:集成策略、集成粒度和集成目標(biāo)。
從集成策略的角度來看,聚合式(Aggregation)方法(如對所有模型輸出進(jìn)行平均或加權(quán)融合)相較于挑選式(Selection)方法(即從多個輸出中選出一個,類似于硬投票)要更為復(fù)雜。另外,再生成式(Regeneration)方法通常需要額外準(zhǔn)備大量特定的訓(xùn)練數(shù)據(jù)并再次微調(diào)一個大模型,因而成本更高。
從集成粒度的角度來看,響應(yīng)級(Response-level)集成方法屬于粗粒度集成。而細(xì)粒度的集成方法(包括 Token-level 和 Span-level 的集成方法),特別是 token 級集成方法,在模型解碼階段可以更精細(xì)地利用各個模型的輸出概率分布,從而增強集成效果。
最后,從集成目標(biāo)的角度來看,“(b) 推理時集成方法”和“(c1) 非級聯(lián)式推理后集成方法”因不受推理成本限制,通常能夠采用更加靈活的集成策略(即可以不依賴于基于挑選式的集成策略),并引入更細(xì)粒度的融合方式,最終具有更強的性能提升潛力。

圖 5: 對 7 大類 LLM Ensemble 方法的總結(jié)性分析
未來研究方向
- 更具有原則性的“片段級推理時集成方法”
當(dāng)前基于片段(span)的“推理時集成方法”已經(jīng)能夠提供足夠細(xì)致的集成粒度(如考慮基于 2 個 words 的跨度),具備較強的性能提升潛力。然而,現(xiàn)有的片段劃分方法仍然過于簡單和生硬,比如固定地將每個片段設(shè)定為 2 個 words。如果能夠引入更具理論依據(jù)的或更靈活的片段劃分策略,將有望為后續(xù)的集成過程提供更豐富、更具信息量的響應(yīng)片段,從而提升整體效果。
- 更精細(xì)化的、無監(jiān)督的“非級聯(lián)推理后集成方法”
在某些情況下,在多個模型的解碼階段而頻繁調(diào)用多個模型的輸出分布并不可行。此時,“非級聯(lián)推理后集成”是一種非常實用的方法:它通過融合多個模型的完整輸出來生成最終的回復(fù)信息。然而,目前方法存在兩個局限:它們在集成過程中要么僅簡單考慮模型輸出之間的成對相似性度量,而未充分捕獲各自的語義信息;要么需要引入了一個額外的、需要有監(jiān)督學(xué)習(xí)的生成模型,犧牲了泛化性。因此,研究并提出更精細(xì)化的、無監(jiān)督的“非級聯(lián)推理后集成方法”具有重要意義。
- 更通用的“級聯(lián)式推理后集成方法”
相比于“推理前集成”策略,當(dāng)前的“級聯(lián)式推理后集成方法”在考慮推理成本的同時,還具備一個優(yōu)勢:即可以在推理過程中利用已有的模型回復(fù)信息而動態(tài)地選擇最合適的輸出。然而,現(xiàn)有的大多數(shù)級聯(lián)方法并不適用于生成類任務(wù),且唯一面向生成任務(wù)的方案也依賴于有監(jiān)督學(xué)習(xí),從而丟失了泛化性。因此,開發(fā)適用于生成任務(wù)的通用型無監(jiān)督“級聯(lián)式推理后集成方法”將是該領(lǐng)域的一個重要突破。
總 結(jié)
LLM Ensemble(大語言模型集成)是集成學(xué)習(xí)在大語言模型時代的直接體現(xiàn)。大語言模型的易獲取性、開箱即用的特性與多樣性,使得集成學(xué)習(xí)的思想在當(dāng)前的 LLM Ensemble 研究領(lǐng)域中更具有活力。本綜述論文對 LLM Ensemble 領(lǐng)域中的 7 大類方法進(jìn)行了全面的梳理與總結(jié)。我們希望這篇綜述能為相關(guān)研究人員提供有價值的參考,并激發(fā)更多在 LLM Ensemble 及其相關(guān)領(lǐng)域的深入探索。最后,我們致謝下面的參考文獻(xiàn)以及在我們的綜述論文中所涉及的各個研究工作。
參考文獻(xiàn)
[1] Enneng Yang, et al. Model Merging in LLMs, MLLMs, and Beyond: Methods, Theories, Applications and Opportunities. ArXiv 2024.
[2] Jinliang Lu, et al. Merge, ensemble, and cooperate! a survey on collaborative strategies in the era of large language models. arXiv 2024.
[3] Yilun Du, et al. Improving factuality and reasoning in language models through multiagent debate. ICML 2024.
[4] Jieyu Zhang, et al. Wrench: A comprehensive benchmark for weak supervision. NeuIPS 2021.
[5] Zhijun Chen, et al. Neural-Hidden-CRF: A Robust Weakly-Supervised Sequence Labeler. KDD 2023.
[6] Pengpeng Chen, et al. Adversarial learning from crowds. AAAI 2022.
AICon 2025 強勢來襲,5 月上海站、6 月北京站,雙城聯(lián)動,全覽 AI 技術(shù)前沿和行業(yè)落地。大會聚焦技術(shù)與應(yīng)用深度融合,匯聚 AI Agent、多模態(tài)、場景應(yīng)用、大模型架構(gòu)創(chuàng)新、智能數(shù)據(jù)基建、AI 產(chǎn)品設(shè)計和出海策略等話題。即刻掃碼購票,一同探索 AI 應(yīng)用邊界!
今日薦文
你也「在看」嗎?
熱門跟貼