大模型作為產業(yè)變革的核心引擎。通過RAG、Agent與多模態(tài)技術正在重塑AI與現(xiàn)實的交互邊界。三者協(xié)同演進,不僅攻克了數(shù)據時效性、專業(yè)適配等核心挑戰(zhàn),更推動行業(yè)從效率革新邁向業(yè)務重構。本文將解析技術演進脈絡、實戰(zhàn)經驗與未來圖景,為讀者提供前沿趨勢的全局視角與產業(yè)升級的實踐指引。
作者 | 蔣進
出品丨騰訊云開發(fā)者
大模型技術正加速滲透至產業(yè)核心場景,成為驅動數(shù)字化轉型的智能引擎。全球機器學習大會(ML-Summit)聚焦大模型技術的創(chuàng)新突破與產業(yè)實踐,深入探討其前沿方向與落地路徑。作為AI發(fā)展的核心驅動力,檢索增強生成(RAG)通過動態(tài)知識融合技術突破大模型的靜態(tài)知識邊界;智能體(Agent)借助自主決策與多任務協(xié)同能力重構人機協(xié)作范式;多模態(tài)大模型則依托跨模態(tài)語義理解技術解鎖復雜場景的落地潛力。三者協(xié)同演進,不僅攻克了數(shù)據時效性、隱私安全與專業(yè)適配等關鍵難題,更在醫(yī)療診斷、金融風控、智能制造等領域催生從效率革新到業(yè)務重構的行業(yè)級變革。

ML-Summit會議大模型內容分布
RAG:大模型的動態(tài)知識引擎,解決模型靜態(tài)知識邊界、時效性與可信度問題。
Agent:大模型的智能執(zhí)行中樞,賦予模型自主規(guī)劃、決策與工具調用能力。
多模態(tài):大模型的感知升級底座,突破單一模態(tài)理解限制,實現(xiàn)真實世界全息認知。
知識增強(RAG)→ 行為智能(Agent)→ 感知升級(多模態(tài))→ 完整智能體

RAG:大模型觸手
RAG(Retrieval-Augmented Generation,檢索增強生成) 是一種結合信息檢索與生成模型的技術。其核心思想是:在生成答案前,先從外部知識庫(如文檔、數(shù)據庫、互聯(lián)網)中檢索相關證據,再基于檢索結果和用戶輸入生成更準確、可靠的回答。如下圖所示為一個最簡RAG示意圖。

(注:圖源網絡)
從形態(tài)上說,LLM充當大腦角色用于生成答案,檢索充當觸手角色用于收集證據。RAG就是一個帶觸手(外掛知識庫)的大模型系統(tǒng)。
1.1 為什么需要RAG
大模型在很多領域表現(xiàn)出色,但依然存在局限性,這些局限性使得RAG成為大模型的重要補充。
模型能力:大模型訓練完成后模型的能力就固定了。比如:我們問ChatGPT東方甄選小作文的事情,ChatGPT表示不知道。原因是:GPT-4訓練數(shù)據知識收集截止到2023年10月份。RAG通過外掛實時知識庫,可以有效改善這類問題。

ChatGPT時效性
數(shù)據隱私:大模型很難覆蓋隱私數(shù)據和私域數(shù)據,本地部署RAG系統(tǒng),也可以改善此類問題。
可解析性:RAG檢索結果提供事實依據,減少猜測性回答。同時生成答案可標注來源文檔,增強可信度。
成本優(yōu)化:長上下文模型,處理全文輸入成本高,RAG檢索關鍵片段壓縮輸入長度,使得RAG在處理長文本時更加效。

LLM與RAG差異
RAG不僅解決大模型的局限性,也帶來更高的生成質量和成本優(yōu)化,RAG可以根據不同領域的需求,定制化地提供專業(yè)答案。
1.2 RAG存在挑戰(zhàn)
盡管RAG帶來了許多優(yōu)勢,但在實際應用中面臨一些挑戰(zhàn),特別是在RAG構建過程中。RAG構建包含4個主要步驟:文檔轉為數(shù)據、數(shù)據分塊、數(shù)據向量化、向量存儲。
1.2.1 文本向量化難點
文檔以文字為主,也包含圖片、表格、公式等信息。文檔中存在成千上百萬的文字信息,大量數(shù)據后如何對數(shù)據分塊(涉及權衡文本顆粒度、上下文的完整性)選擇適合的文本顆粒度(數(shù)據分塊)能夠平衡檢索的精準和召回。

RAG構建過程中存在的挑戰(zhàn)
1.2.2 多模態(tài)文檔難點
多模態(tài)文檔中圖片、圖表等結構化多模態(tài)內容處理方式更加復雜。如何將不同模態(tài)的數(shù)據(文本,圖像、視頻)融合在一起,提高理解的準確性是挑戰(zhàn)。

多模態(tài)文檔結構復雜(注:圖源網絡)
目前針對復雜文檔結構處理鏈路包含四個階段:文檔解析器(ocr識別及坐標、圖片識別及坐標、工具解析器等)、文檔結構化(為數(shù)據建立索引順序)、文檔理解(數(shù)據整理為可序列化的結構)。整體看文檔的解析鏈路長,步驟多,內容不好校核。

復雜文檔常規(guī)解析鏈路(注:圖源網絡)
1.2.2 可控檢索難點
檢索錯誤是RAG應用中的一個常見問題,比如:噪聲數(shù)據、數(shù)據分塊(上下文錯誤處理)、特性向量化過程(BGE能力不足)等等。召回率與精準率是一個對立矛盾體。因此需要對RAG系統(tǒng)做可控處理。
RAG可控處理一種思路
1.3 RAG發(fā)展
因多模態(tài)數(shù)據處理與向量化檢索的技術瓶頸,RAG系統(tǒng)的穩(wěn)定性常受制約,因此推動多模態(tài)文檔的統(tǒng)一化處理范式與新一代檢索架構,成為突破RAG能力邊界的兩大關鍵路徑。
1.3.1 多模態(tài)文檔處理
在視覺問答(VAQ)任務中,多模態(tài)文檔的解析需融合文本與布局理解能力。例如,當解析“兩個品牌在分辨率參數(shù)上的差異”時,模型不僅需識別圖像中的文字內容,還需解析文本間的排版邏輯與表格結構信息。若要在回答時提升準確性,需確保模型在處理文本時保留其原始結構特征。

多模態(tài)模型提取文字及視覺問答
多模態(tài)處理文檔不僅可以將不同模態(tài)的數(shù)據(文本、圖像、表格)映射到同一個語義空間,進而提高數(shù)據的可用性和檢索效率,也有利于模型對于文檔的理解。
1.3.2 基于記憶驅動RAG
RAG的另一個發(fā)展方向是記憶驅動RAG。與傳統(tǒng)的基于向量的RAG相比,記憶驅動RAG利用LLM的KV緩存作為動態(tài)索引,具備更高的靈活性和適應性。如圖所示Standard RAG與Meno RAG在原理及使用方式存在明顯區(qū)別。

向量RAG與Meno RAG的差異
使用場景:若需求為靜態(tài)知識快速檢索(如客服標準問答),優(yōu)先選擇向量RAG;BGE(智源通用嵌入模型)、Jina Embeddings(長文本優(yōu)化)。若需求為動態(tài)交互與終身學習(如個性化醫(yī)療助手),探索記憶驅動RAG Memo RAG(智源研究院):KV緩存壓縮 + 動態(tài)記憶索引。


Agent:大模型集成體
Agent技術是大模型的重要集成體,能夠實現(xiàn)自主執(zhí)行任務、做出決策和與環(huán)境互動。如圖所示,海綿寶寶的形象展示一個大模型如何一步步進化為一個超強的智能體。

注:圖源網絡
2.1 Agent概要
AI agent是指使用 AI 技術設計和編程的一種計算機程序,其可以獨立地進行某些任務并對環(huán)境做出反應。AI代理可以被視為一個智能體,它能夠感知其環(huán)境,自己決策和行動來改變環(huán)境。如圖所示是一個最簡Agent系統(tǒng)圖。

Agent系統(tǒng)圖
Agent通過結合LLM、規(guī)劃、反饋和工具,形成一個完整的智能系統(tǒng)。Agent包含感知層、決策層、執(zhí)行層,最終形成具有自主性、反應性、主動性和社會性。
2.2 Agent實踐
已有不少Agent開源項目,通過項目實踐可加深對Agent理解。Agent實踐分為兩種類型:自主智能體和生成智能體。
2.2.1 自主智能與生成智能
自主智能體:自主執(zhí)行任務、做出決策和與環(huán)境互動的智能系統(tǒng)。生成智能體:利用生成模型來創(chuàng)造新的數(shù)據或內容的智能系統(tǒng)。如圖所示,Auto-GPT(自主智能)自問自答,斯坦福小鎮(zhèn)虛擬世界(生成智能)。

自主智能體與生成智能體的區(qū)別:

2.2.2 Agent核心框架
成熟的Agent框架可降低開發(fā)成本,MetaGPT和AutoGen是當前最流行的兩個框架。MetaGPT通過為GPT模型分配不同角色來模擬協(xié)作的軟件公司結構,以處理復雜任務;AutoGen作為開源框架,專注于通過多智能體對話和增強的LLM推理開發(fā)大型語言模型應用。

MetaGPT與AutoGen對比
MetaGPT和AutoGen各有特點,MetaGPT:軟件公司的“數(shù)字CTO”;AutoGen:定制化AI的“樂高工廠。MetaGPT更適合需要全面自動化和協(xié)作的軟件開發(fā)任務,而AutoGen更適合需要靈活定制和對話的LLM應用開發(fā)。
2.2.3 Multi-Agent系統(tǒng)
現(xiàn)實世界任務往往過于復雜,單Agent難以勝任,需要多個Agent協(xié)作。以漫畫圖所示,從一個需求到最終交付的產品。首先:計劃、需求分析、框架設計、系統(tǒng)方案、編碼實現(xiàn)、功能性測試,最后是產品交付。如此復雜的系統(tǒng)需要多人合作,Multi-Agent系統(tǒng)在處理復雜任務方面具有顯著優(yōu)勢。

單智能體與多智能體,無論在任務類型與核心技術都存在明顯差別。

單智能體與多智能體對比
任務解構能力:通過分布式子任務分工協(xié)作,Multi-Agent系統(tǒng)能夠分解任務,提高了任務處理的效率。
效能突破邊界:通過并行架構和冗余容錯設計,Multi-Agent系統(tǒng)能夠顯著提高計算效率和系統(tǒng)魯棒性。
動態(tài)環(huán)境適應:通過實時交互網絡,Multi-Agent系統(tǒng)能夠快速適應動態(tài)環(huán)境,更好地應對復雜變化環(huán)境。
2.3 Agent應用
盡管Agent技術在多個領域展示了其強大的應用價值,但我們也面臨一些挑戰(zhàn)。
2.3.1 應用難點
如圖所示顯示各方面的挑戰(zhàn),如:技術能力、系統(tǒng)設計、安全性及經濟效益。

應對上述問題存在的方案:
復雜任務規(guī)劃,通過分層的方式逐步解決復雜任務。
動態(tài)環(huán)境適應:元學習(Meta-Learning)+ 世界模型可以提高Agent在動態(tài)環(huán)境中的適應能力。
多智能體協(xié)作:通過博弈論和聯(lián)邦學習,多智能體系統(tǒng)實現(xiàn)高效的協(xié)作。
可解釋性提升:因果推理模型 + 決策樹蒸餾可以提高Agent的可解釋性,Agent的決策過程更加透明。
價值觀對齊:基于人類反饋的強化學習(RLHF)可以解決Agent的價值觀對齊問題。
2.3.2 行業(yè)應用
Agent技術在多個領域展示了其強大的應用價值。

Agent行業(yè)應用效果
Agent的落地應用始終面臨真實世界的復雜性挑戰(zhàn)。要處理工業(yè)質檢中的視覺缺陷檢測、金融報告中的圖表解析等任務,必須突破單模態(tài)限制——這正是多模態(tài)大模型的技術使命。

多模態(tài)技術應用
多模態(tài)大模型的應用非常廣泛,涵蓋了多個行業(yè)和領域。本文分享三個團隊的工作,紫東太初多模態(tài)預訓練、360團隊多模態(tài)世界目標檢測、騰訊團隊視頻號多模態(tài)審核。
3.1 紫東太初--多模態(tài)任務統(tǒng)一
將目標檢測、分割、OCR等傳統(tǒng)CV任務統(tǒng)一到圖文大模型中是紫東太初項目中的核心技術之一。使用LLM的自回歸統(tǒng)一編碼預測,在統(tǒng)一表達的同時,顯式增強了圖文大模型的局部感知能力。
任務設計:為了加強多模態(tài)大模型視覺局部理解能力,在MLLM回歸任務中統(tǒng)一傳統(tǒng)CV任務,數(shù)據集新增了900k條 包含box,mask,細粒度標準的定位數(shù)據。不同的多模態(tài)任務通過指令跟隨實現(xiàn),比如指代檢測、指代分割等。

CV與文本任務統(tǒng)一(注:紫東太初團隊在ML-Summit大會分享)
訓練策略:第一階段使用圖文數(shù)據對,實現(xiàn)模型跨模態(tài)間對齊;第二階段,使用多模態(tài)指代任務以及一系列細粒度任務,增強模型數(shù)據能力。第三階段,運用強化學習,讓模型更好跟隨用戶指令,明白使用意圖。

不同階段訓練策略(注:紫東太初團隊在ML-Summit大會分享)
模型效果:訓練多模態(tài)大模型不僅有優(yōu)秀的通用能力,也擁有視覺定位功能。視覺Grounding任務超越同期最優(yōu)定位優(yōu)化模型CogVLM-17B首次在目標檢測、開放目標計數(shù)任務上精度超越多個目標檢測、目標計數(shù)專有模型。

3.2 360研究院--開放世界目標檢測
360研究院的開放世界目標檢測技術,已廣泛應用于智能硬件、自動駕駛等領域。傳統(tǒng)小模型因泛化能力不足難以應對開放場景的檢測需求,而該任務恰恰是多模態(tài)大模型構建通用感知能力的關鍵環(huán)節(jié)。檢測能力為何成為多模態(tài)大模型的必備屬性?其必要性主要體現(xiàn)在以下四方面:

盡管目標檢測能夠幫助多模態(tài)大模型提升能力,但在實際應用中也需要解決以下幾個挑戰(zhàn)。首先是數(shù)據獲取與標注瓶頸,未知類別數(shù)據稀缺。其次是數(shù)據分布復雜性挑戰(zhàn),長尾類別識別困境。最后是模型能力跨類遷移能力弱,環(huán)境適應性不足。
3.3 騰訊--多模態(tài)視頻號審核
隨著視頻號平臺內容生態(tài)的快速擴張,視頻內容及用戶評論數(shù)量呈現(xiàn)持續(xù)高速增長態(tài)勢,而人工審核(人審)在應對海量審核任務時正面臨明顯的效率瓶頸與質量挑戰(zhàn)。為有效提升內容審核的時效性與準確性,亟需構建覆蓋算法模型優(yōu)化、審核機制創(chuàng)新、標準體系完善及數(shù)據可解析性提升等維度的綜合解決方案。
模型層面:引入垂類大模型。
強大的自然語言處理能力,準確識別潛在的違規(guī)信息。多模態(tài)模型可以多種類型的數(shù)據,全面覆蓋審核需求。
審核層面:分甬道審核流程。
疑似低違規(guī)(白甬道):對于疑似違規(guī)程度低的內容,簡化審核流程,減少人工干預,從而大幅提高審核效率。
疑似高違規(guī)(黑甬道):對于疑似違規(guī)程度高的內容,并提供違規(guī)信息的預警,幫助審核員集中精力處理高違規(guī)內容。

視頻號審核系統(tǒng)解決方案
多維度特征輸入:視頻圖片,文本內容(標題、圖片OCR、ASR、評論)等多維度數(shù)據,幫助模型更準確地判斷是否有害。
模型基座預訓練:模型輔助+人工標注的方式構建垂類場景預訓練數(shù)據集,選擇通用多模態(tài)基座在垂類數(shù)據上預訓練。
數(shù)據優(yōu)化與微調:基于人工審核反饋,進行了多輪迭代優(yōu)化訓練,確保其在實際應用中具備更高的準確性和魯棒性。

多元信息數(shù)據流融合
騰訊視頻審核系統(tǒng)融合文本RAG(政策庫檢索)與多模態(tài)內容理解,通過審核Agent實現(xiàn)違規(guī)內容主動攔截。

大模型未來發(fā)展趨勢
算法層面:模型將從網絡架構、動態(tài)可學習、多模態(tài)對齊統(tǒng)一展現(xiàn)出全模態(tài)能力(AGI)
產品層面:將會看到越來越多以大模型為基礎復雜系統(tǒng),具有人機協(xié)同交互能力。
領域層面:在各垂類領域深度結合,推動社會資源的重構。能力由軟到硬,AI機器人將直接用于真實世界。

未來大模型將呈現(xiàn)三螺旋發(fā)展:RAG向多模態(tài)知識圖譜演進,構建虛實融合的認知網絡;Agent向具身智能進化,形成環(huán)境自適應決策系統(tǒng);多模態(tài)向神經符號系統(tǒng)升級,實現(xiàn)可解釋的感知推理。三者深度融合將催生新一代產業(yè)智能體,在手術機器人、智能電網等場景實現(xiàn)感知-認知-決策-執(zhí)行的完整閉環(huán)。
備注:文章部分圖片源于互聯(lián)網及公開論文,多模態(tài)任務統(tǒng)一章節(jié)圖示來源于紫東太初團隊在ML-Summit大會分享。
本文轉載自「騰訊云開發(fā)者」,點擊下方名片查看原文。
熱門跟貼