規(guī)劃(Planning)是大模型智能體的核心能力,廣泛應用于大模型的多工具調(diào)用、具身智能場景中的復雜任務拆解和多機器人協(xié)同、復雜問題的求解、醫(yī)學場景中的疑難雜癥診斷分析,AI for Science中的實驗方案設計等。相較于普通的推理能力,規(guī)劃更加依賴于結(jié)構(gòu)化思維建模(Structure Thinking),而非單一的線性思維過程。研究表明,目前的大模型在規(guī)劃能力上仍有顯著不足,尤其在處理圖結(jié)構(gòu)類型的工作流任務時表現(xiàn)薄弱。未來,提升大模型在復雜規(guī)劃任務中的表現(xiàn),特別是增強其對圖結(jié)構(gòu)任務的理解與規(guī)劃能力,將是推動智能體廣泛應用的關鍵之一。

論文題目: Benchmarking Agentic Workflow Generation 論文鏈接: https://arxiv.org/abs/2410.07869 代碼鏈接: https://github.com/zjunlp/WorfBench
大模型智能體正在迅速發(fā)展,能力已不再局限于 API 調(diào)用。
諸如OpenAI的Operator和Anthropic的Computer Use等,能夠像人類一樣直接與界面交互,執(zhí)行復雜操作。
在處理這類復雜任務的過程中,大模型智能體將問題分解為可執(zhí)行的工作流(Workflow)是關鍵的一步。然而,這一核心能力目前缺乏完善的評測基準。
現(xiàn)有的數(shù)據(jù)集和評估框架存在明顯局限性:要么僅關注規(guī)劃任務的端到端性能,要么在場景覆蓋范圍、工作流結(jié)構(gòu)的復雜性以及評估標準的全面性上存在不足。完善的工作流評測基準對于推動大模型智能體在真實場景中的應用和性能提升至關重要。
為解決上述問題,浙大通義聯(lián)合發(fā)布WorfBench——一個涵蓋多場景和復雜圖結(jié)構(gòu)工作流的統(tǒng)一基準,以及WorfEval——一套系統(tǒng)性評估協(xié)議,通過子序列和子圖匹配算法精準量化大模型生成工作流的能力。這一研究不僅填補了現(xiàn)有評估體系的空白,還為未來大模型智能體在復雜任務中的應用提供了重要的參考。

一、WorfBench構(gòu)建與評估
WorfBench利用GPT自動化構(gòu)建多場景任務,包括problem solving、function calling、embodied planning和open-ended planning等,生成了包含18k訓練樣本、2146測試樣本和723個OOD的評測數(shù)據(jù)集。作者將工作流建模為有向無環(huán)圖(DAG),以更精確地表示現(xiàn)實世界中的復雜串行或并行智能體工作流。為了確保數(shù)據(jù)質(zhì)量,作者引入了節(jié)點鏈作為中間結(jié)構(gòu),并采用拓撲排序(Topological Sorting)算法對圖結(jié)構(gòu)進行質(zhì)量過濾,并在測試集上進行人工驗證。

WorfEval則通過子序列和子圖匹配算法,分別從鏈結(jié)構(gòu)和圖結(jié)構(gòu)兩個維度對大模型生成的工作流進行量化評估,從而精準衡量模型的線性規(guī)劃和圖規(guī)劃能力。
二、基準評測結(jié)果
作者在WorfBench上對18種不同規(guī)模的主流大模型進行了全面評估,包括閉源模型(如O1、GPT-4、Claude-3.5)和開源模型(如Llama系列、Qwen系列等)。實驗結(jié)果顯示,與線性結(jié)構(gòu)相比,模型在圖結(jié)構(gòu)工作流預測上的能力遠未達到現(xiàn)實需求,即使是性能卓越的GPT-4,其圖結(jié)構(gòu)工作流的平均性能也僅為52.47%。
此外,作者還對兩個開源模型進行了訓練,并在OOD任務上評估其泛化能力。結(jié)果表明,盡管在訓練集上表現(xiàn)出色,但在未見過的任務上,模型的泛化能力仍有待提高。這表明,僅通過數(shù)據(jù)擬合目前仍難以實現(xiàn)結(jié)構(gòu)化工作流規(guī)劃能力的有效學習。

三、工作流生成分析
通過對實驗結(jié)果的深入分析,作者發(fā)現(xiàn)大模型在工作流生成中存在顯著的線性規(guī)劃與圖規(guī)劃能力差距,且圖規(guī)劃能力與模型規(guī)模并非完全正相關。例如,部分7B模型在某些任務上超越了13B模型,這可能與模型訓練數(shù)據(jù)的規(guī)模和質(zhì)量有關。
此外,作者還發(fā)現(xiàn),即使提供標簽節(jié)點鏈以簡化圖結(jié)構(gòu)預測任務,模型的圖規(guī)劃性能仍不理想,這表明圖規(guī)劃的復雜性在于對任務依賴關系的理解。

進一步的錯誤分析顯示,大模型在工作流生成中的典型錯誤主要集中在任務分解的粒度、任務描述的明確性、圖結(jié)構(gòu)的正確性以及輸出格式的規(guī)范性四個方面。這些錯誤大多源于模型對環(huán)境知識的缺乏。
因此,未來的研究方向可能包括優(yōu)化提示策略、采用多智能體架構(gòu),以及將世界知識或世界模型更深入地融入大模型中,以提升其對現(xiàn)實世界的理解能力。
四、工作流知識增強智能體
作者探討了工作流在智能體規(guī)劃中的重要作用。研究發(fā)現(xiàn),工作流不僅可以作為一種流程先驗知識直接指導智能體的規(guī)劃過程,幫助其在復雜任務中更高效地執(zhí)行,還可以作為鏈式思考(Chain-of-Thought, CoT)的增強手段,通過為智能體提供更相關的API選擇,減輕其在多步任務中的負擔。


此外,工作流的圖結(jié)構(gòu)特性能夠?qū)崿F(xiàn)并行任務執(zhí)行,顯著減少推理時間,同時減少智能體在規(guī)劃過程中的步驟數(shù),提升任務完成效率。這些結(jié)果表明,工作流不僅是連接任務與具體執(zhí)行動作的橋梁,還能顯著提升智能體在復雜任務中的表現(xiàn)和效率。

作者:喬碩斐 來源:公眾號【ZJUKG】
llustration From IconScout By IconScout Store
-The End-
掃碼觀看!
本周上新!
“AI技術(shù)流”原創(chuàng)投稿計劃
TechBeat是由將門創(chuàng)投建立的AI學習社區(qū)(
www.techbeat.net) 。 社區(qū)上線600+期talk視頻,3000+篇技術(shù)干貨文章,方向覆蓋CV/NLP/ML/Robotis等;每月定期舉辦頂會及其他線上交流活動,不定期舉辦技術(shù)人線下聚會交流活動。我們正在努力成為AI人才喜愛的高質(zhì)量、知識型交流平臺,希望為AI人才打造更專業(yè)的服務和體驗,加速并陪伴其成長。
投稿內(nèi)容
// 最新技術(shù)解讀/系統(tǒng)性知識分享 //
// 前沿資訊解說/心得經(jīng)歷講述 //
投稿須知
稿件需要為原創(chuàng)文章,并標明作者信息。
我們會選擇部分在深度技術(shù)解析及科研心得方向,對用戶啟發(fā)更大的文章,做原創(chuàng)性內(nèi)容獎勵
投稿方式
發(fā)送郵件到
melodybai@thejiangmen.com
或添加工作人員微信(yellowsubbj)投稿,溝通投稿詳情;還可以關注“將門創(chuàng)投”公眾號,后臺回復“投稿”二字,獲得投稿說明。
關于我“門”
將門是一家以專注于數(shù)智核心科技領域的新型創(chuàng)投機構(gòu),也是北京市標桿型孵化器。 公司致力于通過連接技術(shù)與商業(yè),發(fā)掘和培育具有全球影響力的科技創(chuàng)新企業(yè),推動企業(yè)創(chuàng)新發(fā)展與產(chǎn)業(yè)升級。
將門成立于2015年底,創(chuàng)始團隊由微軟創(chuàng)投在中國的創(chuàng)始團隊原班人馬構(gòu)建而成,曾為微軟優(yōu)選和深度孵化了126家創(chuàng)新的技術(shù)型創(chuàng)業(yè)公司。
如果您是技術(shù)領域的初創(chuàng)企業(yè),不僅想獲得投資,還希望獲得一系列持續(xù)性、有價值的投后服務,歡迎發(fā)送或者推薦項目給我“門”:
bp@thejiangmen.com
點擊右上角,把文章分享到朋友圈
熱門跟貼