利用大語(yǔ)言模型作為基礎(chǔ)模型構(gòu)建智能體(LLM-based agents)是當(dāng)今熱門的研究領(lǐng)域,美國(guó)斯坦福大學(xué)團(tuán)隊(duì)提出的 Smallville AI 小鎮(zhèn)更是作為智能體社會(huì)模擬領(lǐng)域的先驅(qū)引起了廣泛關(guān)注。

過(guò)往智能體研究工作大多使用身份演繹+目標(biāo)驅(qū)動(dòng)的方式驅(qū)動(dòng)智能體的行為,也就是提供給智能體一份身份檔案(profile)和一些具體的任務(wù)指令,使其能在特定環(huán)境下提出行動(dòng),完成一些具體的任務(wù)。

(來(lái)源:課題組)
打開(kāi)網(wǎng)易新聞 查看精彩圖片
(來(lái)源:課題組)

但是這種框架下構(gòu)建的智能體是缺乏自主性的,有違人類智能形成的本質(zhì)的,用演繹和目標(biāo)指令驅(qū)動(dòng)的方式也不是智能最本質(zhì)的來(lái)源。人具有基礎(chǔ)的欲望(餓、困、乏等生理需求),在此基礎(chǔ)上有對(duì)于整潔、美觀、安全、社會(huì)聯(lián)結(jié)等各方面的自我價(jià)值追求,碳基智能體(人和動(dòng)物)也正是在這樣的內(nèi)在欲求驅(qū)動(dòng)下,自主地提出和執(zhí)行一系列日常行動(dòng),而不是被動(dòng)地接收指令和執(zhí)行指令。

基于此,北京師范大學(xué)鐘方威副教授和所在團(tuán)隊(duì)認(rèn)為要實(shí)現(xiàn)類人智能體,也需要具備賦予智能體這種欲求驅(qū)動(dòng)的自主機(jī)制,為此他們開(kāi)展了一項(xiàng)研究。該研究階段性成果以《用欲求驅(qū)動(dòng)的自主性模擬類人日常活動(dòng)》(SIMULATING HUMAN-LIKE DAILY ACTIVITIES WITH DESIRE-DRIVEN AUTONOMY) 為題在人工智能領(lǐng)域頂會(huì)國(guó)際表征學(xué)習(xí)大會(huì)(ICLR ,International Conference on Learning Representations)2025 發(fā)表。

(來(lái)源:https://openreview.net/pdf?id=3ms8EQY7f8)
打開(kāi)網(wǎng)易新聞 查看精彩圖片
(來(lái)源:https://openreview.net/pdf?id=3ms8EQY7f8)

本次研究作為對(duì)類人智能體建模的先驅(qū)探索與實(shí)踐,希望用類人欲求驅(qū)動(dòng)的價(jià)值系統(tǒng)來(lái)建模智能體的內(nèi)在動(dòng)機(jī)和自主機(jī)制,并用這些價(jià)值維度來(lái)指引它在環(huán)境中提出任務(wù)和選擇行為。研究團(tuán)隊(duì)希望通過(guò)這樣方式建模的智能體能在交互環(huán)境中生成更多樣、自然且類人的活動(dòng)序列。

(來(lái)源:資料圖)
打開(kāi)網(wǎng)易新聞 查看精彩圖片
(來(lái)源:資料圖)

研究中,該團(tuán)隊(duì)構(gòu)建了欲求驅(qū)動(dòng)智能體 D2A(Desire-driven Autonomous Agent),它主要包含價(jià)值系統(tǒng)(Value System)以及欲求驅(qū)動(dòng)規(guī)劃器(Desire-driven Planner)兩個(gè)部分。

價(jià)值系統(tǒng)負(fù)責(zé)維護(hù)預(yù)定義的一系列欲求維度的變化,模擬人類多元欲求的動(dòng)態(tài)變化機(jī)制(比如隨著時(shí)間饑餓感會(huì)增加),在行動(dòng)前將欲求滿足的感官狀態(tài)以文本描述的方式呈現(xiàn)給智能體,并在智能體行動(dòng)得到環(huán)境反饋后進(jìn)行對(duì)應(yīng)更新。

而欲求驅(qū)動(dòng)規(guī)劃器用了一種符合人類直覺(jué)的動(dòng)作擴(kuò)展方法,首先想象了多種可行的活動(dòng),之后模擬采取這些行動(dòng)后各維度欲求價(jià)值的變化情況,之后根據(jù)以上想象的結(jié)果選擇能最好滿足當(dāng)前欲求的活動(dòng)作為當(dāng)前步驟的行動(dòng)。

(來(lái)源:資料圖)
打開(kāi)網(wǎng)易新聞 查看精彩圖片
(來(lái)源:資料圖)

研究團(tuán)隊(duì)發(fā)現(xiàn)這種自主智能體框架生成的動(dòng)作序列,相較于給出明確目標(biāo)和角色檔案,或者基于顯式思考或優(yōu)先級(jí)排序的智能體范式(LLMob、ReAct 和 BabyAGI),能夠生成更像人類自然的活動(dòng)序列(更加類人)。

同時(shí),研究團(tuán)隊(duì)通過(guò)定量分析發(fā)現(xiàn) D2A 生成的動(dòng)作序列能有效地降低各欲求維度的不滿足程度(更加理性),表現(xiàn)出和人類驅(qū)動(dòng)模式較高的一致性。研究團(tuán)隊(duì)也將 D2A 擴(kuò)展到多智能體環(huán)境中進(jìn)行實(shí)驗(yàn),發(fā)現(xiàn)其能生成相比基線方法更豐富自然的活動(dòng)序列。

審稿人認(rèn)為,本次研究提出了一種新穎的動(dòng)態(tài)欲求驅(qū)動(dòng)框架,用于模擬人類的日常活動(dòng)以及人類的動(dòng)機(jī)系統(tǒng)。研究團(tuán)隊(duì)通過(guò)將需求理論轉(zhuǎn)化為可計(jì)算模型,使用內(nèi)在的價(jià)值系統(tǒng)代替了傳統(tǒng)大模型 agent 的外在任務(wù)系統(tǒng),使智能體能夠更加靈活地生成類人的活動(dòng)序列。通過(guò)無(wú)需預(yù)設(shè)指令的主動(dòng)行為生成(Proactive Action),相比 ReAct/BabyAGI/LLMob 等基線方法,研究團(tuán)隊(duì)的智能體在行為擬真度與多樣性上展現(xiàn)優(yōu)勢(shì)。

與此同時(shí),審稿人還認(rèn)為本次研究提供了靈活的框架,讓用戶能夠自己設(shè)計(jì)特定的價(jià)值維度,從而適應(yīng)不同領(lǐng)域的研究。

最后,審稿人指出,本次研究也針對(duì)不同場(chǎng)景(包括室內(nèi)和室外場(chǎng)景),人物設(shè)定以及 baseline 進(jìn)行實(shí)驗(yàn)。最終通過(guò)清晰的結(jié)果展示,論證了框架的有效性。研究團(tuán)隊(duì)通過(guò)熱力圖和不滿足度的折線圖,清晰地展示了欲求價(jià)值-行為關(guān)系以及實(shí)驗(yàn)結(jié)果對(duì)比基線模型的勝率。

總的來(lái)說(shuō),本次研究為智能體提供了一種全新的自我驅(qū)動(dòng)方法,基于自己的價(jià)值維度進(jìn)行不同活動(dòng)。研究團(tuán)隊(duì)認(rèn)為這個(gè)框架在不遠(yuǎn)的將來(lái),有望能夠應(yīng)用于大型社會(huì)模擬器(例如構(gòu)造多個(gè)不同欲求和個(gè)性的類人智能體,從而模擬一場(chǎng)社會(huì)實(shí)驗(yàn),將有望改變社會(huì)科學(xué)領(lǐng)域的研究范式)、社交機(jī)器人(通過(guò)自身的“社會(huì)連接感”以及其他價(jià)值維度需求主動(dòng)與用戶互動(dòng),或是模擬用戶當(dāng)前的狀態(tài)提供個(gè)性化服務(wù))等等。

除此之外,研究團(tuán)隊(duì)也認(rèn)為這個(gè)方向的研究能夠應(yīng)用在互動(dòng)游戲的非玩家控制角色(NPC,Non - Player Character)中,幫助 NPC 自我驅(qū)動(dòng)的生成類人交互行為。這種技術(shù)可以讓 NPC 表現(xiàn)出更自然、動(dòng)態(tài)和個(gè)性化的行為,從而增強(qiáng)游戲的沉浸感和可玩性。

由于本次工作從一個(gè)嶄新的角度提出了自主智能體的概念,且研究團(tuán)隊(duì)的實(shí)驗(yàn)設(shè)定與以往任務(wù)目標(biāo)導(dǎo)向的實(shí)驗(yàn)不同(主流的工作多在幾個(gè)公開(kāi)數(shù)據(jù)集上追求更高指標(biāo)性能以證明所提方法的創(chuàng)新性)。因此,研究團(tuán)隊(duì)的工作一開(kāi)始受到了評(píng)審人的一些質(zhì)疑,初始分?jǐn)?shù)評(píng)價(jià) 5553,低于論文被接收的標(biāo)準(zhǔn)線。

后來(lái),研究團(tuán)隊(duì)補(bǔ)充了在更多場(chǎng)景下的實(shí)驗(yàn)數(shù)據(jù),并論述了研究團(tuán)隊(duì)的建模思路的巨大潛力和推動(dòng)人工智能與其他學(xué)科交叉應(yīng)用的廣泛前景,從而說(shuō)服了四位審稿人達(dá)成一致,將分?jǐn)?shù)提升至接受線以上(6666),最終讓領(lǐng)域主席認(rèn)可了研究團(tuán)隊(duì)概念上的新穎性和貢獻(xiàn)的扎實(shí)性。

但是,目前建模還較為簡(jiǎn)化,沒(méi)有考慮各種價(jià)值維度間的層次結(jié)構(gòu),也并沒(méi)有將人類更復(fù)雜動(dòng)態(tài)的心理機(jī)制納入考慮,這些都是研究團(tuán)隊(duì)未來(lái)將考慮深入探索的方向。

此外,研究團(tuán)隊(duì)對(duì)將欲望或者價(jià)值作為一個(gè)更本質(zhì)的動(dòng)機(jī)充滿興趣。他們計(jì)劃在多智能體社會(huì)模擬主題下做出更多的工作,為之后將智能體引入人類社會(huì)中,或讓智能體與人類價(jià)值在交互中對(duì)齊做出研究團(tuán)隊(duì)的探索與嘗試。

排版:何晨龍