
摘要
復(fù)雜系統(tǒng)以其眾多實(shí)體間錯(cuò)綜復(fù)雜的相互作用為特征,涌現(xiàn)出的行為在數(shù)據(jù)驅(qū)動(dòng)的建模與控制中具有極其重要的意義,尤其是在觀測(cè)數(shù)據(jù)豐富,但干預(yù)成本高昂的情況下。傳統(tǒng)方法依賴于精確的動(dòng)態(tài)模型或者大量的干預(yù)數(shù)據(jù),但這在實(shí)際應(yīng)用中并不現(xiàn)實(shí)。為了解決這一問題,我們考慮了一個(gè)特定的復(fù)雜系統(tǒng)控制問題:在擁有大量自然演化觀測(cè)數(shù)據(jù)的情況下,如何通過在一些可干預(yù)節(jié)點(diǎn)上進(jìn)行少量在線交互來控制復(fù)雜系統(tǒng)。我們引入了一個(gè)兩階段模型預(yù)測(cè)復(fù)雜系統(tǒng)控制框架,包括一個(gè)離線預(yù)訓(xùn)練階段,利用豐富的觀測(cè)數(shù)據(jù)捕捉自發(fā)演化動(dòng)態(tài),以及一個(gè)在線微調(diào)階段,使用模型預(yù)測(cè)控制的變體來實(shí)施干預(yù)行動(dòng)。針對(duì)復(fù)雜系統(tǒng)中狀態(tài)-行動(dòng)空間的高維特性,我們提出了一種新穎的方法,采用動(dòng)作擴(kuò)展圖神經(jīng)網(wǎng)絡(luò)(action-extended graph neural networks)來建模復(fù)雜系統(tǒng)的馬爾可夫決策過程,并設(shè)計(jì)了一個(gè)分層的行動(dòng)空間來學(xué)習(xí)干預(yù)行動(dòng)。該方法在三個(gè)復(fù)雜系統(tǒng)控制環(huán)境(Boids、Kuramoto和易感-感染-易感(Susceptible-Infectious-Susceptible,SIS)元種群模型)中表現(xiàn)良好。與基線算法相比,它具有更快的收斂速度、更強(qiáng)的泛化能力和更低的干預(yù)成本。這項(xiàng)工作為控制具有高維狀態(tài)-行動(dòng)空間和有限干預(yù)數(shù)據(jù)的復(fù)雜系統(tǒng)提供了寶貴的見解,為現(xiàn)實(shí)世界的挑戰(zhàn)帶來了有前景的應(yīng)用。
研究領(lǐng)域:復(fù)雜系統(tǒng)控制,圖神經(jīng)網(wǎng)絡(luò),模型預(yù)測(cè)控制,分層動(dòng)作空間

論文題目:Model predictive complex system control from observational and interventional data 發(fā)表時(shí)間:2024年9月19日 論文地址:https://doi.org/10.1063/5.0195208 期刊名稱:Chaos
復(fù)雜系統(tǒng) (如交通網(wǎng)絡(luò)、鳥群運(yùn)動(dòng)、流行病傳播) 由大量相互作用的主體構(gòu)成,其涌現(xiàn)行為難以通過單一組件的特性預(yù)測(cè)。傳統(tǒng)控制方法依賴精確的動(dòng)力學(xué)模型或海量干預(yù)數(shù)據(jù),但在實(shí)際場景中,系統(tǒng)的高維狀態(tài)空間和有限的干預(yù)資源往往成為瓶頸。例如,城市交通信號(hào)燈調(diào)控需平衡實(shí)時(shí)車流觀測(cè)與信號(hào)調(diào)整成本,而傳統(tǒng)強(qiáng)化學(xué)習(xí)算法 (如PPO) 因需頻繁試錯(cuò)干預(yù),難以直接應(yīng)用。如何在少量在線干預(yù)下,結(jié)合豐富的觀測(cè)數(shù)據(jù)實(shí)現(xiàn)高效控制?北京師范大學(xué)系統(tǒng)科學(xué)學(xué)院張江老師團(tuán)隊(duì)在Chaos發(fā)表的論文提出了一種創(chuàng)新的兩階段框架——模型預(yù)測(cè)復(fù)雜系統(tǒng)控制(Model Predictive Complex System Control,MPCSC),為解決這一難題提供了新思路。該文也收入在Chaos的數(shù)據(jù)驅(qū)動(dòng)的復(fù)雜系統(tǒng)建模特刊 (https://pubs.aip.org/cha/collection/13407/Data-Driven-Models-and-Analysis-of-Complex-Systems) 。
論文一作北師大系統(tǒng)科學(xué)學(xué)院在讀博士牟牧云也在集智俱樂部讀書會(huì)上對(duì)這篇文章有具體的分享和解讀,歡迎大家加入讀書會(huì)一起交流。
兩階段框架:離線學(xué)習(xí),在線干預(yù)微調(diào)
研究關(guān)注的特定復(fù)雜系統(tǒng)控制問題,其特征是具有大量的觀測(cè)數(shù)據(jù)和有限的在線干預(yù)數(shù)據(jù),而且具有時(shí)空馬爾可夫特性,即任何給定節(jié)點(diǎn)的狀態(tài)僅依賴于前一步中自身和它鄰居的狀態(tài)。充分利用數(shù)據(jù)特征,MPCSC框架設(shè)計(jì)了“觀測(cè)-干預(yù)”協(xié)同學(xué)習(xí)的兩個(gè)步驟:
離線預(yù)訓(xùn)練階段:使用大量的觀測(cè)軌跡對(duì)動(dòng)力學(xué)轉(zhuǎn)換模型進(jìn)行預(yù)訓(xùn)練,這些軌跡反映了動(dòng)態(tài)復(fù)雜系統(tǒng)在沒有干預(yù)作用的情況下的自發(fā)演化。為所有干預(yù)行動(dòng)使用占位符,動(dòng)力學(xué)轉(zhuǎn)換模型兼容后續(xù)干預(yù)場景的數(shù)據(jù),其中干預(yù)操作設(shè)置為0。
在線微調(diào)階段:利用預(yù)訓(xùn)練的動(dòng)力學(xué)轉(zhuǎn)換模型,與環(huán)境進(jìn)行交互以實(shí)現(xiàn)控制目標(biāo),借助模型預(yù)測(cè)控制 (MPC) 選擇干預(yù)動(dòng)作。具體而言,為交叉熵方法 (CEM) 規(guī)劃方法設(shè)計(jì)了一個(gè)分層動(dòng)作空間,以促進(jìn)動(dòng)作學(xué)習(xí)。在干預(yù)階段收集的數(shù)據(jù)都會(huì)擴(kuò)充訓(xùn)練數(shù)據(jù)集,定期使用這個(gè)擴(kuò)充后的數(shù)據(jù)集更新動(dòng)力學(xué)轉(zhuǎn)換模型。

圖 1. MPCSC架構(gòu)。左側(cè)是離線觀察階段和在線干預(yù)訓(xùn)練階段,這兩個(gè)階段的數(shù)據(jù)輸入到動(dòng)作擴(kuò)展的GNN中學(xué)習(xí)圖動(dòng)力學(xué)。右側(cè)展示的是使用分層動(dòng)作空間CEM的模型預(yù)測(cè)控制方法。
圖神經(jīng)網(wǎng)絡(luò):捕捉復(fù)雜系統(tǒng)的時(shí)空不變性
圖神經(jīng)網(wǎng)絡(luò)可以有效地利用這種馬爾科夫的時(shí)空機(jī)制不變性來表示節(jié)點(diǎn)的狀態(tài)。在離線和在線兩個(gè)階段,研究都使用共享動(dòng)作擴(kuò)展的圖神經(jīng)網(wǎng)絡(luò)(GNN)來模擬復(fù)雜系統(tǒng)的動(dòng)力學(xué)。加入干預(yù)作用的GNN能夠在適應(yīng)在線干預(yù)的同時(shí)捕捉復(fù)雜系統(tǒng)的自發(fā)演化動(dòng)態(tài)。MPCSC的GNN有如下兩大特點(diǎn):
聚合鄰居信息:采用動(dòng)態(tài)圖注意力變體模型 GATv2,動(dòng)態(tài)加權(quán)鄰居節(jié)點(diǎn)的影響,與其他GNN算法 (如GCN) 相比,有更強(qiáng)的表示能力。
融合干預(yù)動(dòng)作:將干預(yù)信號(hào)與節(jié)點(diǎn)狀態(tài)拼接,輸入多層感知機(jī) (MLP) 預(yù)測(cè)下一時(shí)刻狀態(tài) (圖2) 。未干預(yù)節(jié)點(diǎn)則使用占位符動(dòng)作,確保模型兼容混合數(shù)據(jù)。
為了更好地捕獲模型的不確定性,研究采用了類似于PETS中使用的集成學(xué)習(xí)方法。預(yù)測(cè)損失函數(shù)使用的是預(yù)測(cè)與真實(shí)數(shù)據(jù)之間的均方誤差 (MSE) ,參數(shù)通過基于MSE的反向傳播進(jìn)行更新。

圖 2. 動(dòng)作擴(kuò)展的GNN。節(jié)點(diǎn)Si聚合鄰居狀態(tài)信息Sj,Sk,結(jié)合干預(yù)動(dòng)作ai,通過MLP確定其下一時(shí)刻狀態(tài)。
分層動(dòng)作空間:優(yōu)化干預(yù)控制
基于復(fù)雜系統(tǒng)的學(xué)習(xí)圖動(dòng)力學(xué),MPCSC框架采用交叉熵方法 (CEM) ,即模型預(yù)測(cè)控制 (MPC) 的一種變體,來生成在復(fù)雜系統(tǒng)中執(zhí)行的分層干預(yù)動(dòng)作。分層動(dòng)作空間被分為三步:
確定干預(yù)數(shù)量(How Many):從概率分布中采樣需干預(yù)的節(jié)點(diǎn)數(shù),避免全節(jié)點(diǎn)操作的資源浪費(fèi)。
選擇干預(yù)位置(Where):在可干預(yù)節(jié)點(diǎn)集中無放回抽樣已確定干預(yù)數(shù)量的節(jié)點(diǎn),鎖定干預(yù)的目標(biāo)節(jié)點(diǎn)。
生成干預(yù)值(What):對(duì)每個(gè)選定節(jié)點(diǎn),從高斯分布中采樣具體動(dòng)作相應(yīng)的值,通過交叉熵方法(CEM)迭代優(yōu)化分布參數(shù)。
通過在學(xué)習(xí)好的圖動(dòng)力學(xué)中對(duì)每個(gè)動(dòng)作序列進(jìn)行評(píng)估,獲得它們的累積獎(jiǎng)勵(lì),選擇累積獎(jiǎng)勵(lì)最高的前k個(gè)序列作為精英組。然后,使用精英組通過近似極大似然估計(jì)更新概率分布參數(shù)。最后,從時(shí)刻t的動(dòng)作概率分布中采樣一個(gè)動(dòng)作,并在環(huán)境中執(zhí)行后系統(tǒng)過渡到下一個(gè)狀態(tài)。
多場景驗(yàn)證:從鳥群、同步到流行病防控
為了驗(yàn)證所提框架的有效性,研究選取了三個(gè)不同領(lǐng)域的復(fù)雜系統(tǒng)動(dòng)力學(xué)模型,分別是關(guān)注網(wǎng)絡(luò)同步現(xiàn)象的Kuramoto模型,建模集群行為的Boids模型,以及用于生物學(xué)和疾病傳播模擬的SIS元種群模型。
Boids鳥群模型:通過干預(yù)3只“領(lǐng)航鳥”的飛行方向,使群體對(duì)齊速度向量的速度提升2倍。
Kuramoto振子網(wǎng)絡(luò):在50個(gè)異構(gòu)振子中,僅干預(yù)30%的節(jié)點(diǎn)即可實(shí)現(xiàn)全局同步,較PETS算法收斂步數(shù)縮短40%。
SIS流行病傳播:在20個(gè)城市構(gòu)成的接觸網(wǎng)絡(luò)中,分層動(dòng)作策略顯著降低模型預(yù)測(cè)誤差,且噪聲環(huán)境下魯棒性更強(qiáng)。
實(shí)驗(yàn)證明,MPCSC在干預(yù)數(shù)據(jù)稀缺時(shí),通過融合大量觀測(cè)數(shù)據(jù),其離線預(yù)訓(xùn)練模型較“零觀測(cè)”基線在測(cè)試損失上降低達(dá)70%,且網(wǎng)絡(luò)規(guī)模越大優(yōu)勢(shì)越顯著。通過少量干預(yù)數(shù)據(jù)實(shí)現(xiàn)高效控制,同時(shí)顯著降低干預(yù)成本。

圖 3. 不同算法的對(duì)比實(shí)驗(yàn):(a)和(b)分別描述了Kuramoto和Boids環(huán)境下整個(gè)軌跡內(nèi)順序參數(shù)和同步指標(biāo)的變化情況;(c)分別描述了SIS元種群環(huán)境下完整軌跡中易感種群的比例。

圖 4.(a) - (c)表示Kuramoto、Boids和SIS元種群環(huán)境中的返回的事件。每個(gè)子圖說明的是,在不同數(shù)量的觀測(cè)數(shù)據(jù)下,算法在一個(gè)事件中的表現(xiàn)如何隨著在線交互干預(yù)數(shù)據(jù)步驟增加而變化。(d) - (f)分別表示三種環(huán)境下的測(cè)試損失,表示模型應(yīng)用于各測(cè)試數(shù)據(jù)集時(shí)的預(yù)測(cè)誤差。
學(xué)術(shù)啟示:數(shù)據(jù)協(xié)同與結(jié)構(gòu)先驗(yàn)的融合
MPCSC的成功揭示了復(fù)雜系統(tǒng)控制的兩大原則:觀測(cè)與干預(yù)的互補(bǔ)性,自然演化數(shù)據(jù)蘊(yùn)含系統(tǒng)內(nèi)在動(dòng)力學(xué),而干預(yù)數(shù)據(jù)揭示外部控制響應(yīng),二者結(jié)合可突破“因果推斷鴻溝”。圖結(jié)構(gòu)先驗(yàn)的嵌入,GNN對(duì)交互網(wǎng)絡(luò)的顯式建模,較傳統(tǒng)MLP更適配復(fù)雜系統(tǒng)的空間依賴性,尤其在節(jié)點(diǎn)屬性異構(gòu)時(shí)泛化能力顯著提升。未來,如何結(jié)合網(wǎng)絡(luò)結(jié)構(gòu)推斷 (如未知的路網(wǎng)連接) 與在線自適應(yīng)探索,將是該框架邁向現(xiàn)實(shí)應(yīng)用的關(guān)鍵。此項(xiàng)研究為智慧城市、群體機(jī)器人等場景提供了極具潛力的控制范式。
彭晨| 編譯
復(fù)雜系統(tǒng)自動(dòng)建模讀書會(huì)第二季
“復(fù)雜世界,簡單規(guī)則”。
集智俱樂部聯(lián)合復(fù)旦大學(xué)智能復(fù)雜體系實(shí)驗(yàn)室青年研究員朱群喜、浙江大學(xué)百人計(jì)劃研究員李樵風(fēng)、清華大學(xué)電子工程系數(shù)據(jù)科學(xué)與智能實(shí)驗(yàn)室博士后研究員丁璟韜、美國東北大學(xué)物理系A(chǔ)lbert-László Barabási指導(dǎo)的博士后高婷婷、北京大學(xué)博雅博士后曹文祺、復(fù)旦大學(xué)數(shù)學(xué)科學(xué)學(xué)院應(yīng)用數(shù)學(xué)方向博士研究生趙伯林、北京師范大學(xué)系統(tǒng)科學(xué)學(xué)院博士研究生牟牧云,共同發(fā)起。
讀書會(huì)將于9月5日起每周四晚上20:00-22:00進(jìn)行,探討四個(gè)核心模塊:數(shù)據(jù)驅(qū)動(dòng)的復(fù)雜系統(tǒng)建模、復(fù)雜網(wǎng)絡(luò)結(jié)構(gòu)推斷、具有可解釋性的復(fù)雜系統(tǒng)推斷(動(dòng)力學(xué)+網(wǎng)絡(luò)結(jié)構(gòu))、應(yīng)用-超材料設(shè)計(jì)和城市系統(tǒng),通過重點(diǎn)討論75篇經(jīng)典、前沿的重要文獻(xiàn),從黑盒(數(shù)據(jù)驅(qū)動(dòng))到白盒(可解釋性),逐步捕捉系統(tǒng)的“本質(zhì)”規(guī)律,幫助大家更好的認(rèn)識(shí)、理解、預(yù)測(cè)、控制、設(shè)計(jì)復(fù)雜系統(tǒng),為相關(guān)領(lǐng)域的研究和應(yīng)用提供洞見。歡迎感興趣的朋友報(bào)名參與!
詳情請(qǐng)見:
集智科學(xué)研究中心
集智科學(xué)研究中心是門頭溝民政局批準(zhǔn)成立、門頭溝科信局主管的民辦非企業(yè),致力于營造跨學(xué)科探索小生境,催化復(fù)雜性科學(xué)新理論。集智研究中心長期關(guān)注復(fù)雜科學(xué)中的核心問題,如涌現(xiàn)、因果、自指、意識(shí)、生命起源等等,并充分結(jié)合人工智能機(jī)器學(xué)習(xí)技術(shù)嘗試解決這些問題。目前已有15篇文章發(fā)表于國際期刊,其中包括一篇因果涌現(xiàn)的綜述和一篇生命起源的綜述。這里的文章大部分產(chǎn)生于集智社區(qū)讀書會(huì)。
部分研究成果報(bào)道:

訪問集智科學(xué)研究中心網(wǎng)站了解詳情:www.research.swarma.org/research
1.
2.
3.
4.
5.
6.
熱門跟貼