本期閱讀
文章信息
車輛隊列預測巡航控制研究綜述
褚端峰, 劉鴻祥, 高博麟, 王金湘, 殷國棟
10.3901/JME.2024.18.218
引用本文:
褚端峰, 劉鴻祥, 高博麟, 王金湘, 殷國棟. 車輛隊列預測巡航控制研究綜述[J]. 機械工程學報, 2024, 60(18): 218-246.
CHU Duanfeng, LIU Hongxiang, GAO Bolin, WANG Jinxiang, YIN Guodong. Survey of Predictive Cruise Control for Vehicle Platooning[J]. Journal of Mechanical Engineering, 2024, 60(18): 218-246.
原文閱讀(摘要)
摘要:車輛隊列巡航控制主要依據(jù)范圍有限的交通環(huán)境信息,但環(huán)境的高度不確定性會影響車輛建模精度與控制效果。預測巡航控制作為巡航控制的一種演進,已成為當前的研究熱點。為全面分析車輛隊列預測巡航控制的研究進展,從交通環(huán)境信息預測、隊列運動行為決策、隊內(nèi)車輛軌跡規(guī)劃、車輛軌跡跟蹤控制等4個方面進行概述。首先,介紹車輛隊列對交通環(huán)境信息的預測研究進展,包括采用車路協(xié)同獲取前方道路地理、交通等信息,以及通過車載傳感器預測周邊環(huán)境車輛運動狀態(tài),重點介紹基于深度學習的軌跡預測方法研究現(xiàn)狀及發(fā)展趨勢;其次,介紹車輛隊列協(xié)同行為決策問題的研究進展,詳細闡述博弈論與機器學習在協(xié)同行為決策領(lǐng)域的重要作用,指出模型與數(shù)據(jù)混合優(yōu)化的行為決策發(fā)展趨勢;再次,針對車輛協(xié)同軌跡規(guī)劃問題,從模型驅(qū)動與數(shù)據(jù)驅(qū)動2個角度,分別對當前研究進行梳理,并說明強化學習在協(xié)同軌跡規(guī)劃方面具備的優(yōu)勢;然后,從預測巡航控制、車輛跟蹤控制等2個方面,分別闡述車輛軌跡跟蹤控制問題,并指出基于數(shù)據(jù)和模型聯(lián)合驅(qū)動的車輛跟蹤控制方法具有較大應用潛力;最后,總結(jié)車輛隊列預測巡航控制的研究現(xiàn)狀與不足,并對該領(lǐng)域的未來發(fā)展趨勢進行展望,為其后續(xù)應用提供新思路。
關(guān)鍵詞:自動駕駛;車輛隊列;預測巡航控制;機器學習;數(shù)據(jù)和模型聯(lián)合驅(qū)動
中圖分類號:U469
0
前言
車輛隊列(Vehicle platooning,VP)在提高交通安全和效率、促進節(jié)能環(huán)保等方面均具有重要作用,已成為當前研究的熱點。在該領(lǐng)域,國內(nèi)外相關(guān)科研機構(gòu)已經(jīng)開展了一系列研究,例如美國加州AHS項目,歐洲SARTRE項目,日本Energy ITS項目,以及荷蘭GCDC項目等。加州大學伯克利分校PATH研究中心與沃爾沃公司的聯(lián)合研究表明,利用重型車輛隊列行駛,可將車間距縮短至3~6 m,使得其他車輛在重型車輛之間的換道頻率顯著降低,從而減少事故率,并在6 m間距巡航時節(jié)能達到14.5%。
協(xié)同自適應巡航控制(Cooperative adaptive cruise control,CACC)是車輛隊列的典型形式,通過車-車通信實現(xiàn)多車協(xié)同自適應巡航,有效改善了傳統(tǒng)自適應巡航控制(Adaptive cruise control,ACC)系統(tǒng)的反應遲滯問題,并在保證隊列穩(wěn)定性的前提下,通過縮短車間距、降低風阻等提高道路通行效率和車輛能效。預測巡航控制(Predictive cruise control,PCC)作為CACC的一種演進,通過車聯(lián)網(wǎng)、高精地圖等技術(shù),使車輛隊列能夠預測并匹配前方道路的坡度、曲率等地理信息以及擁堵、限速等交通信息,為車輛規(guī)劃合理的路段巡航速度,從而在保證安全性、舒適性的同時改善燃油經(jīng)濟性。當前,PCC主要將燃油經(jīng)濟性作為系統(tǒng)優(yōu)化目標,通常應用于單車輔助駕駛,尤其在重型車輛的節(jié)能駕駛方面具有良好應用前景。由于車輛隊列相較于單車在節(jié)能方面具有更為突出的效果,隨著世界各國節(jié)能減排措施的大力推進,車輛隊列PCC已成為國內(nèi)外學者的研究焦點。特別地,在大數(shù)據(jù)、新一代人工智能等新興技術(shù)的推動下,車輛隊列PCC將進一步推動智能駕駛技術(shù)的規(guī)?;瘧?。
在智能網(wǎng)聯(lián)環(huán)境下,將PCC與車輛隊列相結(jié)合,實現(xiàn)面向高級別自動駕駛的車輛隊列預測巡航控制,可極大地提高車輛隊列的行駛性能。近年來,國內(nèi)外對車輛隊列預測巡航控制開展了相關(guān)研究,主要通過優(yōu)化控制、魯棒控制等方法,來實現(xiàn)隊列穩(wěn)定性或節(jié)能駕駛。如圖1所示,借助于車路協(xié)同技術(shù)(Vehicle to everything,V2X),PCC可有效增強隊內(nèi)車輛的“預測能力”,使其提前獲取前方道路的地理、交通等信息,并通過車載傳感器預測周邊環(huán)境車輛的運動狀態(tài),從而實現(xiàn)行車安全性、經(jīng)濟性與舒適性等多目標優(yōu)化。目前,V2X主要可以分為專用短程通信(Dedicated short range communication,DSRC)與基于蜂窩移動通信的V2X(Cellular Vehicle to everything,C-V2X)兩種類型。得益于V2X技術(shù)的快速發(fā)展,隊內(nèi)車輛可通過路側(cè)與云端的高精地圖、全球衛(wèi)星導航系統(tǒng)(Global navigation satellite system,GNSS)、車載傳感器等獲得前方道路信息及車輛當前位置,進行融合處理后,輸入給隊內(nèi)車輛的預測、決策、規(guī)劃與控制模塊,實現(xiàn)車輛隊列的預測巡航控制。

車輛隊列在實際行駛過程中,會受到周圍環(huán)境車輛的干擾,需要考慮環(huán)境車輛在執(zhí)行切入/切出隊列、換道、超車、緊急制動等行為,以及前方道路條件變化(如匝道、收費站、施工區(qū))等外界激勵對多車協(xié)作狀態(tài)演化的影響,涉及軌跡預測、行為決策、軌跡規(guī)劃、跟蹤控制等4個方面的耦合研究。因此,本文從環(huán)境車輛運動軌跡預測、隊列運動行為決策、隊內(nèi)車輛軌跡規(guī)劃、車輛軌跡跟隨控制方面,對國內(nèi)外現(xiàn)有相關(guān)研究成果進行綜述與分析。
1
研究問題描述
車輛隊列預測巡航控制是涵蓋“預測、決策、規(guī)劃、跟蹤”等多個關(guān)聯(lián)環(huán)節(jié)的復雜耦合系統(tǒng),具體示意圖如圖2所示。在動態(tài)交通環(huán)境中,車輛隊列須根據(jù)前方道路信息,合理計算隊列巡航速度、間距,并實時預測周邊環(huán)境車輛運動態(tài)勢,以實現(xiàn)隊列巡航速度、間距和隊形變換的準確決策;再對隊內(nèi)車輛的運動軌跡進行實時規(guī)劃,輸出期望運動狀態(tài),最后,由車輛動力學控制系統(tǒng)對期望運動狀態(tài)予以精確跟蹤。值得注意的是,安全性、經(jīng)濟性、舒適性作為車輛隊列的重要評價指標,對隊列整體運行狀態(tài)起著至關(guān)重要的作用。因此,在決策、規(guī)劃、控制等環(huán)節(jié)中,需實現(xiàn)車輛隊列預測巡航控制的多目標優(yōu)化。

同時,由于道路環(huán)境復雜多變,車輛隊列在行駛過程中,易受到眾多外界因素的干擾,導致實際運行效果不佳。因此,確定車輛隊列行駛中最具代表性的影響因素,并對其特征狀態(tài)進行分類提取,對改善隊列行駛效果具有重要意義。基于主成分分析等統(tǒng)計學方法,結(jié)合現(xiàn)有研究經(jīng)驗,確定前方道路坡度、曲率、路面附著條件、環(huán)境車狀態(tài)、天氣、限速等作為影響隊列行駛的代表性因素;通過提取影響因素的特征狀態(tài),構(gòu)建特征參數(shù)集,可為車輛隊列的運動行為決策提供高精度、高可靠的地理與交通數(shù)據(jù)支撐。
車輛隊列預測巡航控制作為一個高度復雜的非線性耦合系統(tǒng),為有效改善車輛隊列控制效果,面臨一系列的挑戰(zhàn)。
(1) 真實交通場景復雜多變,使得動態(tài)交通目標的運動態(tài)勢易受到行駛環(huán)境、駕駛意圖,以及其他交通參與者等因素影響,導致動態(tài)交通目標運動軌跡存在高度不確定性。因此,準確的動態(tài)交通目標軌跡預測應具備處理不確定性的能力,即在充分考慮道路交通條件、駕駛意圖、其他交通參與者等先驗或后驗信息的基礎(chǔ)上,實現(xiàn)多目標群體軌跡預測,是預測巡航控制的研究難點。
(2) 在動態(tài)交通環(huán)境中,受自身因素與外界條件激勵,隊內(nèi)車輛需改變多車協(xié)作狀態(tài),以實現(xiàn)車輛間狀態(tài)演化與變遷,具有顯著的交互性。因此,如何在動態(tài)交通環(huán)境下對隊列組合與分離、隊列換道與超車等多車協(xié)作行為以及隊列加速與減速等車輛隊列保持行為進行協(xié)同決策,以實現(xiàn)安全性、經(jīng)濟性、舒適性等多目標最優(yōu),是車輛隊列預測巡航控制的關(guān)鍵。
(3) 基于物理建模的傳統(tǒng)車輛控制方法具有良好的可解釋性和控制安全性,但其性能依賴模型精度與參數(shù)標定,而深度學習、強化學習等機器學習方法雖能有效改善上述缺陷,但算法可解釋性弱且控制安全性低。因此,如何將基于數(shù)據(jù)與模型的控制方法融合,構(gòu)建數(shù)據(jù)與模型聯(lián)合驅(qū)動的高效學習機制,使控制系統(tǒng)具備學習能力,實現(xiàn)不同方法間的優(yōu)勢互補,是隊列控制亟待解決的難題。
針對上述3個方面的挑戰(zhàn),本文面向結(jié)構(gòu)化道路下的車輛隊列預測巡航控制,對現(xiàn)有研究現(xiàn)狀進行概述總結(jié),并對發(fā)展趨勢進行展望。
2
環(huán)境車輛運動軌跡預測
通過對周圍環(huán)境車輛的運動狀態(tài)信息進行預測是車輛隊列能夠從安全性、經(jīng)濟性、舒適性的多目標優(yōu)化角度做出準確決策與規(guī)劃的必要前提。在真實交通場景中,以環(huán)境車輛為代表的交通參與者會對自動駕駛車輛的決策與規(guī)劃產(chǎn)生重要影響,然而,環(huán)境車輛的運動狀態(tài)受道路結(jié)構(gòu)、交通規(guī)則與標識等先驗及駕駛員駕駛風格、其他動態(tài)交通參與者等后驗信息的影響,導致未來一段時刻內(nèi)的運動狀態(tài)具有高度不確定性特征,且當不具備V2V通信功能時,智能車輛無法準確獲取其下一時刻的駕駛行為。如圖3所示,為便于對目標車輛預測軌跡進行準確描述,做出如下定義:預測未來運動軌跡的車輛為目標車輛(Target vehicle,TV);需獲取目標車輛預測軌跡的車輛為自車(Ego vehicle,EV);在半徑為d的圓內(nèi)可能影響目標車輛未來運動態(tài)勢的車輛為周圍車輛(Surrounding vehicle,SV);在該范圍以外,不會對目標車輛造成影響的車輛為無關(guān)車輛(Non-effective vehicle,NV)。

由上述分析可知,環(huán)境車輛軌跡預測是一個極具挑戰(zhàn)性的問題,經(jīng)驗豐富的人類駕駛員可以在復雜行駛環(huán)境中預測周圍車輛的駕駛意圖與未來行駛軌跡,避免在執(zhí)行車道保持以及換道、超車等行為時發(fā)生碰撞。然而,現(xiàn)階段自動駕駛車輛在預測周圍環(huán)境車輛的運動軌跡時會受到諸多因素的影響,致使難以達到預期效果。例如:① 車輛行駛時具有顯著交互性特征,即周圍車輛的運動狀態(tài)會影響目標車輛的預測軌跡,反之,目標車輛的運動狀態(tài)也會影響周圍其他車輛的未來行駛軌跡,因此,若只根據(jù)目標車輛的歷史軌跡數(shù)據(jù)進行預測,往往會導致預測結(jié)果存在偏差;② 車輛在結(jié)構(gòu)化道路上行駛時,道路幾何結(jié)構(gòu)、交通規(guī)則與道路標識等先驗信息也會對目標車輛的預測軌跡造成影響;③ 部分車輛軌跡預測算法設(shè)計復雜,對計算設(shè)備算力需求較高,而車載計算設(shè)備存在計算資源受限問題,導致實車測試中效果欠佳。本文利用CiteSpace文獻計量軟件對車輛軌跡預測領(lǐng)域的研究進行可視化分析(圖4),并根據(jù)研究方法不同,從車輛物理模型、駕駛行為、深度學習3個方面對環(huán)境車輛運動軌跡預測研究現(xiàn)狀進行闡述。

2.1 基于車輛物理模型的軌跡預測方法
在早期的車輛軌跡預測研究中,基于車輛物理模型的軌跡預測方法因其具有結(jié)構(gòu)簡單,計算快速等特點得到了廣泛應用。車輛物理模型方法可分為車輛運動學模型、車輛動力學模型兩種,根據(jù)控制輸入(如轉(zhuǎn)向盤轉(zhuǎn)角、加速度等),車輛特性(如車重)以及外界條件(如道路附著系數(shù))對位置、航向角以及速度等車輛狀態(tài)進行預測。
動力學模型方法通過考慮影響車輛運動狀態(tài)的外力,并基于拉格朗日方程描述車輛未來的運動狀態(tài),但由于動力學模型較為復雜,因此通常采用車輛二自由度模型進行車輛軌跡預測。運動學模型基于位置、速度、加速度等車輛運動參數(shù)間的數(shù)學關(guān)系描述車輛運動,忽略了外力對運動狀態(tài)的影響,且為提高計算效率并降低求解難度,在軌跡預測過程中,基于車輛運動學模型的預測方法通常均假設(shè)車輛某些運動狀態(tài)量保持不變,例如:當速度、加速度、橫擺率、曲率等變量為恒值時,可建立固定速度(Constant velocity,CV)、固定加速度(Constant acceleration,CA)、固定橫擺率(Constant turn rate,CTR)、固定橫擺率與速度(Constant turn rate and velocity,CTRV)、固定橫擺率與加速度(Constant turn rate and acceleration,CTRA)、固定曲率與加速度(Constant curvature and acceleration,CCA)等運動學模型。
基于車輛物理模型的軌跡預測方法具有結(jié)構(gòu)簡單、計算效率高等優(yōu)點,能夠較為準確且快速的預測未來1 s內(nèi)的車輛軌跡變化結(jié)果,但由于在預測時間內(nèi)假設(shè)控制輸入變量為定值,忽略了車輛狀態(tài)連續(xù)變化、駕駛環(huán)境不確定性、道路結(jié)構(gòu)、交通規(guī)則、駕駛主觀意圖等先驗和后驗信息對預測結(jié)果的影響,導致車輛軌跡長期預測結(jié)果較差,無法滿足復雜交通工況下的行車安全需求。上述方法忽略了車輛當前狀態(tài)的不確定性,且假設(shè)物理模型足夠精確。針對由噪聲、傳感器誤差等引起的預測不確定性問題,常用卡爾曼濾波和蒙特卡洛等方法對車輛狀態(tài)變量不確定性進行建模,以改善車輛運動軌跡的預測精度。
2.2 基于駕駛行為的軌跡預測方法
基于駕駛行為的軌跡預測方法通過對加速、減速、換道、跟馳、左轉(zhuǎn)、右轉(zhuǎn)等駕駛行為進行辨識以預測車輛未來運動軌跡。相較于物理模型的車輛軌跡預測方法,該方法通過對駕駛員駕駛意圖進行辨識可使長時預測結(jié)果更加精準、可靠。當前,基于駕駛行為的軌跡預測方法可分為駕駛軌跡法和駕駛意圖辨識法2種。
2.2.1 駕駛軌跡法
駕駛軌跡法主要包括原型軌跡和高斯過程,通過對車輛歷史軌跡序列數(shù)據(jù)進行學習,以預測車輛未來軌跡變化。原型軌跡法的主要思想為將目標車輛歷史軌跡與駕駛軌跡學習庫中的軌跡進行相似度對比,在尋找到最相似軌跡后,將駕駛軌跡集中的軌跡運動狀態(tài)作為目標車輛的預測軌跡。其中,常見的軌跡相似度量指標主要包括平均歐拉距 離、Hausdorff距離、最長公共子序列(Longest common subsequence,LCS)距離、四元旋轉(zhuǎn)不變最長公共子序列(Quaternion-based rotationally invariant LCS,QRILCS)等。高斯過程是函數(shù)空間中高斯概率分布的推廣,利用高斯過程對車輛軌跡進行建模,以概率方式將車輛軌跡表示為連續(xù)函數(shù),與原型軌跡方法相比,基于高斯過程的軌跡預測方法能夠更好地處理觀測軌跡中的噪聲,具有更強的魯棒性,但該方法并未考慮車輛物理約束。
2.2.2 駕駛意圖辨識法
基于駕駛意圖識別的車輛軌跡預測方法通過準確辨識目標車輛未來時刻的駕駛意圖,并將識別結(jié)果轉(zhuǎn)化為時空維度的車輛預測軌跡,使智能車輛做出更加合理的駕駛行為決策與軌跡規(guī)劃。駕駛意圖識別問題本質(zhì)上是對駕駛員行為進行模式識別和狀態(tài)監(jiān)測,其概念最早由麻省理工學院PENTLAND等于1997年提出,首次將隱馬爾科夫模型應用于駕駛意圖辨識,并進行了駕駛模擬器和實車驗證,為后續(xù)研究奠定了理論基礎(chǔ)。駕駛員意圖識別主要通過對車輛狀態(tài)信息(如車輛位置、速度、加速度、航向角、方向盤轉(zhuǎn)角、油門與剎車踏板開度等)、駕駛員生理行為信息(如頭部與眼部特征、生物電信號、生理情緒等)、交通狀況信息(如道路結(jié)構(gòu)、交通信號與規(guī)則、其他交通參與者等)進行綜合分析,以準確識別換道、轉(zhuǎn)向、加速、制動、超車等駕駛意圖,并應用于車輛軌跡預測。目前,常用的駕駛意圖識別模型主要包括生成模型、判別模型、深度學習模型、認知模型、規(guī)則模型、半監(jiān)督模型共6種類型,具體分類如表1所示。

快速隨機搜索樹(Rapidly exploring random tree,RRT)和GP可以概率搜索駕駛行為的運動軌跡,以體現(xiàn)預測的不確定性。基于駕駛行為的預測方法,其長時預測結(jié)果較好,但存在短時預測結(jié)果不佳的缺點。為提高長短時軌跡預測精度,XIE等提出考慮駕駛行為與車輛物理模型的軌跡預測方法,通過將駕駛行為長期預測優(yōu)勢與物理模型短期預測相結(jié)合,利用交互多模型(Interactive multiple model,IMM)方法對駕駛意圖進行辨識,以提高軌跡預測的準確性,但忽略了道路結(jié)構(gòu)、其他動態(tài)交通參與者等先驗與后驗信息。同時,該研究團隊還構(gòu)建了基于動態(tài)貝葉斯網(wǎng)絡(luò)和分布式遺傳算法的駕駛行為辯識模型,以預測不同交通場景下的車輛駕駛行為,但并未考慮車輛間的交互性。為準確預測車輛換道意圖,TANG等利用車輛傳感器融合信息,提出了一種基于自適應模糊神經(jīng)網(wǎng)絡(luò)(Adaptive fuzzy neural network,AFNN)的車輛換道意圖預測方法,其中預測模型包括基于Takagi- Sugeno模糊推理的模糊神經(jīng)網(wǎng)絡(luò)以及更新隸屬度函數(shù)和規(guī)則庫的自適應學習算法。在駕駛模擬器上進行了不同速度下的測試驗證,并與神經(jīng)網(wǎng)絡(luò)(Neural network,NN)、支持向量機(Support vector machine,SVM)、多變量線性回歸等進行對比測試,預測結(jié)果表明,相較于對比方法,所提出方法具有更高的預測精度。
相較于車輛物理模型方法,基于駕駛行為的軌跡預測能夠更加準確地預測車輛軌跡,且長時預測效果更加精準、可靠。但由于忽略了與其他動態(tài)交通參與者間的交互關(guān)系,可能導致在部分復雜交通場景下軌跡預測結(jié)果失準,且短時預測結(jié)果不佳。
2.3 基于深度學習的軌跡預測方法
近年來,機器學習技術(shù)蓬勃發(fā)展,為處理連續(xù)、高維的狀態(tài)空間提供了可能,相較于上述兩種類型的車輛軌跡預測方法,基于深度學習的預測模型不僅可用于常規(guī)場景下的軌跡預測,同時可實現(xiàn)在復雜環(huán)境中對目標車輛軌跡進行精準預測。通過有效學習駕駛場景中的先驗與后驗知識,根據(jù)目標及周圍車輛的歷史觀測信息輸出多模態(tài)預測軌跡。軌跡預測方法主要有長短期記憶網(wǎng)絡(luò)(Long-short term memory,LSTM)、注意力機制、門控循環(huán)單元(Gated recurrent unit,GRU)、卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural network,CNN)、生成性對抗網(wǎng)絡(luò)(Generative adversarial network,GAN)、圖神經(jīng)網(wǎng)絡(luò)(Graph neural networks,GNN)等。需要注意的是,DL方法性能很大程度上取決于數(shù)據(jù)集中訓練數(shù)據(jù)的數(shù)量與質(zhì)量,因此,選取適當?shù)臄?shù)據(jù)集尤為重要。車輛軌跡預測常用數(shù)據(jù)集包括美國NGSIM數(shù)據(jù)集(高速公路)、美國加州伯克利大學INTERACTION數(shù)據(jù)集、德國HighD數(shù)據(jù)集(高速公路)、德國亞琛工業(yè)大學InD與RounD數(shù)據(jù)集、德國KITTI數(shù)據(jù)集、谷歌Waymo數(shù)據(jù)集、清華大學Mirror-Traffic數(shù)據(jù)集、東南大學Ubiquitous Traffic Eyes數(shù)據(jù)集、同濟大學TJRD TS數(shù)據(jù)集等。
2.3.1 循環(huán)神經(jīng)網(wǎng)絡(luò)
車輛運動軌跡預測可以視為時間序列的分類或生成任務,循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent neural network,RNN)考慮時間與空間變量的相互作用關(guān)系,對時序特征顯著的車輛軌跡數(shù)據(jù)具有一定的預測效果,但由于RNN無法有效處理長時域狀態(tài)信息,且存在梯度消失與梯度爆炸問題,因此國內(nèi)外學者普遍采用LSTM、GRU等改進RNN以預測車輛運動軌跡。LSTM作為一種能夠?qū)W習長期依賴關(guān)系的RNN模型,可以通過記憶機制有效改善RNN存在的梯度消失、梯度爆炸等問題。相較于GRU,LSTM在車輛行為預測領(lǐng)域更具代表性。KIM等考慮周圍環(huán)境車輛的運動狀態(tài),利用LSTM模型預測目標車輛運動軌跡,并在占據(jù)柵格地圖中表示預測位置的概率信息,結(jié)果表明該方法比卡爾曼濾波具有更好的預測精度。為實現(xiàn)高速公路場景下的多模態(tài)軌跡預測,DEO等提出了一種用于高速公路環(huán)境的車輛交互感知與運動預測LSTM模型(圖5),通過將目標車輛與周圍環(huán)境車輛的歷史軌跡以及高速公路車道結(jié)構(gòu)作為輸入,預測未來5 s內(nèi)車輛運動軌跡的多模態(tài)概率分布。同時,該研究團隊為豐富BEV圖像中的時間信息,設(shè)計了改進社交池化層的LSTM模型,可推理車輛間的空間依賴關(guān)系。為實時預測密集和異構(gòu)道路交通中目標物體的運動軌跡,CHANDRA等基于CNN-LSTM混合網(wǎng)絡(luò)設(shè)計了一種新型預測算法TraPHic,可利用2~4 s的歷史軌跡預測未來3~5 s內(nèi)的智能體運動軌跡。相似地,XIE等利用CNN空間擴展與LSTM時間擴展的特點,構(gòu)建了基于序列模型的車輛軌跡預測方法,并根據(jù)網(wǎng)格搜索算法優(yōu)化模型超參數(shù),滿足空間與時間上的雙精度預測要求。進一步,LI等將聚類卷積與LSTM相融合,提出了聚類卷積LSTM(Clustering convolution-LSTM,CC-LSTM)車輛軌跡預測模型,利用模糊聚類對周圍車輛相似軌跡進行聚類,以獲取軌跡時間特征并輸入到LSTM實現(xiàn)預測。

需注意的是,當周圍車輛歷史軌跡特征不顯著時,往往無法體現(xiàn)對目標車輛軌跡的影響。因此,僅依靠目標車輛與周圍車輛的歷史軌跡進行軌跡預測可能導致錯誤的預測結(jié)果,因此,神經(jīng)網(wǎng)絡(luò)模型在考慮交互性軌跡預測的基礎(chǔ)上,還需要進一步考慮駕駛意圖對預測結(jié)果的影響。為有效地提高強交互駕駛環(huán)境下的車輛軌跡預測精度,XIN等提出一種利用雙長短期記憶(Dual LSTM,DLSTM)網(wǎng)絡(luò)對周圍車輛進行長時間軌跡預測的算法,DLSTM分別用于駕駛意圖辨識和車輛軌跡預測。真實公路行駛數(shù)據(jù)的測試結(jié)果表明,所提出方法可以在5 s內(nèi)輸出更加準確、合理的預測軌跡。在此基礎(chǔ)上,為進一步提高預測結(jié)果的可靠性與模型魯棒性,季學武等考慮高速公路場景下車輛間的交互性與駕駛意圖,基于LSTM網(wǎng)絡(luò)設(shè)計了一種駕駛意圖識別與軌跡預測模型。其中,軌跡預測模型中的編碼器將車輛歷史軌跡編碼為上下文向量,并結(jié)合駕駛意圖輸入到解碼器中,最后通過混合密度網(wǎng)絡(luò)(Mixture density network,MDN)輸出車輛預測軌跡的概率分布。利用NGSIM數(shù)據(jù)集將所提方法與CTRA預測模型以及其他模型進行對比,結(jié)果顯示可有效提高車輛長時域軌跡預測精度。此外,CHOI等提出了基于隨機森林和LSTM相結(jié)合的車輛軌跡預測模型,隨機森林用于預測目標車輛周圍其他車輛的車道變更意圖,并將駕駛意圖輸入到LSTM網(wǎng)絡(luò)模型中獲得車輛預測軌跡,為驗證所提方法的有效性,利用測試車輛采集了932條車輛軌跡,并在不同場景下進行了測試驗證。
為實現(xiàn)城市交叉口車輛軌跡的準確預測,HUANG等提出了一種基于交叉口上下文關(guān)系的交通網(wǎng)絡(luò)建模算法,并利用雙向門控循環(huán)單元(Bidirectional GRU,BiGRU)預測單軌跡上的交叉口序列,該方法不僅可以屏蔽真實交通網(wǎng)絡(luò)的復雜拓撲結(jié)構(gòu),而且可以突出真實車輛軌跡中各交叉口間的關(guān)系。相似地,ZHI等利用BiGRU提取軌跡歷史序列中的運動信息,在學習車輛運動中的相互依賴性后,使用GRU解碼器模型進行軌跡預測。為同時對多個車輛進行軌跡預測,SHENG等提出了一種基于圖的時空卷積網(wǎng)絡(luò)(Graph-based spatial- temporal convolutional network,GSTCN),該網(wǎng)絡(luò)使用圖卷積網(wǎng)絡(luò)(Graph convolutional network,GCN)處理空間交互,并使用CNN捕獲時間特征,時空特征由GRU進行編碼和解碼,以生成未來軌跡分布。
2.3.2 注意力機制
注意力機制作為一種擬人化技術(shù),近年來已應用于自然語言處理、圖像處理等領(lǐng)域,但在車輛軌跡預測方面的研究仍較少。該機制通過借鑒人類視覺特征,可在有限計算資源下提高編碼器對周圍車輛運動信息的編碼效率,有效增強預測算法性能。針對城市密集交通環(huán)境中的軌跡預測問題,MESSAOUD等同時考慮交通場景、目標車輛及周圍車輛間的相互作用,提出了一種考慮多頭注意力機制的車輛軌跡預測方法。其中,CNN將地圖圖像轉(zhuǎn)換為場景特征的3D張量,每個注意力頭都模擬了目標車輛和組合上下文特征之間可能的交互方式,LSTM解碼器接收上下文向量和目標車輛編碼,并根據(jù)每個上下文在可能的預測軌跡上生成多模態(tài)概率分布。此外,為解決異構(gòu)環(huán)境下的軌跡預測問題,LAI等將GAN與注意力機制相結(jié)合,提出了一種異構(gòu)環(huán)境下的改進生成對抗網(wǎng)絡(luò)(Attended ecology embedding-generative adversarial networks,AEE-GAN),通過Info-GAN結(jié)構(gòu)獲得具有循環(huán)反饋的多模態(tài)預測軌跡(圖6)?,F(xiàn)有RNN編碼-解碼模型通常存在未考慮歷史信息記錄衰減導致的誤差累積以及歷史軌跡信息交互等問題,田彥濤 等將GRU用于編碼-解碼模型,設(shè)計了一種深度交互的周車軌跡預測模型,通過對歷史社交向量進行編碼,使模型學習車輛的歷史相對位置變化,并在解碼器中引入注意力機制以降低預測誤差,提高對周圍車輛信息的編碼效率,輸出更符合真實駕駛員的多模態(tài)預測軌跡。進一步地,為了對不同交通場景下的交互進行建模,YE等結(jié)合圖自注意力層與GRU層構(gòu)建了圖自注意力網(wǎng)絡(luò)(Graph Self-Attention Network,GSAN)模型,通過預訓練和微調(diào)組成的框架來學習車輛間的時空交互關(guān)系,并對軌跡預測與換道分類進行了驗證測試。

Transformer網(wǎng)絡(luò)是Google在2017年提出的一種seq2seq模型,該模型采用自注意力機制實現(xiàn)快速并行計算,可有效避免RNN訓練速度較慢、無法并行處理等弊端,目前已在自然語言處理、圖像處理等領(lǐng)域取得了顯著效果,在車輛軌跡預測方面同樣具有較大潛力。為解決密集城市交通環(huán)境中異質(zhì)車輛軌跡預測問題,CHEN等考慮車輛在時空上的交互性,提出了時空變換網(wǎng)絡(luò)(Spatio-temporal transformer networks,S2TNet)預測方法,通過時空變換來模擬時空交互。在ApolloScape軌跡數(shù)據(jù)集上,所提出的方法在平均位移誤差和最終位移誤差的加權(quán)和方面均有顯著優(yōu)化。多模態(tài)車輛運動軌跡預測對于提高自動駕駛安全性起著至關(guān)重要的作用,LIU 等基于Transformer體系結(jié)構(gòu)設(shè)計了一種端到端多模態(tài)運動預測模型(Multimodal Transformer),該模型可以看作是多重Transformer的堆疊,其中車輛歷史軌跡、道路信息、社會交互通過Transformer實現(xiàn)分層聚合,基于區(qū)域的訓練策略確保了預測軌跡的多模態(tài)性。進一步,LI等提出了一種基于空間交互感知的Transformer軌跡預測模型,該模型利用雙重多頭自注意力機制來獲取相鄰車輛的空間交互和軌跡的時間依賴性。此外,與只考慮編碼和解碼階段觀測軌跡之間的空間相互作用的方法不同,該模型還考慮了解碼過程中未來軌跡之間的潛在空間相互作用,NGSIM數(shù)據(jù)集評估結(jié)果顯示,該模型在長期預測中有更好的預測精度。
2.3.3 其他方法
除上述方法外,GAN、GNN等方法也被應用于解決環(huán)境車輛軌跡預測問題,并取得了良好的預測效果。
GAN作為一種基于最小最大原則的無監(jiān)督學習方法,最早由Goodfellow于2014年提出。針對城市環(huán)境下的高精度車輛軌跡預測問題,ZHAO等提出了一種改進GAN軌跡預測方法。其中,判別網(wǎng)絡(luò)由兩個獨立的網(wǎng)絡(luò)組成,分別用于接收生成網(wǎng)絡(luò)的輸入和輸出數(shù)據(jù),并通過坐標變換模型來預處理車輛軌跡數(shù)據(jù),以獲得更好的預測精度。為了使軌跡生成網(wǎng)絡(luò)輸出更加準確、可靠的預測軌跡,溫惠英等通過將對抗損失、幾何損失、速度損失加權(quán)組合為多重損失函數(shù),采用多重判別方式綜合判斷預測軌跡與真實軌跡的相似度,并分析了不同長度的歷史軌跡與預測軌跡對預測精度的影響。區(qū)別于需要明確坐標信息進行軌跡預測的方法,HSU等設(shè)計了利用RGB圖像序列信息實現(xiàn)軌跡預測的模型。該模型采用坐標增強與坐標穩(wěn)定模塊從圖像序列中提取歷史軌跡,無須顯示坐標標注,同時利用自注意力機制改進社交池性能,以更好獲得周圍車輛軌跡的上下文信息。
駕駛場景中的車輛及其相互作用可通過圖結(jié)構(gòu)方式進行表示,基于車輛圖類型數(shù)據(jù),GNN可用于預測環(huán)境車輛運動軌跡。為改善軌跡預測精度,LI等利用圖卷積進行車輛的交互性建模,并基于LSTM進行軌跡預測。進一步,為同時識別和預測異構(gòu)交通參與者的交互行為,LI等提出了一種基于GNN的多任務學習框架,通過集成損失函數(shù)實現(xiàn)軌跡預測、交互式事件識別、3D包圍盒預測等多任務學習。
綜上可知,基于DL的軌跡預測方法能夠在充分考慮車輛交互性的基礎(chǔ)上,利用深度神經(jīng)網(wǎng)絡(luò)模型強大的擬合與表征能力,實現(xiàn)在復雜行駛環(huán)境下的全時域精準軌跡預測,但該方法也存在參數(shù)量大、模型訓練難收斂、易陷入局部最優(yōu)解等弊端。另外,現(xiàn)有軌跡預測方法通常僅針對單個車輛,因此交互性只考慮了周圍車輛對目標車輛預測軌跡的單向交互,忽略了目標車輛對周圍其他車輛的反向作用,群體交互式軌跡預測通過在編碼-解碼框架中考慮車輛間的雙向交互性,可同時實現(xiàn)多個目標車輛的軌跡預測,有效保障了行車安全,目前已成為重要的前沿研究方向。
3
車輛隊列決策規(guī)劃
在本節(jié)中,對車輛隊列決策規(guī)劃系統(tǒng)的相關(guān)方法與研究進展進行梳理,研究內(nèi)容包括路徑規(guī)劃、行為決策、軌跡規(guī)劃3部分。其中,路徑規(guī)劃指車輛隊列根據(jù)道路路網(wǎng)信息生成從初始位置到預期目的地的全局參考路徑,并將得到的全局最優(yōu)參考路徑輸出到車輛行為決策與軌跡規(guī)劃模塊。常用的路徑規(guī)劃算法有Dijkstra、蟻群算法、A*算法、動態(tài)規(guī)劃(Dynamic programming,DP)算法等,此部分內(nèi)容不在討論范圍內(nèi)。
3.1 隊列運動行為決策
行為決策模塊作為自動駕駛車輛的“大腦”,是車輛隊列在動態(tài)交通環(huán)境下達到多目標優(yōu)化的關(guān)鍵,其主要功能為根據(jù)感知預測系統(tǒng)獲取的周圍環(huán)境信息與車輛運動軌跡,做出安全、合理的駕駛行為(如隊列巡航、隊列跟隨、隊列組合與分離、隊列換道、超車等),并將結(jié)果輸出給軌跡規(guī)劃模塊,以規(guī)劃出保證行車安全的最優(yōu)車輛軌跡。具體地,當外界行駛環(huán)境或自車駕駛意圖發(fā)生改變而需做出相應的決策行為時,不僅需要考慮道路結(jié)構(gòu)、交通規(guī)則、交通信號等先驗信息,還需與其他動態(tài)交通參與者進行實時交互,以做出正確的行為決策。
當前單車行為決策(如車道保持、換道、超車等)已進行較多研究,但對車輛隊列協(xié)同行為決策(如單車與車隊以及車隊間的組合與拆分、匝道合流區(qū)隊列協(xié)同合并、隊列換道與超車等)進行綜合闡述的文獻仍然較少,因此本節(jié)將對車輛隊列協(xié)同行為決策研究現(xiàn)狀進行梳理,隊列行為決策示意圖如圖7所示。

2007年美國國防高級研究計劃局(Defense Advanced Research Projects Agency,DARPA)舉辦的城市挑戰(zhàn)賽作為最早的城市交通場景下的車輛行為決策研究,其中大部分參賽車輛均通過使用有限狀態(tài)機(Finite state machine,F(xiàn)SM)、決策樹(Decision tree,DT)、啟發(fā)式算法(Heuristic algorithm,HA)等基于規(guī)則的行為決策方法,實現(xiàn)了包括超車、避障、自主泊車等各項典型駕駛?cè)蝿?。車輛行駛環(huán)境復雜多變,具有強不確定性與隨機性特征,而基于規(guī)則的行為決策方法雖具有結(jié)構(gòu)簡單、易于實現(xiàn)等優(yōu)勢,但僅適用于簡單、特定的交通場景,在復雜場景下易導致決策效果不佳。
3.1.1 狀態(tài)機方法
狀態(tài)機作為基于規(guī)則的行為決策代表性方法,分為有限狀態(tài)機與層次狀態(tài)機2種類型,因其具有較強的邏輯性與實用性而被廣泛用于車輛行為決策。狀態(tài)機模型被成功應用于DARPA挑戰(zhàn)賽中,并獲得了較好效果,但存在測試場景單一,與實際交通場景差距較大等問題。因此,研究真實交通環(huán)境下車輛的行為決策是必要的。為此,XIONG等提出了基于層次狀態(tài)機(Hierarchical state machine,HSM)的車輛換道行為決策框架,針對自由換道與強制換道兩種模式分別設(shè)計了車道獎勵模型和多源信息融合策略進行換道判別,并利用實車在真實道路環(huán)境中進行了算法有效性測試。為解決隊列協(xié)同行為決策問題,AMOOZADEH等基于有限狀態(tài)機提出了隊列協(xié)同行為決策方法,可實現(xiàn)隊列間的合并、拆分和車道變換,并利用SUMO與OMNET++對所提出方法的有效性進行了驗證。進一步,YE等開發(fā)了一種隊列協(xié)同行為決策框架(Multi-maneuver platooning framework,MANA),包括換道模塊、隊列機動模塊和空間儲備模塊。其中,換道模塊與隊列機動模塊均使用有限狀態(tài)機對隊列合并與換道進行行為決策。此外,XU等提出一種多智能體空間邏輯,采用時間自動機構(gòu)建決策控制器,當有人工駕駛車輛準備并入隊列時,決策單元可利用空間約束以保證高速場景下重型卡車隊列行為決策的安全性,避免合并過程中發(fā)生碰撞。自動駕駛車輛作為典型的混成系統(tǒng),包含離散的決策控制以及連續(xù)的車輛運動學/動力學模型,針對該特點,MA等提出一種多模式混成自動機,用于設(shè)置具有速度、距離、長度、車道位置和其他狀態(tài)信息的車輛隊列協(xié)同駕駛,并在巡航、跟馳、換道、超車、進出車庫等多種模式下進行算法有效性驗證。
基于狀態(tài)機的行為決策方法根據(jù)既定規(guī)則對車輛所處環(huán)境進行判斷,做出適當?shù)鸟{駛行為,適用于簡單交通場景,但并未考慮與周圍動態(tài)交通參與者的駕駛交互性,不適用于復雜交通駕駛場景下的車輛協(xié)同行為決策。
3.1.2 博弈論方法
在車輛換道過程中,需考慮周圍交通參與者與駕駛環(huán)境對車輛換道決策的影響,同時換道車輛也會影響周圍車輛的行駛狀態(tài),因此,車輛行為具有顯著的交互特征。博弈論通過考慮車輛間的交互作用,可將人類在駕駛車輛時的競爭與合作行為通過數(shù)學模型進行表示,對博弈中的每個車輛進行協(xié)同決策,使整體達到均衡狀態(tài)。目前,博弈論在多車協(xié)同決策方面應用較為廣泛,但由于難以確定不同因素對每個博弈者的影響,導致博弈論中為每個博弈者制定策略的收益函數(shù)設(shè)計較為困難,且博弈模型存在計算復雜度高等問題。
為使車輛間實現(xiàn)安全無碰撞合并,DOS SANTOS等基于博弈論(Game theory,GT)方法對兩車道車輛合并為單車道隊列過程進行協(xié)同決策,通過確定車輛合并次序以避免在合并過程中發(fā)生碰撞,同時還提出了一種成本函數(shù)衰減方法,防止在合并協(xié)議未達成中止合并過程。在限速30 m/s的雙車道高速公路上進行隊列合并仿真測試,測試對象從2輛合并車輛增加至26輛,結(jié)果顯示隊列合并總平均時間穩(wěn)定維持在25 s左右,平均車速保持在約22 m/s,采用函數(shù)衰減方法導致在合并過程中車速僅超過最高限速值9%。博弈論可以通過車輛間的交互作用來模擬駕駛員的駕駛行為,YAN等基于博弈論與神經(jīng)網(wǎng)絡(luò)方法構(gòu)建了車輛在高速公路場景下的多車協(xié)同行為決策模型,相較于基于規(guī)則的收益函數(shù),利用神經(jīng)網(wǎng)絡(luò)建立的收益函數(shù)可以更精準的描述車輛間的相互作用,提高模型決策精度,同時采用改進高斯粒子群優(yōu)化(Differential evolution- Gaussian particle swarm optimization,DE-GPSO)方法對模型進行標定。利用NGSIM數(shù)據(jù)集中的車道保持與換道場景對所提出的算法進行驗證,結(jié)果顯示該方法相較于另一種博弈論決策方法具有更好的協(xié)同決策效果。針對自動駕駛車輛協(xié)同換道決策問題,HRUSZCZAK等基于博弈論研究了一種CAV協(xié)同換道的行為決策方法,通過分析4種不同駕駛策略的收益函數(shù),從而使目標車輛選擇最優(yōu)的行為決策。SUMO仿真結(jié)果顯示,相較于非合作換道,合作換道雖然會使目標車道上的CAV減速4.72 km/h,但可使目標車輛的平均車速提高29.41 km/h,文中并未考慮協(xié)同換道對交通流的影響。匝道合流作為重要的交通場景之一,容易因車輛間的合流不當造成交通事故,基于博弈論的決策方法通過考慮車輛間的交互作用,可有效避免事故發(fā)生。ARBIS等基于量子響應平衡(Quantal response equilibrium,QRE)提出了一種匝道合流區(qū)車輛協(xié)同合并與讓行的預期效用決策模型,通過博弈對象決策收益函數(shù)的相關(guān)聯(lián)來體現(xiàn)交互性,并利用NGSIM數(shù)據(jù)集對決策模型的有效性進行驗證。值得注意的是,QRE假設(shè)周圍車輛的決策具有隨機性,而非納什均衡中的確定性。進一步,KANG等對高速公路匝道合流場景進行研究,基于博弈論開發(fā)了一種新型收益函數(shù)的重復博弈車輛協(xié)同決策模型,同時對決策模型進行敏感性分析,以表明所提出的模型能夠根據(jù)博弈位置、相對速度和車間距等變量的變化來做出最優(yōu)合并決策。利用NGSIM對方法進行有效性驗證,與單次博弈模型相比較,所提出的方法具有更好的預測精度,可達到86%的準確率。針對自動駕駛車輛與人工駕駛車輛在混合交通場景下的交互行為決策問題,YU等提出了一種基于不完全信息博弈的車輛換道決策模型。該模型通過轉(zhuǎn)向燈和橫向移動與周圍駕駛員進行交互來模擬人類駕駛員行為,根據(jù)目標車道的車輛行為確定最佳換道時機和加速度(圖8)。測試結(jié)果表明,基于博弈論的控制器能夠以類人的方式執(zhí)行車道操作,并且優(yōu)于基于固定規(guī)則與模型預測控制(Model predictive control,MPC)的控制器。相較于自動駕駛汽車,人工駕駛車輛具有高度不確定性特點,需考慮其對行為決策的影響。為此,HANG等基于Stackelberg博弈論提出了一種考慮周圍駕駛員社會行為的車輛換道行為決策方法。具體地,通過激進、普通、保守三種駕駛風格反映障礙車輛所表現(xiàn)的社會行為,然后利用Stackelberg博弈論將考慮社會行為的換道決策表述為非合作博弈問題進行求解。在三種不同場景下的測試結(jié)果表明,所提出的方法能夠在障礙車輛的各種社會行為下對自車進行合理決策。在此基礎(chǔ)上,該研究團隊為改善多車道合流區(qū)車輛的安全性與通行效率,提出了一種考慮不同交互駕駛行為的合作博弈車輛協(xié)同決策框架。首先根據(jù)動力學模型建立運動預測模塊,以提高決策算法的準確定與可靠性,其次將安全性、舒適性和通行效率納入到?jīng)Q策模型的成本函數(shù)及安全約束中,并在多約束條件下,基于MPC計算出各博弈對象的預測決策序列。最后,為評估方法效果,在考慮不同駕駛特性的情況下進行測試。

3.1.3 機器學習方法
近年來,隨著人工智能技術(shù)的蓬勃發(fā)展與應用,機器學習方法已經(jīng)成為自動駕駛行為決策領(lǐng)域中一種重要的解決方案。應用于多車協(xié)作行為決策的機器學習方法主要包括監(jiān)督學習與強化學習2種類型。相較于其他行為決策方法,機器學習能夠根據(jù)自然駕駛數(shù)據(jù)集或?qū)<医?jīng)驗,使車輛在復雜行駛環(huán)境下決策出更加真實、合理的駕駛行為。
(1) 監(jiān)督學習。監(jiān)督學習是指從標注數(shù)據(jù)中進行模型學習的一類機器學習方法,其本質(zhì)是學習輸入到輸出的映射的統(tǒng)計規(guī)律。為更好地理解和預測駕駛員的換道決策行為,MOTAMEDIDEHKORDI等比較了不同監(jiān)督機器學習分類器在預測換道行為方面的性能。采用NGSIM數(shù)據(jù)集,使用樸素貝葉斯、支持向量機、邏輯回歸、最近鄰、決策樹、額外樹和隨機森林分類器分別對模型進行訓練。數(shù)據(jù)集測試結(jié)果表明,額外樹、決策樹和隨機森林在預測駕駛員的換道決策方面表現(xiàn)最好。為解決自動駕駛與人工駕駛混合多車協(xié)同換道場景下的換道序列決策問題,祁宏生等基于決策樹設(shè)計了一種以車輛最短換道時長為優(yōu)化目標的協(xié)同換道決策方法,仿真結(jié)果顯示,與未考慮協(xié)同換道的方法相比,該方法可提高24%的道路通過量,有效降低換道行為對道路通行能力的影響。針對自動駕駛車輛換道決策過程的多參數(shù)以及非線性問題,LIU等采用貝葉斯優(yōu)化方法對SVM參數(shù)進行優(yōu)化,建立了BOA Gaussian-SVM車輛換道決策模型。通過分析影響車輛換道的因素,構(gòu)建考慮換道收益、安全性和容錯性的基于規(guī)則的車輛換道決策模型。利用NGSIM測試集數(shù)據(jù)將所提出的方法與基于規(guī)則的換道決策方法相比較,并進行實車試驗以驗證算法有效性。進一步,為使決策模型考慮的因素更加全面,谷新平等從道路結(jié)構(gòu)、交互感知和物理狀態(tài)3個方面提取決策特征,并輸入至BOA Gaussian- SVM決策模型實現(xiàn)車輛行為決策,使決策結(jié)果更貼合駕駛員的決策特性。同時,將精度、召回率、F1 Score和準確率作為模型評價指標,在NGSIM測試集中與貝葉斯優(yōu)化RF、梯度提升樹(Gradient boosting decision tree,GBDT)、K最近鄰算法(K-nearest neighbor,KNN)進行對比,結(jié)果顯示所提出的決策模型具有92.97%的預測準確率,性能均優(yōu)于其他決策模型,能夠較為準確地預測車輛的自由換道行為。極限學習機(Extreme learning machine,KLM)作為一種特殊的前饋神經(jīng)網(wǎng)絡(luò)(Feedforward neuron network,F(xiàn)NN),相較于SVM具有更好的學習速率與泛化優(yōu)勢,CHENG等提出了一種基于核極限學習機(Kernel extreme learning machine,K-ELM)的車輛強制換道決策方法。在該方法中,將KLM與核函數(shù)相結(jié)合,提取了多個影響換道的駕駛變量,并將其用作于K-ELM網(wǎng)絡(luò),以生成正確的換道決策。利用NGSIM數(shù)據(jù)集的車輛軌跡數(shù)據(jù),采用十倍交叉驗證方法對K-ELM網(wǎng)絡(luò)進行訓練。仿真結(jié)果表明,該方法對合并事件和非合并事件的換道決策準確率分別為92.86%和94.36%,同時,與ELM和SVM方法相比,所提方法在精度與效率方面具有更好效果。
(2) 強化學習。以深度強化學習為代表的機器學習方法,通過智能體與環(huán)境間交互,獲取未來回報最大化的策略,非常適用于解決多車協(xié)同行為決策問題?,F(xiàn)有的車輛行為決策方法通常僅關(guān)注了局部范圍內(nèi)車輛的行駛狀態(tài),忽略了執(zhí)行決策行為后對整體交通的影響。為解決該類問題,WANG等提出了一種基于深度Q網(wǎng)絡(luò)(Deep Q-network,DQN)的車輛協(xié)同換道決策模型,每一輛車的換道表示為一個馬爾科夫決策過程(Markov decision process,MDP),將相鄰車輛的位置信息作為輸入,并在獎勵函數(shù)中同時考慮了單車與整體交通效率獎勵,最后利用交通與非交通事故場景驗證所提出的車輛協(xié)同換道模型的有效性。仿真結(jié)果表明,在擁擠道路交通場景下,所提出的協(xié)同換道決策模型可以提高整體交通效率。車輛行駛過程中,周圍交通參與者的狀態(tài)往往并不能完全實時獲取,此時無法通過MDP模型對問題進行精確描述。因此,JIANG等提出了一種基于部分可觀測馬爾科夫(Partial observed MDP,POMDP)的高速公路車輛換道決策模型,利用LSTM預測目標車道的車輛行駛意圖(對抗或合作),將目標車道的車輛意圖納入狀態(tài)編碼階段,并采用DQN求解具有期望全局最優(yōu)回報的POMDP問題。
相較于其他方法,基于機器學習的行為決策方法在復雜空間下的探索能力、算法泛化能力以及計算速度等方面具有一定優(yōu)勢,但算法性能嚴重受限于訓練數(shù)據(jù)的優(yōu)劣,且算法可解釋性較差,安全性難以得到保證,不利于系統(tǒng)測試與驗證。因此,該類方法目前仍以仿真驗證為主,在真實車輛中應用難度較大。
3.1.4 模型與數(shù)據(jù)混合優(yōu)化方法
基于機器學習的車輛行為決策方法雖能精確地表達輸入與輸出之間的非線性關(guān)系,但屬于典型的“黑箱模型”,實際效果嚴重依賴訓練樣本的數(shù)量與質(zhì)量,且存在欠學習與過學習、可解釋性差、算法難以收斂等問題。為進一步提高機器學習方法決策的準確性,部分專家提出了規(guī)則與學習相結(jié)合的思想,以實現(xiàn)不同類型方法間的優(yōu)勢互補。
為解決高交通流密度場景下,車輛切入策略無法有效平衡安全性與切入性能的問題,HWANG等提出了一種將強化學習(Reinforcement learning,RL)嵌套在FSM中的FSM-RL車輛切入策略(圖9)。仿真結(jié)果表明,所提出的FSM-RL切入算法在不犧牲安全性的前提下,始終能獲得較高的切入成功率。特別是,隨著交通流量的增加,切入成功率和安全性比現(xiàn)有基于規(guī)則的切入算法和端到端RL算法有顯著提高。此外,針對自動駕駛車輛換道決策過程中的多參數(shù)與非線性問題,賈寒冰等利用規(guī)則與學習相結(jié)合的思想,提出了一種利用貝葉斯優(yōu)化算法對SVM的參數(shù)進行優(yōu)化的車輛換道決策模型。通過分析安全性、換道必要性、換道收益等影響車輛換道決策的因素,并將其作為決策模型的安全約束與決策特征,對原訓練樣本進行增廣,以改善SVM的換道行為預測準確率。利用NGSIM數(shù)據(jù)集進行仿真測試,結(jié)果顯示所提出的決策方法準確率為83.83%,相較于增廣前的訓練數(shù)據(jù)可提升10.78%。逆強化學習(Inverse reinforcement learning,IRL)作為RL算法的一種反向形式,當獎勵函數(shù)難以設(shè)計時,可通過對專家示例進行學習來獲取獎勵函數(shù),從而模擬人類駕駛員的決策行為,但無法處理高維度的駕駛環(huán)境。因此,PRATHIBA等提出了一種改進IRL決策方法,以實現(xiàn)在換道和超車場景下的車輛協(xié)同避撞。具體地,將高斯過程引入IRL中,設(shè)計了基于高斯過程回歸的IRL-GP模型,通過超參數(shù)學習與正則化對專家示例數(shù)據(jù)集中的最優(yōu)特征選擇。在做出超車和換道行為決策后,借助6G-V2X實現(xiàn)車輛間相互協(xié)作通信,可有效減少做出最佳決策所需時間。

3.2 隊內(nèi)車輛軌跡規(guī)劃
根據(jù)隊列協(xié)同行為決策結(jié)果,在滿足車輛運動學/動力學、安全性、舒適性、穩(wěn)定性、經(jīng)濟性等約束條件的前提下,對隊內(nèi)車輛的預期位移、速度、加速度等進行規(guī)劃,使其適應不同的多車協(xié)作狀態(tài)。運動規(guī)劃可分為路徑規(guī)劃與軌跡規(guī)劃兩種類型,其中路徑規(guī)劃僅生成滿足約束條件的幾何曲線,未考慮與時間相關(guān)的信息,軌跡規(guī)劃在已知路徑規(guī)劃的基礎(chǔ)上附加時間約束,根據(jù)動態(tài)交通環(huán)境信息生成一條包含時間與空間映射關(guān)系的最優(yōu)車輛軌跡。
相較于靜態(tài)環(huán)境下的單車軌跡規(guī)劃,多車協(xié)同軌跡規(guī)劃要求更為嚴格,需要使規(guī)劃路徑更為平滑且曲率較小,以保證隊列穩(wěn)定性與行車安全性。值得注意的是,為降低計算復雜度并便于實際應用,在隊列執(zhí)行換道、超車的過程中,車輛隊列軌跡規(guī)劃通常僅對領(lǐng)航車軌跡進行計算,跟隨車通過跟蹤前車位置、航向角等變量實現(xiàn)跟蹤。本節(jié)將從曲線插值、數(shù)值優(yōu)化、隨機采樣、強化學習4個方面闡述多車協(xié)同軌跡規(guī)劃的研究現(xiàn)狀。
3.2.1 曲線插值方法
曲線插值方法因其具有結(jié)構(gòu)簡單、實時性較好、易于實現(xiàn)等優(yōu)點而被廣泛應用于車輛軌跡規(guī)劃領(lǐng)域,該方法可在考慮車輛運動學與動力學特性、安全性、舒適性、道路參數(shù)等約束條件下擬合出無碰撞的安全可行駛軌跡。在隊列軌跡規(guī)劃方面,已有眾多學者采用曲線插值方法實現(xiàn)軌跡規(guī)劃,并在實車中進行了應用。
(1) 高階多項式。SCHWAB等基于3階多項式方法生成車輛橫向規(guī)劃軌跡,以保證目標車輛完成隊列合并過程,但僅考慮了車輛合并場景,并未考慮隊列分離、換道等其他場景。3階多項式僅能保證車輛速度與位移的連續(xù),無法保證車輛加速度連續(xù),易造成加速度突變,影響車輛舒適性。為進一步改善換道效果,保證車輛加速度連續(xù),張榮輝等在綜合分析車輛換道匯入車隊的協(xié)作準則與安全性后,設(shè)計了一種考慮乘坐舒適性指標函數(shù)的5階多項式軌跡規(guī)劃方法,并給出了車輛在匯入過程中的避碰準則,以確保車輛在合并過程中的安全性與穩(wěn)定性,最后通過實車測試對算法有效性進行了驗證。針對不同通信拓撲結(jié)構(gòu)下異構(gòu)隊列協(xié)同換道方法,NIE等將5階多項式與優(yōu)化方法相結(jié)合,設(shè)計了一種具有避障功能的隊列軌跡規(guī)劃方法,可根據(jù)自車與障礙車的狀態(tài)規(guī)劃出無碰撞的最優(yōu)換道軌跡。同時,采用更長的采樣周期以降低計算負擔,并根據(jù)優(yōu)化結(jié)果重新規(guī)劃軌跡,結(jié)果表明所提出的軌跡重規(guī)劃方法可有效改善算法計算效率。傳統(tǒng)高階多項式的系數(shù)通常恒定,無法較好適應不斷變化的行駛環(huán)境。因此,GOLI等采用自適應5階多項式與擺線函數(shù)方法分別對合并隊列進行橫向軌跡規(guī)劃,與傳統(tǒng)恒定5階多項式與擺線函數(shù)方法相比,所提出的2種自適應橫向軌跡方法可以生成不同速度下的規(guī)劃軌跡,有效避免了橫向加速度過大問題。在此基礎(chǔ)上,為使合并車輛順利進入隊列,在考慮前方道路信息的前提下,該研究團隊基于自適應5階多項式生成隊列車輛橫向規(guī)劃參考軌跡,以達到提前對車輛橫向軌跡進行規(guī)劃,確保合并過程中的安全性、舒適性與高效性。
(2) 貝塞爾與B樣條曲線。為實現(xiàn)隊列間的安全、高效合并,HIDALGO等提出基于貝塞爾曲線與MPC的混合軌跡規(guī)劃框架,該框架由基于5階貝塞爾曲線的標稱軌跡模型和基于MPC的積分鏈模型組成,MPC輸出的車輛橫向位置被添加到由標稱控制器生成的橫向誤差中,使車輛可以在車道變換、超車、合流等場景下規(guī)劃出安全的行車軌跡,仿真結(jié)果顯示能夠在保證安全性與舒適性的情況下實現(xiàn)多車合并。相較于多項式與貝塞爾曲線無法進行軌跡局部修改的缺點,當改變B樣條的控制點時僅會影響部分軌跡曲線形狀,可便于實現(xiàn)局部軌跡修改。VAN HOEK等基于B樣條提出了一種考慮隊列穩(wěn)定性的多車協(xié)同規(guī)劃方法,并通過通信延時、車輛初始擾動等對所提出方法的魯棒性與有效性進行了驗證。
3.2.2 優(yōu)化方法
優(yōu)化方法通常通過最大化/最小化求解多約束成本函數(shù)來生成車輛所需軌跡,主要包括MPC與數(shù)值優(yōu)化方法2種類型。作為一類常用的主流車輛軌跡規(guī)劃方法,基于優(yōu)化的方法雖易于處理車輛運動學與動力學約束,但往往計算量較大,存在實時性不足問題。
(1) MPC。基于MPC的車輛軌跡規(guī)劃方法其主要核心思想為將軌跡規(guī)劃描述為多約束的預測模型,通過滾動求解多約束優(yōu)化問題獲得車輛最優(yōu)軌跡,目前已被廣泛應用于單車軌跡規(guī)劃,但在車輛隊列與多車協(xié)同軌跡規(guī)劃領(lǐng)域仍然較少。為確保兩車隊之間實現(xiàn)安全隊列合并,PAUCA等提出了一種三層控制體系結(jié)構(gòu),包含行為決策層、軌跡規(guī)劃層、跟蹤控制層。在軌跡規(guī)劃層中,采用基于5階多項式和MPC的兩種橫向軌跡規(guī)劃方法進行對比測試,其中5階多項式在計算量與計算時間方面具有優(yōu)勢,但需要更完備的車輛狀態(tài)信息,MPC僅需車輛橫向位置信息,且換道軌跡更加平順。此外,為解決多車協(xié)同軌跡規(guī)劃問題,LIU等基于車輛單點質(zhì)量模型(Single point mass model,SPMM),提出了一種平坦路況下非線性模型預測控制器(Nonlinear model predictive control,NMPC)的車輛軌跡規(guī)劃方法,并通過連續(xù)/廣義最小殘差方式對算法進行優(yōu)化,可有效減少規(guī)劃器每次采樣的迭代次數(shù),提高NMPC的計算實時性(圖10)。車輛行駛環(huán)境具有復雜多變特性,道路坡度會對車輛規(guī)劃與控制產(chǎn)生重要影響。SHIN等提出了一種在崎嶇地形下的車輛隊列軌跡規(guī)劃算法。干擾觀測器(Disturbance observer,DOB)被引入到標稱速度規(guī)劃器中,以處理速度規(guī)劃中的不確定性,將MPC作為軌跡規(guī)劃方法并采用粒子群優(yōu)化方法求解。

(2) 數(shù)值優(yōu)化。MPC雖然可以處理多約束優(yōu)化問題,但難以考慮行車環(huán)境中的邏輯約束對軌跡規(guī)劃的影響。因此,BURGER等采用混合整數(shù)二次規(guī)劃(MixedInteger quadratic programming,MIQP)方法生成多車協(xié)同下的車輛軌跡規(guī)劃全局最優(yōu)解。針對車輛隊列合并場景的軌跡規(guī)劃問題,XU等采用DP與ACC方法生成車輛橫向與縱向運動軌跡,在保證換道過程隊列穩(wěn)定性的前提下,使車輛安全、快速地并入隊列。匝道合流區(qū)作為重要的交通場景之一,由于涉及多車協(xié)同行為決策與規(guī)劃控制,極易造成交通事故、道路擁堵等問題發(fā)生。為有效處理匝道合流場景下的多車協(xié)同規(guī)劃問題,MU等開發(fā)了一種基于事件觸發(fā)滾動時域的系統(tǒng)軌跡規(guī)劃方法,以實現(xiàn)匝道合流區(qū)內(nèi)車隊間安全、平穩(wěn)、高效的合并。控制區(qū)分為預合并子區(qū)、虛擬合并子區(qū)、合并后子區(qū),規(guī)劃問題被建模為考慮不同場景的混合整數(shù)非線性規(guī)劃(Mixed integer nonlinear program,MINLP),并通過MIA算法進行求解。匝道合流規(guī)劃通常視為兩車道間的車輛規(guī)劃問題,忽略了主路常為多車道的實際情況,針對多車道高速公路合流區(qū)隊列合并規(guī)劃問題(圖11),GAO等提出一種考慮換道控制與CACC的最優(yōu)車輛軌跡規(guī)劃控制器,采用Legendre偽譜算法將控制器轉(zhuǎn)化為非線性規(guī)劃問題求解。

人工勢場法最早由KHATIB于1986年應用于機器人避障領(lǐng)域,通過構(gòu)建勢場模型實現(xiàn)車輛軌跡規(guī)劃,具有結(jié)構(gòu)簡單、實時性較好等優(yōu)勢,但當引力與斥力值接近且方向相反時,存在易陷入局部最優(yōu)解。為解決多車道車輛協(xié)同駕駛中的軌跡規(guī)劃問題,高力等基于人工勢場法(Artificial potential field,APF)對行車環(huán)境建立勢場模型,使車輛編隊在四種不同場景下進行編隊結(jié)構(gòu)變換時,實現(xiàn)無碰撞的車輛軌跡規(guī)劃。為避免多車協(xié)同行駛場景中APF易陷入局部極小值的問題,HANG等提出了一種將APF與MPC相結(jié)合的優(yōu)化方法,利用MPC的優(yōu)化器代替?zhèn)鹘y(tǒng)APF中的梯度下降方法,實現(xiàn)軌跡規(guī)劃與跟蹤控制的同步優(yōu)化。
3.2.3 隨機采樣方法
基于隨機采樣的軌跡規(guī)劃方法,其核心思想是通過對狀態(tài)空間的隨機采樣來引導路徑樹的生長,從而規(guī)劃出安全的行車軌跡。隨機采樣算法具有概率完備特性,理論上不需要對狀態(tài)空間自由區(qū)域進行顯式建模,能夠適用于高維空間的復雜規(guī)劃。
典型的隨機采樣方法包括概率路圖法(Probabilistic roadmap,PRM)與RRT兩種。其中,PRM算法要求對狀態(tài)之間進行精確連接,導致無法較好地應對復雜微分約束下的車輛規(guī)劃。RRT算法最早由LAVALLE提出,目前已被廣泛應用于移動機器人、自動駕駛等領(lǐng)域。由于RRT算法為均勻采樣且具有隨機性,導致采樣效率較低,規(guī)劃出的路徑通常僅為可行路徑而并非最優(yōu)路徑,因此,多種改進RRT算法被相繼提出。其中,RRT*結(jié)合了A*算法的思想,通過改進RRT父節(jié)點的選擇方式實現(xiàn)路徑優(yōu)化,同時,每次迭代后會重新連接現(xiàn)有樹上的節(jié)點,實現(xiàn)算法的漸進最優(yōu)解。為實現(xiàn)高速公路場景下的多車協(xié)同組隊,GANAOUI-MOURLAN等利用RRT*與MPC對不同初始位置下的車輛軌跡進行規(guī)劃,其中,在RRT*對車輛進行初始軌跡規(guī)劃的基礎(chǔ)上,通過MPC對轉(zhuǎn)向角、加速度、沖擊度等進行二次優(yōu)化,以保證生成的軌跡適用于車輛跟蹤控制并改善駕乘舒適性。進一步,為加快RRT*算法的計算實時性并降低內(nèi)存占用,JIANG等提出了一種改進RRT*多車協(xié)同軌跡規(guī)劃方法,在多智能體RRT*(Multi-Agent RRT*,MA-RRT*)的基礎(chǔ)上設(shè)計了一種多智能體RRT*固定節(jié)點(MA-RRT* fixed node,MA-RRT*FN)方法。MA-RRT*FN可通過刪除路徑上不可能達到的弱節(jié)點目標來減少存儲在RRT樹中的節(jié)點數(shù),有效避免了MA-RRT*算法因節(jié)點數(shù)過多而造成的內(nèi)存占用過大問題。實驗結(jié)果表明,MA-RRT*FN在可擴展性和收斂速度方面與MA-RRT*具有相同的性能,但其內(nèi)存需求顯著降低。
3.2.4 強化學習方法
隨著人工智能技術(shù)的快速發(fā)展,以DL和RL為代表的機器學習方法正被逐漸應用于車輛軌跡規(guī)劃領(lǐng)域。其中,DL方法通常根據(jù)專家駕駛員的圖像和實際動作信息以及多源傳感器信息對神經(jīng)網(wǎng)絡(luò)進行訓練,通過端到端的方式直接輸出車輛軌跡,該方法的優(yōu)勢在于可以顯著降低計算復雜度與標定成本,但會使車輛系統(tǒng)“黑箱化”嚴重,導致系統(tǒng)可解性較差,增加系統(tǒng)測試與驗證難度。由于該方法通常未明確劃分感知、預測、決策、規(guī)劃模塊,與文章總體結(jié)構(gòu)沖突,不進行詳細介紹。
RL作為機器學習領(lǐng)域的一類重要方法,在自動駕駛車輛與周圍環(huán)境的交互過程中,通過不斷地獎懲使車輛獲得最大獎勵回報值,確定當前環(huán)境下的最優(yōu)動作。與其他類型的車輛軌跡規(guī)劃算法相比,RL方法最顯著優(yōu)勢在于可增強車輛對于動態(tài)交通環(huán)境的適應能力,是未來車輛軌跡規(guī)劃的主要研究與發(fā)展方向,但依然存在嚴重依賴訓練樣本的數(shù)量與質(zhì)量、可解釋性較差、算法收斂較慢以及過擬合等問題。同時,由于現(xiàn)實環(huán)境復雜多變,目前仍以仿真驗證為主,在實際應用方面還未廣泛開展研究。
為實現(xiàn)多車協(xié)同避撞軌跡規(guī)劃,WANG等提出了一種車輛間協(xié)同軌跡規(guī)劃方法,將車輛間的避撞規(guī)劃任務描述為多維連續(xù)系統(tǒng)中的MDP問題。當存在碰撞風險時,系統(tǒng)會在每個時間步內(nèi)確定兩車間的適當轉(zhuǎn)向,便于能夠協(xié)同改變車輛運動軌跡以避免碰撞,車輛的位置和方向被視為系統(tǒng)狀態(tài),運動被定義為動作,并在迭代機制中應用最小二乘法更新近似值函數(shù)。蒙特卡洛樹搜索(Monte Carlo tree search,MCTS)算法作為一種基于樹結(jié)構(gòu)的RL方法,已被用于解決多車協(xié)同規(guī)劃問題。KURZER等基于MCTS算法提出了一種車輛分布式協(xié)同軌跡規(guī)劃方法,將多車協(xié)同規(guī)劃看作多智能體馬爾科夫決策過程(Multi-agent MDP,MAMDP),由于MCTS性能主要受有效搜索深度影響,因此引入宏動作來解決多智能體協(xié)同規(guī)劃導致的維數(shù)災難問題,加快算法收斂速度。在此工作基礎(chǔ)上,為了進一步加快軌跡規(guī)劃過程,該作者將MDN與MCTS相結(jié)合,在動作空間探索階段,MCTS的當前狀態(tài)被轉(zhuǎn)換為特征向量并輸入到MDN中,以引導算法向目標區(qū)域搜索,降低計算成本(圖12)。

Q-learning作為一種經(jīng)典的RL算法,目前已被廣泛應用于單車軌跡規(guī)劃,但在車輛隊列或多車協(xié)同規(guī)劃領(lǐng)域的應用依然較少。CHEN等采用Q-learning方法選擇車輛最佳合并軌跡,當合并車輛與前后車輛間的行車距離相對安全且合并時間最優(yōu)時將獲得最大獎勵回報,并基于OBB碰撞檢測算法保證合并過程中的行車安全性。與Dijkstra和K最短路徑算法相比,該方法能顯著提高交通效率,降低燃油消耗與車輛并入時間。此外,GUO等將博弈論與多智能體強化學習(Multi-agent RL,MARL)方法相結(jié)合,利用合作博弈將單智能體Q-learning擴展到多智能體系統(tǒng),以解決具有避障功能的多智能體協(xié)同規(guī)劃問題。具體地,首先提出了一種合作博弈模型,用于智能體在復雜環(huán)境下實現(xiàn)具有避障功能的協(xié)同規(guī)劃。其次,設(shè)計了一種連續(xù)狀態(tài)空間上的值函數(shù)逼近多智能體Q-learning算法,用于求解合作博弈的納什均衡,可較好地解決算法易陷入局部極小值問題。
4
車輛軌跡跟蹤控制
車輛隊列跟蹤控制模塊作為隊列預測巡航控制系統(tǒng)的核心組成部分,通過采用縱橫向車輛跟蹤控制算法,實現(xiàn)對規(guī)劃軌跡的精準跟蹤控制。本文將隊列跟蹤控制劃分為預測巡航控制與車輛跟蹤控制2個部分,并對主流方法進行了介紹。其中,預測巡航控制主要通過前方道路信息對車輛縱向速度進行優(yōu)化,并實現(xiàn)車輛縱向跟隨控制;車輛跟蹤控制根據(jù)當前車輛狀態(tài)信息以及車輛期望軌跡,通過車輛縱橫向控制算法完成隊列換道、合并、分離、超車、巡航等行為。
4.1 預測巡航控制
隊內(nèi)車輛保持較短車間距時,可顯著降低空氣阻力,節(jié)省10%的燃油。LEVINE等于1966年最早提出車輛隊列控制問題,并利用優(yōu)化控制理論設(shè)計了最優(yōu)線性反饋系統(tǒng),實現(xiàn)了車輛隊列跟隨控制。接著,為改善車輛燃油經(jīng)濟性,SCHWARZKOPF等在1977年首次對坡道工況下的車輛速度進行優(yōu)化控制,為后續(xù)經(jīng)濟性巡航控制研究奠定了基礎(chǔ)。但是,傳統(tǒng)車輛巡航控制系統(tǒng)往往僅考慮了領(lǐng)航車周圍環(huán)境,忽略了坡度、交通信號、道路狀況等前方道路信息對隊列控制的影響。
4.1.1 單車預測巡航控制
如圖13所示,為進一步提高車輛燃油經(jīng)濟性,利用前方道路信息預先調(diào)整車輛運動狀態(tài),實現(xiàn)車輛優(yōu)化控制的方法可以統(tǒng)稱為PCC或前瞻巡航控制(Look ahead cruise control,LAC)。近年來,眾多學者針對PCC領(lǐng)域進行了諸多研究,以改善單車或隊列行駛?cè)加徒?jīng)濟性。在城市道路行駛時,由于道路交叉口眾多且存在大量交通信號設(shè)施,因此需要考慮交通信號對車輛燃油經(jīng)濟性的影響。ALRIFAEE等提出了一種適用于增程電動車輛的MPC預測控制方法,利用前方道路交通信號燈信息減少通過交叉口車輛的停車等待時間,提高通行效率并改善燃油經(jīng)濟性。針對車輛巡航過程中的安全性和燃油經(jīng)濟性,羅禹貢等基于非線性模型預測理論提出了一種混合動力汽車預測巡航的多目標優(yōu)化控制算法。傳統(tǒng)ACC忽略了道路高程信息的影響,往往導致跟蹤誤差較大且燃油經(jīng)濟性不佳。LI等針對該問題提出了模型預測自適應巡航控制器,考慮車輛前方道路信息、車輛非線性動力學等因素,可使車輛在斜坡道路上行駛時顯著降低油耗。為進一步改善優(yōu)化控制效果,CHEN等提出了一種以發(fā)動機轉(zhuǎn)矩、制動力、變速器檔位作為優(yōu)化變量的PCC算法,將經(jīng)濟性、舒適性等作為優(yōu)化對象構(gòu)建目標函數(shù),利用龐特里亞金極小值原理和二分法對所構(gòu)建的目標函數(shù)進行優(yōu)化求解。

4.1.2 隊列預測巡航控制
近年來,國內(nèi)外學者對PCC進行了較為全面的研究,但應用目標多為單車控制,隨著車聯(lián)網(wǎng)技術(shù)的快速發(fā)展,車輛隊列的研究與應用日益增多。相較于單車控制,車輛隊列PCC在改善燃油經(jīng)濟性方面體現(xiàn)更為顯著,已經(jīng)成為重要的研究發(fā)展方向。
(1) DP。DP算法作為一種靜態(tài)、離線獲取全局最優(yōu)解的控制方法,通常在對PCC系統(tǒng)進行離散化處理后,將最優(yōu)控制問題轉(zhuǎn)換為多階段決策問題進行求解,相較于局部優(yōu)化與瞬時優(yōu)化,具有可獲取全局最優(yōu)解的優(yōu)勢。為探究前方道路地理信息對重型車輛隊列燃油經(jīng)濟性的影響,ALAM等對ACC系統(tǒng)與考慮前方道路地理信息的PCC系統(tǒng)進行測試評估,結(jié)果表明,預測巡航控制器在上坡與下坡路段可分別減少0.7%和14%的燃油消耗。在此基礎(chǔ)上,該團隊還設(shè)計了由運輸層、隊列層、車輛層組成的三層體系結(jié)構(gòu)的運輸系統(tǒng),運輸層用于確定運輸規(guī)劃與車輛路線,隊列層用于處理隊列形成并利用預測信息優(yōu)化隊列最優(yōu)車速,車輛層在保證隊列穩(wěn)定性的前提下實現(xiàn)隊內(nèi)車輛最優(yōu)車速的跟蹤控制。同樣,BESSELINK等也開發(fā)了一種相似的三層重型車輛貨運系統(tǒng)框架,分別為隊列層、協(xié)作層以及車輛層,協(xié)作層通過獲取前方道路信息進行預測控制以優(yōu)化隊列最優(yōu)車速,從而進一步降低燃油消耗,仿真結(jié)果顯示燃油經(jīng)濟性相較于傳統(tǒng)巡航控制器可提升5%以上。由于重型車輛質(zhì)量較大、風阻系數(shù)較高,通過車輛隊列行駛可更為有效地減少燃油消耗和溫室氣體排放,TURRI等考慮道路地形預覽信息,提出一種重型車輛隊列雙層控制框架,其中DP算法用于計算上層燃油最佳速度曲線,MPC用于車輛下層實時控制,仿真結(jié)果表明,與使用標準隊列控制器相比,跟隨車輛可節(jié)省約12%的燃油。DP算法作為一種求解多階段決策問題的全局最優(yōu)控制方法,目前已被廣泛用于車輛速度優(yōu)化問題。為協(xié)同優(yōu)化重型車輛隊列的燃油消耗與運輸效率,何龍強將燃油經(jīng)濟性與運輸效率作為優(yōu)化目標,提出了基于空間域的網(wǎng)聯(lián)物流卡車隊列車速預測優(yōu)化方法,將遺傳算法(Genetic algorithm,GA)與非線性規(guī)劃相結(jié)合,利用混合遺傳算法對車輛擋位和車速進行優(yōu)化控制,并在交通擁堵場景下進行了仿真測試驗證。相似的,JOHANSSON等考慮車輛最大加速度模型,將隊列燃油消耗與通行時間作為協(xié)同優(yōu)化目標,設(shè)計了基于DP算法的車輛隊列預測巡航控制策略,并在真實交通環(huán)境下對重型車輛隊列進行了仿真測試,但并未將異構(gòu)隊列因素考慮在內(nèi)。異構(gòu)隊列由不同類型的車輛組成,相較于同構(gòu)隊列在優(yōu)化計算與安全約束等方面更為復雜。在假設(shè)車輛通信時刻處于理想狀態(tài)的前提下,GUO等提出一種考慮前方道路坡度的異質(zhì)卡車隊列分層控制框架,速度規(guī)劃層以燃油經(jīng)濟性為優(yōu)化目標并將異質(zhì)車輛隊列視為整體,基于滾動動態(tài)規(guī)劃(Receding dynamic programming,RDP)算法計算平均最優(yōu)車速,通過反步控制實現(xiàn)車輛速度跟蹤。在實際行駛過程中,隊內(nèi)車輛通信無法時刻處于理想狀態(tài),存在通信延時、丟包等問題。針對上述問題,YANG等提出一種適用于具有時變不確定動態(tài)和均勻通信延遲的分層隊列控制框架,上層基于考慮坡度、速度限制等道路信息的DP算法,決策出以燃油消耗量和通行時間最小為優(yōu)化目標的最佳行駛車速,下層采用分布式無碰撞跟蹤控制算法對速度進行跟蹤控制。
DP算法作為一種求解多階段決策問題最優(yōu)化的全局優(yōu)化控制方法,需要預先獲取目標路段的道路信息,且具有計算量大、求解時間較長、無法考慮駕駛環(huán)境不確定性等缺點,因此不適用于解決控制器的實時控制問題。
(2) MPC。MPC根據(jù)當前時刻系統(tǒng)狀態(tài),實時在線滾動求解有限時域內(nèi)的多目標優(yōu)化問題,可有效彌補DP算法存在的不能進行實時求解與在線優(yōu)化等缺陷。為解決網(wǎng)聯(lián)異質(zhì)車輛隊列的協(xié)同巡航控制問題,HE等提出一種參數(shù)化協(xié)同預測巡航控制算法,考慮行車安全性、舒適性和燃油經(jīng)濟性等多目標約束,設(shè)計了一種基于階梯式控制策略的協(xié)同式PCC算法,以降低在線求解的計算量。TURRI等并未考慮擋位傳動比對燃油經(jīng)濟性的影響,且只對領(lǐng)航車速度進行優(yōu)化。針對上述存在問題,ZHAI等考慮空氣阻力、非線性發(fā)動機油耗模型、離散傳動比,基于分布式模型預測控制(Distributed model predictive control,DMPC)提出了一種車輛隊列協(xié)同預測控制策略,以提高隊內(nèi)車輛在不同坡道行駛的燃油效率。在此基礎(chǔ)上,該團隊進一步考慮了駕駛安全性,設(shè)計了重型車隊在不同坡度道路上行駛時DMPC預測控制器與緊急制動安全控制器的切換控制策略。仿真結(jié)果表明,與基準測試相比,該方法在保證隊列行駛安全的同時可節(jié)省21.88%的燃油消耗??紤]到對整個隊列進行預測控制可有效減少開放道路情況下的車輛油耗和行駛時間,THORMANN等提出了一種新型隊列車輛DMPC方法,可以允許隊內(nèi)車輛維持密集車間距并保持較小的通信需求,同時對通信丟包具有魯棒性,選擇受交通干擾的緊急制動和車輛跟蹤作為測試場景,測試結(jié)果表明在通信要求較低的情況下隊列依然可保持較強穩(wěn)定性。劉歡利用前方道路坡度信息,采用DP、MPC算法求解多目標優(yōu)化問題,通過控制重型卡車隊列的發(fā)動機力矩與擋位,實現(xiàn)隊列經(jīng)濟性巡航。仿真結(jié)果顯示,基于DP、MPC的PCC系統(tǒng)相較于傳統(tǒng)巡航控制在不影響行駛時間的前提下可節(jié)油4%~5%,DP與MPC的優(yōu)化結(jié)果相近,但MPC求解效率要遠優(yōu)于DP算法。當前,預測巡航控制通常采用基于模型的控制方法,但存在系統(tǒng)建模不精確等問題。為解決上述問題,GAO等提出了一種基于RL的自適應最優(yōu)控制方法,在不影響安全性和舒適性的前提下有效減少了行程時間。利用道路高程交通信息,MYNUDDIN等提出了一種基于RL的分布式預測控制算法,可有效改善燃油經(jīng)濟性并縮短通行時間。因此,通過基于數(shù)據(jù)驅(qū)動的方法來設(shè)計預測巡航控制成為了新的解決途徑。
現(xiàn)有車輛隊列PCC系統(tǒng)通常僅關(guān)注車輛縱向動力學并假設(shè)車輛處于直線行駛狀態(tài),忽略了道路曲率對車輛橫向動力學的影響,與車輛實際行駛狀態(tài)存在差異,導致應用范圍受限。針對多車合并問題,GOLI等提出一種具有預測性的車輛控制策略,橫向跟蹤控制采用MPC實現(xiàn)優(yōu)化控制,并在車輛并入車隊以及多車合并組成車隊兩種模式下進行了驗證。其中,預測性可使被控車輛提前獲取前方道路信息,從而提高合并過程中的安全性與舒適性。為進一步改善車輛隊列在不同道路曲率與坡度下的燃油經(jīng)濟性,YANG等考慮前方道路坡度與曲率信息,開發(fā)了一種具有節(jié)能潛力的新型分層生態(tài)協(xié)同自適應巡航控制(Ecological cooperative adaptive cruise control,ECACC),上層為基于DP算法的生態(tài)速度軌跡規(guī)劃,下層為前饋-反饋跟蹤控制。從開源地圖OpenStreetMap中選取真實道路場景進行仿真測試,與傳統(tǒng)能量最優(yōu)定速巡航相比,ECACC可降低38.1%的能耗,保證了隊列橫向穩(wěn)定性與能源效率。
PCC雖能根據(jù)前方道路坡度優(yōu)化隊列車速,但需要提前獲取道路坡度數(shù)據(jù)信息,增加了車輛運行成本,且無法適用于未知道路信息的路段,限制了PCC的適用范圍。為克服上述PCC存在的局限性問題,已有學者采用卡爾曼濾波、擴展卡爾曼濾 波(Extended Kalman filter,EKF)等方法結(jié)合GPS定位對道路坡度、車輛狀態(tài)等信息進行估測。為改善車輛性能,JO等基于概率數(shù)據(jù)關(guān)聯(lián)過濾器開發(fā)了一種集成GPS接收器、車載傳感器和縱向車輛模型的道路坡度估計算法,并通過交互多模型濾波器實現(xiàn)不同坡道類型的應用。現(xiàn)有估計方法通常設(shè)備成本高昂且需要與GPS配合使用,不易實現(xiàn)大規(guī)模量產(chǎn)應用。為此,JAUCH等設(shè)計了一種基于方向濾波器和車輛IMU的道路坡度斜率估計方法,該方法成本較低且適用于GPS失效情況,其中方向濾波器融合了陀螺儀、加速度計和磁強計的測量值,以確定傳感器相對于地表的方向,并與高分辨率道路坡度數(shù)據(jù)進行了對比驗證?,F(xiàn)有隊列PCC系統(tǒng)需要實際道路數(shù)據(jù)與精確的物理模型,增加了實現(xiàn)難度,NA等對傳統(tǒng)隊列預測控制進行改進,提出了一種對車輛質(zhì)量與不確定性具有魯棒性的擾動觀測器方法,實現(xiàn)從擾動估計中提取坡度斜率信息,結(jié)合GPS構(gòu)建前方道路坡度信息,避免了需要提前獲取道路信息的弊端。
4.2 車輛跟蹤控制
隊內(nèi)車輛在執(zhí)行決策行為的過程中,車輛控制層需要進行縱橫向跟蹤控制,以實現(xiàn)準確跟蹤規(guī)劃層輸出的預期車輛軌跡,保證隊列行駛的安全性、經(jīng)濟性與舒適性。隊列縱橫向控制的主要目標為通過控制油門與制動踏板、前輪轉(zhuǎn)角來跟蹤規(guī)劃層的期望軌跡,使隊列按照預定位置與速度行駛。常用的隊列縱、橫向控制方法主要包括基于模型驅(qū)動方法和基于數(shù)據(jù)驅(qū)動方法。
4.2.1 模型驅(qū)動方法
物理模型方法主要有PID、MPC、純跟隨(Pure pursuit,PP)、線性二次型調(diào)節(jié)器(Linear quadratic regulator,LQR)、SMC等。
(1) 模型預測控制。MPC具有模型預測、滾動優(yōu)化、反饋校正的特點,適用于解決“多輸入多輸出”(Multiple input multiple output,MIMO)的復雜系統(tǒng)控制問題,通過在線求解有限時域的多目標優(yōu)化問題,并將最優(yōu)控制序列的第一分量作用于控制系統(tǒng)。DPMC算法作為一種擴展算法,其優(yōu)勢在于可以將一個復雜全局優(yōu)化問題分解為多個耦合局部MPC問題,相較于集中式控制可以有效降低子系統(tǒng)間的通信負擔與計算復雜度,增強系統(tǒng)可靠性。
為保證隊列間的安全合并,PAUCA等提出一種由行為決策層、軌跡規(guī)劃層、跟蹤控制層組成的三層控制結(jié)構(gòu)。其中縱向控制采用考慮不同通信拓撲結(jié)構(gòu)和丟包的DMPC隊列控制方法,以確保隊列車輛按預定速度行駛,并保持車輛間的安全距離,橫向控制采用基于MPC的軌跡跟隨控制器通過控制前輪轉(zhuǎn)角實現(xiàn)期望軌跡跟蹤。為驗證控制方法的有效性,模擬車隊前方存在障礙物,需執(zhí)行強制車隊合并的場景,并對不同通信拓撲結(jié)構(gòu)下的隊列穩(wěn)定性進行了驗證。當前方車輛緊急變道時,隊列需執(zhí)行緊急制動以保證行駛安全性,但極易導致隊內(nèi)車輛間發(fā)生碰撞,因此,提前對周圍車輛駕駛意圖及軌跡進行預測是必要的。KAZEMI等提出了一種以切入概率為輸入的CACC隨機模型預測控制器(Stochastic MPC,SMPC),切入概率表示為干擾車輛突然切入CACC隊列而導致的危險情況嚴重程度,當有車輛切入車隊時,控制器能夠維持被控車輛與前方車輛的間距誤差與速度誤差接近于零。采用SPMD數(shù)據(jù)集中的真實切入駕駛場景,在兩種不同切入持續(xù)時間的工況下對SMPC與MPC進行對比驗證,結(jié)果顯示SPMC具有更快的響應速度和更小的間距誤差。上述文獻假設(shè)隊列為同構(gòu)車輛,忽略了異構(gòu)車輛隊列對控制算法的影響。為確保異構(gòu)車輛隊列能對切入切出行為進行準確跟蹤控制,BASIRI等提出了一種基于分布式非線性模型預測控制(Distributed nonlinear MPC,DNMPC)車輛隊列跟蹤控制方法,利用分布式度量學習和基于交替方向乘子法的分布式優(yōu)化方法對DNMPC進行優(yōu)化,并在不同通信拓撲結(jié)構(gòu)下進行仿真驗證。結(jié)果表明,所提出的方法保證了隊內(nèi)車輛在控制過程中準確跟蹤期望軌跡,可有效避免碰撞發(fā)生,但并未對隊列穩(wěn)定性進行詳細分析。
(2) 滑??刂??;?刂品椒ㄔ趹獙囕v參數(shù)不確定性與外界干擾等因素時具有較強的魯棒性,但傳統(tǒng)一階滑模控制存在輸出抖振問題,不適用于車輛精確跟蹤控制,因此多種SMC衍生算法被提出并應用。為解決模型參數(shù)不確定性及外部干擾的隊列跟蹤控制問題,郭戈等提出2種基于PF和BD通信拓撲結(jié)構(gòu)的分布式自適應終端SMC控制和有限時間理論的分布式協(xié)同控制方法,分別保證系統(tǒng)的隊列穩(wěn)定性與強隊列穩(wěn)定性,并與傳統(tǒng)線性SMC控制器進行對比驗證。此外,為降低通信計算負擔并進一步改善抖振問題,CHEN等針對具有參數(shù)不確定性與外部干擾的車輛隊列魯棒控制問題,提出了一種基于有限時間擾動觀測器(Finite time disturbance observer,F(xiàn)TDO)的Super-twisting SMC方法。其中,參數(shù)不確定性、外部干擾和前車加速度通過FTDO估計為集中干擾,有效減少了通信負擔。相較于傳統(tǒng)SMC,Super-twisting SMC可以保證控制信號的連續(xù)性,從而避免了SMC中存在的抖振現(xiàn)象,同時將所提出的方法推廣到初始間距偏差非零的情況。最后,借助Lyapunov穩(wěn)定性理論與拉普拉斯變換,對單車穩(wěn)定性與強隊列穩(wěn)定性進行了分析。
(3) 其他方法。PID及其衍生方法因其具有結(jié)構(gòu)簡單、易于實現(xiàn)、控制效果良好等優(yōu)勢被廣泛應用于工業(yè)控制領(lǐng)域。在車輛并入隊列的交通場景中,XU等將PID控制器用于變道車輛并入隊列的軌跡跟蹤控制,仿真測試結(jié)果表明,在保證車間安全距離的前提下,變道車輛可以快速并入車隊。為實現(xiàn)重型車輛隊列的合并和拆分,DASGUPTA 等設(shè)計了一種新型PID車輛隊列控制器,并利用VISSIM進行了算法有效性驗證。測試結(jié)果表明,所提出的控制器能夠保證在進行跟蹤控制時的隊列穩(wěn)定性。純跟隨作為一種簡單且實用的車輛控制算法,已大量應用于車輛橫向跟蹤控制領(lǐng)域。在隊列行駛過程中,V2V通信無法保證處于理想狀態(tài),通信故障會嚴重影響隊列行駛安全性。LEE等提出了一種考慮通信延時與丟包的CAV分散式隊列控制系統(tǒng),其中控制層采用純跟隨與PID的方法分別進行橫向與縱向控制,以實現(xiàn)車輛并入車隊的軌跡跟蹤控制。仿真結(jié)果顯示跟蹤控制方法可以使車輛有效跟蹤期望軌跡,車輛完成合并過程需要5.5 s,在低速情況下需要25 s可使隊列恢復穩(wěn)定性。純跟隨方法在低速場景下具有良好的車輛跟蹤控制性能,但不適用于高速場景。LQR算法本質(zhì)上為多目標最優(yōu)控制問題,可用于車輛高速跟蹤控制場景,因此,MA等考慮執(zhí)行器延時與非理想通信條件,將參數(shù)空間法與LQR相結(jié)合,提出了一種分布式協(xié)同車輛隊列的優(yōu)化控制方法,以保證隊列穩(wěn)定性和性能優(yōu)化。為評估所提方法的有效性與靈活性,在FTP-75與HWFET兩種真實循環(huán)測試工況下進行了HIL測試。結(jié)果表明,控制器能夠保證隊列穩(wěn)定性,且具有良好的跟馳性能與駕駛舒適性。
4.2.2 數(shù)據(jù)驅(qū)動方法
車輛隊列控制可以視為一種特殊的多智能體優(yōu)化問題,由于MARL算法可以探索高維動態(tài)環(huán)境,且具有對未知狀態(tài)的處理能力和較強的非線性函數(shù)逼近能力,目前已成為車輛隊列控制領(lǐng)域的重要發(fā)展方向。作為最早將RL應用于CACC系統(tǒng)的案例,DESJARDINS等在2011年將RL應用于車輛CACC系統(tǒng)的縱向跟隨控制,仿真結(jié)果顯示,該方法可有效改善CACC系統(tǒng)性能,提高車輛通行效率。為研究拓撲通信切換、通信時延和外部干擾對車輛隊列的影響,WEN等提出了一種基于跟蹤誤差的采樣數(shù)據(jù)隊列控制方法,將隊列系統(tǒng)建模為帶干擾的馬爾科夫切換時滯系統(tǒng),并用馬爾科夫鏈表示通信拓撲切換。此外,針對現(xiàn)有深度強化學習(Deep reinforcement learning,DRL)普遍存在收斂速度較慢的問題,PRATHIBA等基于DRL與GA算法,提出一種智能車輛隊列混合優(yōu)化算法,通過GA有效改善了DRL收斂速度。進一步地,針對多車網(wǎng)絡(luò)中連續(xù)動作空間探索效率低、算法收斂慢等問題,LU等提出一種如圖14所示的隊列共享確定性策略梯度(Platoon sharing deep deterministic policy gradient,PSDDPG)算法,通過多車控制網(wǎng)絡(luò)模型的并行訓練來改善算法收斂,提高了連續(xù)動作空間的探索效率,并在DDPG算法噪聲的基礎(chǔ)上加入隊列噪聲,以增強探索過程中訓練樣本的多樣性,有效提高了模型魯棒性,同時,提出了一種回放緩存?zhèn)浞莘椒?,防止樣本提取效率低下而影響訓練效果,最后利用Carla模擬器在隊列合并、巡航、跟馳、超車和避障場景下對算法進行了驗證。現(xiàn)有MARL算法通常會向智能體提供冗余信息,增加了計算難度并影響算法收斂。為此,LI等將通信近端策略優(yōu)化(Communication proximal policy optimization,commPPO)算法應用于隊列控制問題,CommPPO采用參數(shù)共享結(jié)構(gòu),可允許隊內(nèi)車輛數(shù)量的動態(tài)變化,便于處理隊列合并、分離等行為。同時,還提出一種新型獎勵機制,以解決MARL算法中存在的“虛假獎勵”與“懶惰Agent”問題。

4.2.3 數(shù)據(jù)與模型聯(lián)合驅(qū)動方法
基于物理模型的隊列控制方法,雖然算法具有較好的可解釋性,但控制效果嚴重依賴模型建模精度,當建模不準確時會影響隊列整體性能及其穩(wěn)定性。機器學習方法雖然突破了物理模型的約束,可在復雜環(huán)境下進行探索,但嚴重依賴訓練樣本的質(zhì)量與數(shù)量,且算法內(nèi)部類似于“黑盒”,可解釋性較差,當獎勵函數(shù)設(shè)置不合理或出現(xiàn)未曾訓練過的邊緣場景時,易導致控制效果不佳。因此,為彌補上述方法的缺陷,部分學者提出了基于數(shù)據(jù)與模型聯(lián)合驅(qū)動的優(yōu)化策略。為解決車輛隊列控制問題,LIU等提出一種基于深度Q網(wǎng)絡(luò)和一致性算法的分布式強化學習方法,每輛車的Q網(wǎng)絡(luò)首先根據(jù)自身經(jīng)驗進行局部優(yōu)化,然后采用一致性方法實現(xiàn)隊列狀態(tài)收斂。此外,YAN等研究了恒定車間時距下的隊列反饋控制問題,將滑模集成(Integrated sliding mode,ISM)和自適應神經(jīng)網(wǎng)絡(luò)(Adaptive neural network,ANN)相結(jié)合,設(shè)計了一種自適應神經(jīng)網(wǎng)絡(luò)滑??刂品椒?,并通過穩(wěn)定性理論證明隊列穩(wěn)定性。針對隊列分布式協(xié)同復合跟蹤控制問題,LIU等利用ANN、反步控制和預設(shè)性能控制(Prescribed performance control,PPC),提出一種滿足字符串穩(wěn)定性的分布式復合控制協(xié)議。YAN等設(shè)計了一種車輛隊列混合跟馳策略,將DDPG與CACC相結(jié)合,取獎勵值高的計算結(jié)果作為輸出,同時,為降低算法頻繁切換的干擾,提出了一種算法軟切換機制。該方法的優(yōu)勢在于相較于基于物理模型的方法,DDPG無需精確的車輛物理模型且對復雜、未知的環(huán)境具有較好的適應性,當DDPG性能不佳時也可通過CACC保證跟車的基本性能。但DDPG存在過估計、算法穩(wěn)定性較差、可解釋性不強等弊端,導致車輛隊列難以達到預期性能。為改善PID需要進行大量參數(shù)整定且適應性較差的弊端,YANG等設(shè)計了一種基于DDPG-PID的車輛隊列跟隨控制方法,將DDPG算法用于實時調(diào)整PID參數(shù),輸出隊列最優(yōu)上層加速度。通過SUMO與硬件在環(huán)測試平臺(Hardware in the loop,HIL)在三種不同場景下對算法有效性進行了測試。
然而,基于RL算法的隊列控制在模型訓練過程中會面臨眾多問題。首先,若訓練單一神經(jīng)網(wǎng)絡(luò)同時控制多輛車,可能造成算法難以收斂;其次,由于隊內(nèi)每個車輛均有一個獎勵函數(shù),導致隊列總體獎勵函數(shù)復雜度較高,且隊內(nèi)車輛間的動作輸出會相互干擾,影響算法性能;最后,當隊列內(nèi)出現(xiàn)車輛切入切出時,算法的固定輸入、輸出與實時變化的車輛數(shù)量無法匹配。傳統(tǒng)的解決方法通過訓練一輛車的單一神經(jīng)網(wǎng)絡(luò),并將收斂模型分別應用于隊內(nèi)每個車輛,但是該方法生成的訓練樣本時單一的,因此模型無法處理復雜情況,且該方法無法適用于異構(gòu)車輛隊列控制。
5
總結(jié)與展望
本文首先針對車輛隊列“預測能力”不足的問題,重點介紹了環(huán)境車輛運動軌跡預測;然后,通過狀態(tài)機、博弈論、機器學習、模型與數(shù)據(jù)混合優(yōu)化等4類方法,對隊列協(xié)同行為決策進行了詳細概述;接著,從物理建模與數(shù)據(jù)驅(qū)動等2個角度,對多車協(xié)同軌跡規(guī)劃的最新研究進展進行了梳理;最后,分別從預測巡航控制、車輛跟蹤控制2個方面,介紹了當前車輛隊列跟蹤控制的研究現(xiàn)狀。
(1) 現(xiàn)有的車輛隊列控制研究,主要針對隊列穩(wěn)定性、隊形切換、避障等問題,而對于利用車路協(xié)同提前獲取前方道路的地理、交通等信息,以及長時預測周邊環(huán)境車輛運動軌跡的研究不足,車輛隊列的“預測能力”不強。隨著車路協(xié)同、高精地圖等技術(shù)的大力推動,車輛隊列系統(tǒng)可獲取“超視距”、“富信息”、高精度的環(huán)境狀態(tài),這將有助于從行車安全性、經(jīng)濟性、舒適性等多方面,提高車輛隊列系統(tǒng)的性能和應用效果。因此,如何高效地利用這些環(huán)境狀態(tài)信息,并將其準確地反映在車輛隊列系統(tǒng)中,是未來的研究重點。
(2) 傳統(tǒng)的車輛隊列協(xié)同行為決策主要從車輛運動學或動力學模型出發(fā),通過狀態(tài)機構(gòu)建目標條件來獲得多車運動狀態(tài)轉(zhuǎn)換策略。然而,動態(tài)交通環(huán)境復雜多變、多車協(xié)同決策存在交互性,基于狀態(tài)機方法易導致車輛決策失誤。博弈論、深度強化學習等方法雖能有效改善上述問題,但也存在諸如收益函數(shù)設(shè)計困難、算法可解釋性不強、嚴重依賴訓練樣本的數(shù)量與質(zhì)量等弊端。另外,大部分研究通常關(guān)注局部范圍內(nèi)車輛的行駛狀態(tài),忽略了決策執(zhí)行后對整體交通流的影響。因此,如何將博弈論與深度強化學習方法結(jié)合,提高收益函數(shù)設(shè)計的合理性與準確性,使車輛隊列行為決策在動態(tài)交通環(huán)境下達到多目標最優(yōu),是未來的研究趨勢。
(3) 當前,車輛軌跡規(guī)劃通常采用基于物理建模的規(guī)劃...
熱門跟貼