
從機器人到醫(yī)學(xué)到政治學(xué),各領(lǐng)域都在嘗試訓(xùn)練 AI 系統(tǒng)做出有意義的決策。
例如,利用 AI 系統(tǒng)智能控制擁堵城市的交通,不僅可以幫助駕駛員更快到達(dá)目的地,還能提升安全性或可持續(xù)性。然而,教 AI 系統(tǒng)做出良好決策絕非易事。
支撐這些 AI 決策系統(tǒng)的強化學(xué)習(xí)模型在面對任務(wù)中的細(xì)微變化時,往往仍然會失敗。以交通為例,當(dāng)模型面對具有不同車速限制、車道數(shù)量或交通模式的路口時,可能難以有效控制。
為提升強化學(xué)習(xí)模型在具有多樣性的復(fù)雜任務(wù)中的可靠性,MIT 研究人員引入了一種更高效的訓(xùn)練算法。
該算法通過戰(zhàn)略性選擇最佳訓(xùn)練任務(wù),使 AI 智能體能夠高效完成一組相關(guān)任務(wù)集合中的所有任務(wù)。以交通信號控制為例,每個任務(wù)可以視為一個路口,而任務(wù)空間則包含整個城市中的所有路口。
通過專注于對算法整體效果貢獻(xiàn)最大的少數(shù)路口,該方法在提高性能的同時,顯著降低了訓(xùn)練成本。
研究人員發(fā)現(xiàn),在一系列模擬任務(wù)中,該技術(shù)比標(biāo)準(zhǔn)方法高效 5 到 50 倍。這種效率提升使算法能夠更快地學(xué)習(xí)到更優(yōu)的解決方案,最終改善 AI 智能體的表現(xiàn)。
“通過一種非常簡單的算法,我們看到了驚人的性能提升。這種不復(fù)雜的算法更容易被社區(qū)接受,因為它的實現(xiàn)和理解都更簡單,”論文資深作者、MIT 土木與環(huán)境工程系(CEE)和數(shù)據(jù)系統(tǒng)與社會研究所(IDSS)Thomas D. and Virginia W. Cabot 職業(yè)發(fā)展副教授、信息與決策系統(tǒng)實驗室(LIDS)成員 Cathy Wu 說。
該論文的主要作者是 CEE 研究生 Jung-Hoon Cho,參與作者包括電氣工程與計算機科學(xué)系(EECS)研究生 Vindula Jayawardana,以及 IDSS 研究生 Sirui Li。此研究將在神經(jīng)信息處理系統(tǒng)會議NeurIPS上發(fā)表。

尋找折中之道
在為城市多個路口的交通信號燈設(shè)計控制算法時,工程師通常會在兩種主要方法中進行選擇:要么為每個路口單獨訓(xùn)練一個算法,僅使用該路口的數(shù)據(jù);要么使用所有路口的數(shù)據(jù)訓(xùn)練一個更大的算法,然后將其應(yīng)用于每個路口。
然而,這兩種方法各有缺陷。為每個任務(wù)(如一個特定路口)單獨訓(xùn)練算法需要耗費大量時間、數(shù)據(jù)和計算資源;而為所有任務(wù)訓(xùn)練一個通用算法往往會導(dǎo)致表現(xiàn)不佳。
Cathy Wu 及其合作者試圖在這兩種方法之間找到平衡點。
在他們的方法中,研究團隊選擇了一部分任務(wù),為每個任務(wù)獨立訓(xùn)練一個算法。關(guān)鍵在于,他們會策略性地選擇最有可能提升整體任務(wù)表現(xiàn)的單個任務(wù)。
他們借助強化學(xué)習(xí)領(lǐng)域的一個常用技巧——零樣本遷移學(xué)習(xí)(zero-shot transfer learning)。這種方法將已訓(xùn)練好的模型直接應(yīng)用于一個新的任務(wù),而無需進一步訓(xùn)練。通過遷移學(xué)習(xí),模型往往在新任務(wù)上表現(xiàn)出色,尤其是與原任務(wù)相似的鄰近任務(wù)。
“我們知道理想情況下應(yīng)該對所有任務(wù)進行訓(xùn)練,但我們好奇是否可以僅對一部分任務(wù)進行訓(xùn)練,并將結(jié)果應(yīng)用于所有任務(wù),同時仍能看到性能的提升?!盬u 說道。
為確定哪些任務(wù)最值得選擇以最大化整體表現(xiàn),研究人員開發(fā)了一種名為基于模型的遷移學(xué)習(xí)(Model-Based Transfer Learning, MBTL)的算法。
MBTL 算法由兩部分組成:首先,它會模擬每個算法在單個任務(wù)上的獨立訓(xùn)練表現(xiàn)。其次,它會模擬將每個算法遷移到其他任務(wù)時性能的下降情況,即所謂的泛化性能(generalization performance)。
通過明確建模泛化性能,MBTL 可以估算出對新任務(wù)進行訓(xùn)練的價值。
MBTL 按順序進行操作,優(yōu)先選擇帶來最高性能增益的任務(wù)進行訓(xùn)練,然后依次選擇能夠提供最大邊際性能提升的任務(wù)。
由于 MBTL 僅專注于最有潛力的任務(wù),這種方法可以顯著提高訓(xùn)練過程的效率。

當(dāng)研究人員將這一技術(shù)應(yīng)用于模擬任務(wù)時,包括控制交通信號、管理實時速度建議以及執(zhí)行多個經(jīng)典控制任務(wù),該方法的效率比其他方法高出 5 到 50 倍。
這意味著,他們可以使用更少的數(shù)據(jù)量達(dá)到相同的解決方案。例如,在效率提高 50 倍的情況下,MBTL 算法只需針對 2 個任務(wù)進行訓(xùn)練,就能達(dá)到標(biāo)準(zhǔn)方法需要 100 個任務(wù)數(shù)據(jù)才能實現(xiàn)的同等性能。
“從兩種主要方法的角度來看,這意味著其他 98 個任務(wù)的數(shù)據(jù)并非必要,或者對所有 100 個任務(wù)進行訓(xùn)練會讓算法感到混淆,從而導(dǎo)致性能比我們的方法更差?!盬u 說。
使用 MBTL,即使只增加少量額外的訓(xùn)練時間,也可能顯著提高性能。
未來,研究人員計劃設(shè)計能夠擴展到更復(fù)雜問題的 MBTL 算法,例如高維任務(wù)空間。他們還希望將這一方法應(yīng)用于現(xiàn)實世界的問題,尤其是在下一代移動系統(tǒng)中。
該研究部分由美國國家科學(xué)基金會職業(yè)獎(National Science Foundation CAREER Award)、冠廷教育基金會博士獎學(xué)金計劃(Kwanjeong Educational Foundation PhD Scholarship Program)以及亞馬遜機器人博士獎學(xué)金(Amazon Robotics PhD Fellowship)資助。
https://news.mit.edu/2024/mit-researchers-develop-efficiency-training-more-reliable-ai-agents-1122
熱門跟貼