打開網(wǎng)易新聞 查看精彩圖片

新智元報道

編輯:定慧

【新智元導(dǎo)讀】還在用搜索和規(guī)則訓(xùn)練AI游戲?現(xiàn)在直接「看回放」學(xué)打?qū)毧蓧袅?!德州大學(xué)奧斯汀分校的研究團隊用Transformer和離線強化學(xué)習打造出一個智能體,不靠規(guī)則、沒用啟發(fā)式算法,純靠47.5萬場人類對戰(zhàn)回放訓(xùn)練出來,居然打上了Pokémon Showdown全球前10%!

AI 又有「新活」了!

德州大學(xué)奧斯汀分校的研究團隊用Transformers和離線強化學(xué)習訓(xùn)練出了一個寶可夢對戰(zhàn)AI智能體,不但打法像人,還能在全球排名中殺進前 10%。

打開網(wǎng)易新聞 查看精彩圖片

論文地址:https://metamon.tech/

是的,你沒看錯,這不是那種靠搜索和規(guī)則的AI,而是靠人類歷史對戰(zhàn)數(shù)據(jù)「喂出來」的智能體,能自己學(xué)著打。

這個寶可夢游戲(全稱Competitive Pokémon Singles)有多復(fù)雜呢?

在對戰(zhàn)平臺https://pokemonshowdown.com/上可以看到,即使不考慮策略,光是精靈、動作和物品的數(shù)量已經(jīng)多到了非??鋸埖某潭龋ǜ痉煌辏?/p>

打開網(wǎng)易新聞 查看精彩圖片

這意味著,AI要在信息不完全、策略博弈的環(huán)境中,把每一步出招、每一次換人,都當成下圍棋一樣來算。

寶可夢對戰(zhàn)融合了國際象棋般的長遠策略規(guī)劃、撲克牌那樣充滿未知信息和隨機性,再加上足以填滿一本百科全書的寶可夢、招式、特性和規(guī)則。玩家需要精心設(shè)計和操控自己的寶可夢隊伍,擊敗對手的所有寶可夢才能獲勝。這樣一個充滿不確定性、狀態(tài)空間極其龐大的游戲,對AI來說是絕佳又極具挑戰(zhàn)性的研究課題。

這種硬核程度,更像是寶可夢版的《星際爭霸》。

把「回放」喂給 AI,教它打?qū)毧蓧?/strong>

研究團隊開發(fā)了一個名為Metamon的平臺,它使用來自Pokémon Showdown(以下簡稱PS)的人類游戲數(shù)據(jù)集來啟用離線RL工作流。

打開網(wǎng)易新聞 查看精彩圖片

PS會創(chuàng)建一個日志(過程「回放」),記錄每場戰(zhàn)斗。

玩家保存日志以供日后研究、與朋友分享有趣的結(jié)果,或作為記錄官方錦標賽結(jié)果的證明。

PS的回放數(shù)據(jù)已經(jīng)超過十年——足夠的時間積累數(shù)百萬個重放,比如下面的是10年前2014年的戰(zhàn)斗回放。

打開網(wǎng)易新聞 查看精彩圖片

PS回放數(shù)據(jù)集是一個完全的、自然發(fā)生的人類數(shù)據(jù)集合,但這個數(shù)據(jù)集有個問題——這些數(shù)據(jù)是以第三方角度收集的,而不是第一人稱,訓(xùn)練智能體需要用第一人稱視角。

研究團隊通過將觀眾視角分別轉(zhuǎn)換為每個玩家的視角來解鎖PS回放數(shù)據(jù)集。

最終,研究團隊搞出一個47.5萬局真實人類對戰(zhàn)組成的離線強化學(xué)習數(shù)據(jù)集,而且每天還在持續(xù)增長中。

打開網(wǎng)易新聞 查看精彩圖片

在序列數(shù)據(jù)上使用離線強化學(xué)習算法訓(xùn)練

寶可夢擁有一個非常復(fù)雜的狀態(tài)空間,因此在使用離線強化學(xué)習(offline RL)進行訓(xùn)練時,策略模型可能需要具備較大的規(guī)模和復(fù)雜的結(jié)構(gòu)。

為了使訓(xùn)練過程更加穩(wěn)定,將這個問題轉(zhuǎn)化為行為克隆(Behavior Cloning, BC)的角度來理解:預(yù)測一個人類玩家的動作,實際上是在嘗試推理模仿的這個玩家的策略,以及他們對對手的理解。

為了實現(xiàn)準確的預(yù)測,模型往往需要較長的上下文輸入。

強化學(xué)習(RL)在這種場景下的作用,是幫助我們從包含了不同水平玩家(包括競技和休閑玩家)決策的大規(guī)模數(shù)據(jù)中,篩選出有效信息。

采用的解決方案是actor-critic架構(gòu),其中critic的訓(xùn)練方式是使用標準的一步時序差分(temporal difference, TD)更新來輸出Q值。至于actor的損失函數(shù),其一般形式如下:

打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片

接下來,需要為CPS(Competitive Pokémon Simulator)定義觀測空間、動作空間和獎勵函數(shù)。

智能體需要獲取足夠的信息,以便能夠模擬人類玩家的決策,而PS網(wǎng)站的用戶界面是一個顯而易見的參考點。

不過,由于模型具備記憶能力,因此無需在每一個時間步都提供全部信息。

最終達成了一個折中方案:輸入由87個文本詞語和48個數(shù)值特征組成。

下圖展示了數(shù)據(jù)集中一場回放中的示例。觀測只包含對手當前上場的寶可夢。

打開網(wǎng)易新聞 查看精彩圖片

僅僅依靠強化學(xué)習能打贏人類嗎?

傳統(tǒng)做法教AI玩游戲,通常會設(shè)計規(guī)則、模擬狀態(tài)、設(shè)計算法。

但這篇論文反其道而行之:直接喂數(shù)據(jù),讓它「模仿」人類怎么打。

他們訓(xùn)練了多個大小不同的智能體,從1500萬參數(shù)的小模型,到2億參數(shù)的大模型。

其中有的通過模仿學(xué)習訓(xùn)練(IL),有的則用離線強化學(xué)習(RL)進一步優(yōu)化,還有的則加上「自我對戰(zhàn)」的數(shù)據(jù)做微調(diào)。

打開網(wǎng)易新聞 查看精彩圖片

可以在Pokémon Showdown上觀看各個模型的游戲重播。

最強AI打上全球天梯前 10%

說了這么多,這AI真的能打嗎?

研究者將多個版本的模型送上Pokémon Showdown的天梯服務(wù)器——這是全世界寶可夢高玩集中的地方。

結(jié)果模型居然排進了全球活躍玩家的前10%,并成功登上了排行榜。

在圖中展示了Glicko-1階梯分數(shù)及其評分偏差。柱狀圖標簽標注的是GXE(勝率期望)統(tǒng)計數(shù)據(jù)。

打開網(wǎng)易新聞 查看精彩圖片

階梯分位數(shù)(Ladder Percentiles),在 2025年2月至3月期間下載的回放數(shù)據(jù)中,共識別出14,022個在第1到第4世代活躍的用戶名。

以第1世代(Gen1)為例,在這些用戶名中,有5,095個參與了 Gen1OU(標準對戰(zhàn)規(guī)則),其中有2,661個活躍度較高,達到了在最終結(jié)果統(tǒng)計時擁有有效 GXE(勝率期望)數(shù)據(jù)的標準。

打開網(wǎng)易新聞 查看精彩圖片

這可能是你第一次聽說有人用Transformer打?qū)毧蓧?,還打贏了人類。

但從技術(shù)視角看,這背后是強化學(xué)習、模仿學(xué)習、大模型訓(xùn)練和數(shù)據(jù)重構(gòu)的完整鏈路。

它不只是一個「有趣的實驗」,更像是一次對數(shù)據(jù)驅(qū)動游戲 AI 的深度演練。

下一步,或許可以不是打游戲,而是讓AI玩轉(zhuǎn)更復(fù)雜的現(xiàn)實任務(wù)。

此外,不同的訓(xùn)練策略以及大規(guī)模自我對戰(zhàn)(self-play)技術(shù),或許能夠讓智能體帶來超越人類表現(xiàn)的突破。

參考資料:

https://x.com/yukez/status/1909993963848622206

https://metamon.tech/

https://arxiv.org/abs/2504.04395