
新智元報道
編輯:定慧
【新智元導(dǎo)讀】還在用搜索和規(guī)則訓(xùn)練AI游戲?現(xiàn)在直接「看回放」學(xué)打?qū)毧蓧袅?!德州大學(xué)奧斯汀分校的研究團隊用Transformer和離線強化學(xué)習打造出一個智能體,不靠規(guī)則、沒用啟發(fā)式算法,純靠47.5萬場人類對戰(zhàn)回放訓(xùn)練出來,居然打上了Pokémon Showdown全球前10%!
AI 又有「新活」了!
德州大學(xué)奧斯汀分校的研究團隊用Transformers和離線強化學(xué)習訓(xùn)練出了一個寶可夢對戰(zhàn)AI智能體,不但打法像人,還能在全球排名中殺進前 10%。
論文地址:https://metamon.tech/
是的,你沒看錯,這不是那種靠搜索和規(guī)則的AI,而是靠人類歷史對戰(zhàn)數(shù)據(jù)「喂出來」的智能體,能自己學(xué)著打。
這個寶可夢游戲(全稱Competitive Pokémon Singles)有多復(fù)雜呢?
在對戰(zhàn)平臺https://pokemonshowdown.com/上可以看到,即使不考慮策略,光是精靈、動作和物品的數(shù)量已經(jīng)多到了非??鋸埖某潭龋ǜ痉煌辏?/p>
這意味著,AI要在信息不完全、策略博弈的環(huán)境中,把每一步出招、每一次換人,都當成下圍棋一樣來算。
寶可夢對戰(zhàn)融合了國際象棋般的長遠策略規(guī)劃、撲克牌那樣充滿未知信息和隨機性,再加上足以填滿一本百科全書的寶可夢、招式、特性和規(guī)則。玩家需要精心設(shè)計和操控自己的寶可夢隊伍,擊敗對手的所有寶可夢才能獲勝。這樣一個充滿不確定性、狀態(tài)空間極其龐大的游戲,對AI來說是絕佳又極具挑戰(zhàn)性的研究課題。
這種硬核程度,更像是寶可夢版的《星際爭霸》。
把「回放」喂給 AI,教它打?qū)毧蓧?/strong>
研究團隊開發(fā)了一個名為Metamon的平臺,它使用來自Pokémon Showdown(以下簡稱PS)的人類游戲數(shù)據(jù)集來啟用離線RL工作流。

PS會創(chuàng)建一個日志(過程「回放」),記錄每場戰(zhàn)斗。
玩家保存日志以供日后研究、與朋友分享有趣的結(jié)果,或作為記錄官方錦標賽結(jié)果的證明。
PS的回放數(shù)據(jù)已經(jīng)超過十年——足夠的時間積累數(shù)百萬個重放,比如下面的是10年前2014年的戰(zhàn)斗回放。

PS回放數(shù)據(jù)集是一個完全的、自然發(fā)生的人類數(shù)據(jù)集合,但這個數(shù)據(jù)集有個問題——這些數(shù)據(jù)是以第三方角度收集的,而不是第一人稱,訓(xùn)練智能體需要用第一人稱視角。
研究團隊通過將觀眾視角分別轉(zhuǎn)換為每個玩家的視角來解鎖PS回放數(shù)據(jù)集。
最終,研究團隊搞出一個47.5萬局真實人類對戰(zhàn)組成的離線強化學(xué)習數(shù)據(jù)集,而且每天還在持續(xù)增長中。

在序列數(shù)據(jù)上使用離線強化學(xué)習算法訓(xùn)練
寶可夢擁有一個非常復(fù)雜的狀態(tài)空間,因此在使用離線強化學(xué)習(offline RL)進行訓(xùn)練時,策略模型可能需要具備較大的規(guī)模和復(fù)雜的結(jié)構(gòu)。
為了使訓(xùn)練過程更加穩(wěn)定,將這個問題轉(zhuǎn)化為行為克隆(Behavior Cloning, BC)的角度來理解:預(yù)測一個人類玩家的動作,實際上是在嘗試推理模仿的這個玩家的策略,以及他們對對手的理解。
為了實現(xiàn)準確的預(yù)測,模型往往需要較長的上下文輸入。
強化學(xué)習(RL)在這種場景下的作用,是幫助我們從包含了不同水平玩家(包括競技和休閑玩家)決策的大規(guī)模數(shù)據(jù)中,篩選出有效信息。
采用的解決方案是actor-critic架構(gòu),其中critic的訓(xùn)練方式是使用標準的一步時序差分(temporal difference, TD)更新來輸出Q值。至于actor的損失函數(shù),其一般形式如下:


接下來,需要為CPS(Competitive Pokémon Simulator)定義觀測空間、動作空間和獎勵函數(shù)。
智能體需要獲取足夠的信息,以便能夠模擬人類玩家的決策,而PS網(wǎng)站的用戶界面是一個顯而易見的參考點。
不過,由于模型具備記憶能力,因此無需在每一個時間步都提供全部信息。
最終達成了一個折中方案:輸入由87個文本詞語和48個數(shù)值特征組成。
下圖展示了數(shù)據(jù)集中一場回放中的示例。觀測只包含對手當前上場的寶可夢。

僅僅依靠強化學(xué)習能打贏人類嗎?
傳統(tǒng)做法教AI玩游戲,通常會設(shè)計規(guī)則、模擬狀態(tài)、設(shè)計算法。
但這篇論文反其道而行之:直接喂數(shù)據(jù),讓它「模仿」人類怎么打。
他們訓(xùn)練了多個大小不同的智能體,從1500萬參數(shù)的小模型,到2億參數(shù)的大模型。
其中有的通過模仿學(xué)習訓(xùn)練(IL),有的則用離線強化學(xué)習(RL)進一步優(yōu)化,還有的則加上「自我對戰(zhàn)」的數(shù)據(jù)做微調(diào)。

可以在Pokémon Showdown上觀看各個模型的游戲重播。
最強AI打上全球天梯前 10%
說了這么多,這AI真的能打嗎?
研究者將多個版本的模型送上Pokémon Showdown的天梯服務(wù)器——這是全世界寶可夢高玩集中的地方。
結(jié)果模型居然排進了全球活躍玩家的前10%,并成功登上了排行榜。
在圖中展示了Glicko-1階梯分數(shù)及其評分偏差。柱狀圖標簽標注的是GXE(勝率期望)統(tǒng)計數(shù)據(jù)。

階梯分位數(shù)(Ladder Percentiles),在 2025年2月至3月期間下載的回放數(shù)據(jù)中,共識別出14,022個在第1到第4世代活躍的用戶名。
以第1世代(Gen1)為例,在這些用戶名中,有5,095個參與了 Gen1OU(標準對戰(zhàn)規(guī)則),其中有2,661個活躍度較高,達到了在最終結(jié)果統(tǒng)計時擁有有效 GXE(勝率期望)數(shù)據(jù)的標準。

這可能是你第一次聽說有人用Transformer打?qū)毧蓧?,還打贏了人類。
但從技術(shù)視角看,這背后是強化學(xué)習、模仿學(xué)習、大模型訓(xùn)練和數(shù)據(jù)重構(gòu)的完整鏈路。
它不只是一個「有趣的實驗」,更像是一次對數(shù)據(jù)驅(qū)動游戲 AI 的深度演練。
下一步,或許可以不是打游戲,而是讓AI玩轉(zhuǎn)更復(fù)雜的現(xiàn)實任務(wù)。
此外,不同的訓(xùn)練策略以及大規(guī)模自我對戰(zhàn)(self-play)技術(shù),或許能夠讓智能體帶來超越人類表現(xiàn)的突破。
參考資料:
https://x.com/yukez/status/1909993963848622206
https://metamon.tech/
https://arxiv.org/abs/2504.04395
熱門跟貼