欧美大交乱xxxxxx,好男人完整版在线观看视频免费,国产福利在线观看的,免费av线上播放,欧美另类偷拍一区二区

新智元報道

編輯：定慧

【新智元導(dǎo)讀】還在用搜索和規(guī)則訓(xùn)練AI游戲？現(xiàn)在直接「看回放」學(xué)打?qū)毧蓧袅?！德州大學(xué)奧斯汀分校的研究團隊用Transformer和離線強化學(xué)習打造出一個智能體，不靠規(guī)則、沒用啟發(fā)式算法，純靠47.5萬場人類對戰(zhàn)回放訓(xùn)練出來，居然打上了Pokémon Showdown全球前10%！

AI 又有「新活」了！

德州大學(xué)奧斯汀分校的研究團隊用Transformers和離線強化學(xué)習訓(xùn)練出了一個寶可夢對戰(zhàn)AI智能體，不但打法像人，還能在全球排名中殺進前 10%。

論文地址：https://metamon.tech/

是的，你沒看錯，這不是那種靠搜索和規(guī)則的AI，而是靠人類歷史對戰(zhàn)數(shù)據(jù)「喂出來」的智能體，能自己學(xué)著打。

這個寶可夢游戲（全稱Competitive Pokémon Singles）有多復(fù)雜呢？

在對戰(zhàn)平臺https://pokemonshowdown.com/上可以看到，即使不考慮策略，光是精靈、動作和物品的數(shù)量已經(jīng)多到了非?？鋸埖某潭龋ǜ痉煌辏?/p>

這意味著，AI要在信息不完全、策略博弈的環(huán)境中，把每一步出招、每一次換人，都當成下圍棋一樣來算。

寶可夢對戰(zhàn)融合了國際象棋般的長遠策略規(guī)劃、撲克牌那樣充滿未知信息和隨機性，再加上足以填滿一本百科全書的寶可夢、招式、特性和規(guī)則。玩家需要精心設(shè)計和操控自己的寶可夢隊伍，擊敗對手的所有寶可夢才能獲勝。這樣一個充滿不確定性、狀態(tài)空間極其龐大的游戲，對AI來說是絕佳又極具挑戰(zhàn)性的研究課題。

這種硬核程度，更像是寶可夢版的《星際爭霸》。

把「回放」喂給 AI，教它打?qū)毧蓧?/strong>

研究團隊開發(fā)了一個名為Metamon的平臺，它使用來自Pokémon Showdown（以下簡稱PS）的人類游戲數(shù)據(jù)集來啟用離線RL工作流。

PS會創(chuàng)建一個日志（過程「回放」），記錄每場戰(zhàn)斗。

玩家保存日志以供日后研究、與朋友分享有趣的結(jié)果，或作為記錄官方錦標賽結(jié)果的證明。

PS的回放數(shù)據(jù)已經(jīng)超過十年——足夠的時間積累數(shù)百萬個重放，比如下面的是10年前2014年的戰(zhàn)斗回放。

PS回放數(shù)據(jù)集是一個完全的、自然發(fā)生的人類數(shù)據(jù)集合，但這個數(shù)據(jù)集有個問題——這些數(shù)據(jù)是以第三方角度收集的，而不是第一人稱，訓(xùn)練智能體需要用第一人稱視角。

研究團隊通過將觀眾視角分別轉(zhuǎn)換為每個玩家的視角來解鎖PS回放數(shù)據(jù)集。

最終，研究團隊搞出一個47.5萬局真實人類對戰(zhàn)組成的離線強化學(xué)習數(shù)據(jù)集，而且每天還在持續(xù)增長中。

在序列數(shù)據(jù)上使用離線強化學(xué)習算法訓(xùn)練

寶可夢擁有一個非常復(fù)雜的狀態(tài)空間，因此在使用離線強化學(xué)習（offline RL）進行訓(xùn)練時，策略模型可能需要具備較大的規(guī)模和復(fù)雜的結(jié)構(gòu)。

為了使訓(xùn)練過程更加穩(wěn)定，將這個問題轉(zhuǎn)化為行為克隆（Behavior Cloning, BC）的角度來理解：預(yù)測一個人類玩家的動作，實際上是在嘗試推理模仿的這個玩家的策略，以及他們對對手的理解。

為了實現(xiàn)準確的預(yù)測，模型往往需要較長的上下文輸入。

強化學(xué)習（RL）在這種場景下的作用，是幫助我們從包含了不同水平玩家（包括競技和休閑玩家）決策的大規(guī)模數(shù)據(jù)中，篩選出有效信息。

采用的解決方案是actor-critic架構(gòu)，其中critic的訓(xùn)練方式是使用標準的一步時序差分（temporal difference, TD）更新來輸出Q值。至于actor的損失函數(shù)，其一般形式如下：

接下來，需要為CPS（Competitive Pokémon Simulator）定義觀測空間、動作空間和獎勵函數(shù)。

智能體需要獲取足夠的信息，以便能夠模擬人類玩家的決策，而PS網(wǎng)站的用戶界面是一個顯而易見的參考點。

不過，由于模型具備記憶能力，因此無需在每一個時間步都提供全部信息。

最終達成了一個折中方案：輸入由87個文本詞語和48個數(shù)值特征組成。

下圖展示了數(shù)據(jù)集中一場回放中的示例。觀測只包含對手當前上場的寶可夢。

僅僅依靠強化學(xué)習能打贏人類嗎？

傳統(tǒng)做法教AI玩游戲，通常會設(shè)計規(guī)則、模擬狀態(tài)、設(shè)計算法。

但這篇論文反其道而行之：直接喂數(shù)據(jù)，讓它「模仿」人類怎么打。

他們訓(xùn)練了多個大小不同的智能體，從1500萬參數(shù)的小模型，到2億參數(shù)的大模型。

其中有的通過模仿學(xué)習訓(xùn)練（IL），有的則用離線強化學(xué)習（RL）進一步優(yōu)化，還有的則加上「自我對戰(zhàn)」的數(shù)據(jù)做微調(diào)。

可以在Pokémon Showdown上觀看各個模型的游戲重播。

最強AI打上全球天梯前 10%

說了這么多，這AI真的能打嗎？

研究者將多個版本的模型送上Pokémon Showdown的天梯服務(wù)器——這是全世界寶可夢高玩集中的地方。

結(jié)果模型居然排進了全球活躍玩家的前10%，并成功登上了排行榜。

在圖中展示了Glicko-1階梯分數(shù)及其評分偏差。柱狀圖標簽標注的是GXE（勝率期望）統(tǒng)計數(shù)據(jù)。

階梯分位數(shù)（Ladder Percentiles），在 2025年2月至3月期間下載的回放數(shù)據(jù)中，共識別出14,022個在第1到第4世代活躍的用戶名。

以第1世代（Gen1）為例，在這些用戶名中，有5,095個參與了 Gen1OU（標準對戰(zhàn)規(guī)則），其中有2,661個活躍度較高，達到了在最終結(jié)果統(tǒng)計時擁有有效 GXE（勝率期望）數(shù)據(jù)的標準。

這可能是你第一次聽說有人用Transformer打?qū)毧蓧?，還打贏了人類。

但從技術(shù)視角看，這背后是強化學(xué)習、模仿學(xué)習、大模型訓(xùn)練和數(shù)據(jù)重構(gòu)的完整鏈路。

它不只是一個「有趣的實驗」，更像是一次對數(shù)據(jù)驅(qū)動游戲 AI 的深度演練。

下一步，或許可以不是打游戲，而是讓AI玩轉(zhuǎn)更復(fù)雜的現(xiàn)實任務(wù)。

此外，不同的訓(xùn)練策略以及大規(guī)模自我對戰(zhàn)（self-play）技術(shù)，或許能夠讓智能體帶來超越人類表現(xiàn)的突破。

參考資料：

https://x.com/yukez/status/1909993963848622206

https://metamon.tech/

https://arxiv.org/abs/2504.04395

国产黄片av免费_在线观看看片_www第一精品久久久_成人毛片18女人毛片免_日日摸夜夜操av_国产精品热久久久久夜色精品三区 _中文字幕日韩欧美精品在线_欧美高清另类hdvideosex

AI版本寶可夢沖榜上全球前10%！一次性「吃掉」10年47.5萬場人類對戰(zhàn)數(shù)據(jù)

熱搜

熱門跟貼

国产黄片av免费_在线观看看片_www第一精品久久久_成人毛片18女人毛片免_日日摸夜夜操av_国产精品热久久久久夜色精品三区 _中文字幕日韩欧美精品在线_欧美高清另类hdvideosex

熱搜

熱門跟貼

相關(guān)推薦

收了神通吧！AI做的游戲快把人類玩家逼瘋了

中國AI大洗牌！Deep Seek開源后，40%市場被它“血洗”？

國產(chǎn)率100%！中國啃下AI領(lǐng)域最后一根“硬骨頭”，美國這波輸慘了

AI時代，雞娃變得越來越魔幻

機器人的智商被狗碾壓了

滿級人類的高光時刻，人類又偷偷進化了

滿級人類幼崽把板凳玩出新花樣的神操作

披著羊皮的狼，讓AI給實現(xiàn)了，效果竟還有點可愛！

和人工智能下棋，本以為穩(wěn)贏了，結(jié)果它竟然不講武德

超高爆率打小恐龍爆紅，后面又出了遠古神器

這??！絕對不是“Ai”，是虛擬世界的禮服奔現(xiàn)了而已，網(wǎng)友：小時候想象中的自己

《宮崎駿畫風被AI復(fù)刻！日本藝術(shù)家集體暴怒：這是剽竊靈魂！》

百頁專業(yè)報告直出！Jürgen團隊開源框架WriteHERE，AI寫作天花板

選AI比選對象還難！起名黑洞OpenAI的新模型，到底怎么選？

首個融合重建-預(yù)測-規(guī)劃的生成式世界模型AETHER開源

垂直小模型精準補位，MVP驗證成本更低更高效了

aiXcoder：代碼大模型引領(lǐng)企業(yè)軟件開發(fā)革命｜50條技術(shù)賽道，50家創(chuàng)業(yè)公司

OpenAI還能扛起人工智能的大旗嗎？

產(chǎn)業(yè)鏈日趨成熟，但高質(zhì)量數(shù)據(jù)依舊稀缺 AI硬件距離“奇點時刻”還有多遠？

從多模態(tài)融合到智能體出現(xiàn) 中國AI出海如何實現(xiàn)本地化突圍？

中國AI大洗牌！Deep Seek開源后，40%市場被它“血洗”？

國產(chǎn)率100%！中國啃下AI領(lǐng)域最后一根“硬骨頭”，美國這波輸慘了

AI時代，雞娃變得越來越魔幻

披著羊皮的狼，讓AI給實現(xiàn)了，效果竟還有點可愛！

和人工智能下棋，本以為穩(wěn)贏了，結(jié)果它竟然不講武德

超高爆率打小恐龍爆紅，后面又出了遠古神器

這??！絕對不是“Ai”，是虛擬世界的禮服奔現(xiàn)了而已，網(wǎng)友：小時候想象中的自己

《宮崎駿畫風被AI復(fù)刻！日本藝術(shù)家集體暴怒：這是剽竊靈魂！》

百頁專業(yè)報告直出！Jürgen團隊開源框架WriteHERE，AI寫作天花板

選AI比選對象還難！起名黑洞OpenAI的新模型，到底怎么選？

垂直小模型精準補位，MVP驗證成本更低更高效了

aiXcoder：代碼大模型引領(lǐng)企業(yè)軟件開發(fā)革命｜50條技術(shù)賽道，50家創(chuàng)業(yè)公司

OpenAI還能扛起人工智能的大旗嗎？

產(chǎn)業(yè)鏈日趨成熟，但高質(zhì)量數(shù)據(jù)依舊稀缺 AI硬件距離“奇點時刻”還有多遠？

從多模態(tài)融合到智能體出現(xiàn) 中國AI出海如何實現(xiàn)本地化突圍？