国产黄片av免费_在线观看看片_www第一精品久久久_成人毛片18女人毛片免_日日摸夜夜操av_国产精品热久久久久夜色精品三区 _中文字幕日韩欧美精品在线_欧美高清另类hdvideosex

<strike id="qcgew"></strike>

<strike id="qcgew"><input id="qcgew"></input></strike>

<fieldset id="qcgew"><table id="qcgew"></table></fieldset>

異議！頂流AI決戰(zhàn)「逆轉(zhuǎn)裁判」：o1險勝Gemini 2.5登頂、Llama 4零分墊底

新智元

2025-04-17 15:06 ·北京 ·《新智元》官方網(wǎng)易號

新智元報道

編輯：犀牛英智

【新智元導(dǎo)讀】懸疑小說的最后一頁，隱藏著罪犯的真相?！赌孓D(zhuǎn)裁判》的法庭上，真兇在謊言中露出破綻。UCSD研究團(tuán)隊以這款經(jīng)典游戲為舞臺，o1、Gemini 2.5 Pro等模型化身「偵探」，測試AI的推理極限。

當(dāng)談到AI為何能從「預(yù)測下一個詞」中誕生智慧時，Ilya Sutskever曾用一個生動的比喻來解釋。

想象你在讀一本懸疑小說，如果僅憑前面的線索就能在最后一頁推斷出罪犯是誰，那么你對這個故事的理解無疑是深刻的。

同樣，AI通過學(xué)習(xí)海量文本，掌握了從字面到語義的「線索」，展現(xiàn)出驚人的智能。

受此啟發(fā)，UCSD的華人研究者用游戲《逆轉(zhuǎn)裁判》（Ace Attorney）測試AI的推理能力。

《逆轉(zhuǎn)裁判》以錯綜復(fù)雜的故事情節(jié)和扣人心弦的法庭對決著稱。

這款游戲堪稱測試模型的完美舞臺：AI化身偵探，收集線索、揭露矛盾，最終挖掘真相。

研究者讓當(dāng)前最頂尖的AI模型（GPT-4.1、Gemini 2.5 Pro、Llama-4 Maverick等）在《逆轉(zhuǎn)裁判》中接受考驗，看它們能否喊出「反對！」，扭轉(zhuǎn)案情，揭開謊言背后的真相。

和偵小說一樣，模型玩家得把線索、證據(jù)串起來，揭露證詞中的矛盾，抓住真兇。

測試中，AI模型要參與緊張的法庭盤問環(huán)節(jié)。它要敏銳地找出證詞中的漏洞，拿出正確的證據(jù)進(jìn)行反駁。每個關(guān)卡有5次機(jī)會，犯錯空間有限。

團(tuán)隊測試了多款頂尖的AI多模態(tài)模型，包括o1、Gemini 2.5 Pro、Claude 3.7-thinking和Llama-4 Maverick。

結(jié)果顯示，o1和Gemini 2.5 Pro表現(xiàn)最佳，均晉級第4關(guān)。雖然未能通關(guān)，但o1在應(yīng)對最復(fù)雜案件時，略勝Gemini 2.5 Pro一籌。

GPT-4.1與Claude 3.5表現(xiàn)相當(dāng)。盡管GPT-4.1據(jù)稱比GPT-4o有所提升，但這次測試中的表現(xiàn)與其持平。

Llama-4 Maverick一次沒對，零分墊底！

為什么它很難？

《逆轉(zhuǎn)裁判》游戲?qū)I模型十分困難，主要是因為模型需要有以下能力：

長文本推理：需要比對之前的對話和證據(jù)，發(fā)現(xiàn)證詞中的矛盾點。
視覺理解：準(zhǔn)確識別能反駁虛假陳述的圖片。
策略決策（游戲設(shè)計）：動態(tài)變化的案件中，決定何時追問、出示證據(jù)或暫不行動。不僅要給出答案，還要在正確時機(jī)采取行動。

游戲設(shè)計要求AI把理解轉(zhuǎn)化為有情境依據(jù)的行動，讓它不只局限于處理文本或視覺任務(wù)。

因為AI需要推理情境化的行動空間，而非簡單死記硬背，所以更不容易出現(xiàn)過擬合。

性價比哪家強(qiáng)

Gemini 2.5 Pro重新定義了性價比。

在性能相當(dāng)?shù)那闆r下，Gemini 2.5 Pro比o1-2024-12-17便宜6-15倍，甚至比GPT-4.1還便宜一點。

通過第1關(guān)的模型成本對比中，o1的API調(diào)用次數(shù)最少，總成本卻是最高的。

調(diào)用次數(shù)體現(xiàn)的是策略，而非推理能力。因為深入挖掘證詞，自然會觸發(fā)更多請求。

進(jìn)入更高關(guān)卡后，隨著對話篇幅增加，o1的成本激增。

在第2關(guān)（一個很長的案例）中，o1的成本超過$45.75，而Gemini 2.5 Pro僅需$7.89，差距驚人！

注意：

Gemini 2.5 Pro使用內(nèi)置token計數(shù)方法，將所有圖片都按258個token計算，因此實際成本可能略高。
o1隱藏推理內(nèi)容存在不確定性，其輸出成本也可能被低估了。

目前團(tuán)隊已將項目開源，可以在里面查看如何設(shè)置游戲和LLM。

項目地址：https://github.com/lmgame-org/GamingAgent

除此之外，項目中還有更多經(jīng)典游戲能測試AI模型的性能。

推箱子游戲

推箱子（Sokoban）是一款經(jīng)典的單人游戲，以深邃的策略性著稱。

推箱子的玩法簡單直觀，但挑戰(zhàn)性極高。

玩家在一個由方格組成的迷宮中操作角色，通過邏輯思考和規(guī)劃，將箱子推到目標(biāo)位置。

2048游戲

這是一款數(shù)字益智游戲，玩家通過滑動方塊合并相同數(shù)字，最終目標(biāo)是合成2048方塊。

策略上，應(yīng)該優(yōu)先保持最大數(shù)字在角落，規(guī)劃滑動方向以避免方塊堆積，靈活調(diào)整以應(yīng)對隨機(jī)出現(xiàn)的數(shù)字。

下圖可以看出，Claude 3.7 玩起2048來還是挺絲滑的，能持續(xù)玩很多步。相比之下，GPT 4o不知道為什么，玩上幾步就開始卡上了。

俄羅斯方塊

俄羅斯方塊是一款風(fēng)靡全球的經(jīng)典游戲。

玩家需通過移動和旋轉(zhuǎn)方塊，拼湊完整橫行以消除得分，盡可能延長游戲時間或獲得高分。

此外，還有超級馬里奧、糖果粉碎傳奇等多款游戲。

參考資料：

https://x.com/haoailab/status/1912231343372812508

https://huggingface.co/spaces/lmgame/game_arena_bench

https://lmgame.org/

打開網(wǎng)易新聞體驗更佳

熱搜

熱門跟貼

打開APP發(fā)貼

五指山市| 霍山县| 壤塘县| 成安县| 定日县| 延安市| 定结县| 顺昌县| 杭锦后旗| 彭阳县| 栾城县| 德令哈市| 来凤县| 洪洞县| 佛冈县| 福贡县| 栾城县| 遵化市| 石林| 宁安市| 张家界市| 高陵县| 贡觉县| 远安县| 巴彦县| 嘉善县| 衡南县| 嘉兴市| 河西区| 六盘水市| 邓州市| 土默特左旗| 凤台县| 玉田县| 兴文县| 河东区| 孟州市| 元朗区| 勃利县| 铁岭市| 喀喇沁旗|

<del id="q8cci"></del>

<strike id="q8cci"><rt id="q8cci"></rt></strike>