靠著吉卜力,OpenAI 又大出了一把風(fēng)頭。但實際在過去的一周里,有不少模型發(fā)布了版本更新,包括 DeepSeek,Gemini,Qwen。個個都是在推理上有所增強,以及多模態(tài)的支持。

每次有新的推理模型升級或者出現(xiàn),怎么領(lǐng)略它們的能力很棘手。說白了,老讓它們做題也沒什么意思。
周末打游戲的時候,我忽然意識到:游戲不就是最好的試驗場景嗎?
版本齊齊更新,推理能力再上一層
Qwen 在周五的凌晨發(fā)布了全新自家視覺推理模型的全新版本 QvQ-Max。不僅能夠「看懂」圖片和視頻里的內(nèi)容,還能結(jié)合這些信息進行分析、推理,甚至給出解決方案。

Gemini 這邊,則是三月 25 日推出的 2.5 Pro Experimental,推理、寫代碼以及多模態(tài)理解都有全面提高。在數(shù)學(xué)和科學(xué)基準(zhǔn)測試(如 GPQA 和 AIME 2025)中排名超越 OpenAI 的 03 mini。

帶有 100 萬個標(biāo)記上下文窗口,能夠理解龐大的數(shù)據(jù)集并處理來自不同信息源的復(fù)雜問題,包括文本、音頻、圖像、視頻甚至整個代碼存儲庫。
再說一遍:推理能力對于模型而言,不只是解解數(shù)學(xué)題而已。更重要的是, 讓推理作為底層能力,惠及模型在所有形態(tài)的任務(wù)上的處理,包括跨模態(tài)的理解。
這也是為什么各家都很重視推理能力,理論上它是 AGI 真正的基石。
怎么,打游戲很難嗎?
游戲是一個「 既不復(fù)雜又挺復(fù)雜」的考核場景。不復(fù)雜的原因很簡單:現(xiàn)階段模型動不了手,所有的操控還得是玩家自己來。
「挺復(fù)雜」又在于,它是多模態(tài)素材,文字、圖像、視覺效果應(yīng)有盡有。

一種潛在的使用場景是,讓模型 能通過讀取游戲記錄,根據(jù)相對應(yīng)的關(guān)卡,制定作戰(zhàn)計劃。 這意味著不僅要搞懂所有的素材,還要有分析和計算的能力。
一下子讓模型出攻略,步子邁得有點太大了。還是先從看懂游戲錄屏,并且整理數(shù)字開始吧,不算太難。
我給 Gemini 和 Qwen 都上傳了相同的游戲錄屏,然后讓它們整理所有出現(xiàn)的傷害數(shù)值。

這里出現(xiàn)了一些不同:Gemini 對模糊指令的理解更好一點,我只需要寫到「整理成表格」就好,但 Qwen 需要更明確一點,否則它最終出具的表格,什么樣式的都有。
游戲樣本選擇了來自 b 站 up 主@司馬玄清在《重返未來:1999》的一段錄屏。 主要原因是, 這是一款卡牌游戲,形式簡單。 且在這個視頻里背景清晰,數(shù)值能夠完全展示出來,同時對用到的技能也有文字展示。

上傳開始,Qwen 不花多少時間就成功接收,并開始處理。Gemini 的上傳很是花了一些時間,整體上在兩三分鐘左右,傳上去之后還要花個半分鐘左右分析。
兩邊都提供了思維鏈,Qwen 給的是中文,Gemini 的思維鏈默認是英文,而且長非常非常多。

思維鏈的不同也反映在了最后給出的表格上,從第一眼看兩邊的數(shù)值就不一樣了。
核查了一下發(fā)現(xiàn),Qwen 是 每五秒統(tǒng)計一次,收錄讀秒時的畫面顯示的內(nèi)容,老實說這個思路準(zhǔn)確度是會有點問題。

Gemini 給出了很長的表格,雖然沒有明確的時間戳,但是對傷害數(shù)值的統(tǒng)計準(zhǔn)確率高出了不少,粗略地看,基本沒有瞎編的數(shù)字。

仔細核查一下,Gemini 的抓取數(shù)值的準(zhǔn)確度確實是超出預(yù)期的,首先它能連續(xù)「觀看」視頻內(nèi)容并進行分析。
同時還能兼顧多個行動主體,比如我方受到攻擊時還能區(qū)分是哪個角色被攻擊、傷害多少。隨機抽查幾個數(shù)字,正確率挺高。


當(dāng)然也不是百分百準(zhǔn)確:比如對連擊的抓取不行,玩家打出一連串攻擊時,只能抓到第一次的記錄。

在試圖合計多段攻擊的總值時,也不準(zhǔn)——總結(jié)得很好,下次不要總結(jié)了。

整體來看,Gemini 的準(zhǔn)確度能有 65 分,Qwen 大概是 55 分。后面還讓它們分別總結(jié)了所涉及到的特殊技能:

兩邊總結(jié)起來的思路不一樣,Qwen 是按照技能類型劃分,主要參考了卡面的文字展示。

Gemini 則是以視頻為主,計算作戰(zhàn)中的出現(xiàn)方式來統(tǒng)計,結(jié)合了角色。

不得不說,視頻材料消耗 token 跟玩似的,五分鐘的視頻光是傳上去就已經(jīng) 9 萬 token 了。幸好 Gemini 還算大方,每個會話的起始量都是一百萬,經(jīng)得起花。
前置工作鋪墊好了,理論上對游戲應(yīng)該有所了解,那么「如果我想用更短的時間就勝利,出擊方式和技能卡牌使用應(yīng)該怎么調(diào)整?」
技能和角色的名稱由于翻譯的原因比較混亂,暫且拋開不談,兩邊都給出了像模像樣的「攻略」,尤其是 Qwen。

Gemini 也可以出攻略,相對沒有那么詳細。

綜合能力可能,強操控游戲仍是挑戰(zhàn)
有一說一,卡牌游戲總歸是比較簡單的,不管是對于玩家還是對于 AI。就這準(zhǔn)確度就已經(jīng)堪憂了,涉及操控的話,還能跑得動嗎?
于是下面我找來了一段王者榮耀的視頻,看看這回兩個模型的表現(xiàn)。

這次兩個模型都開始摸不著頭腦了。Qwen 給出了一個整理,但光看著就 bug 滿滿,而且沒有了時間戳甚至很難核對。

Gemini 還是按照之前的方式,給出了詳細的表格。但是按照時間戳一對比,數(shù)字也是很亂,它在備注里也寫到自己對一些傷害難以區(qū)分。

甚至當(dāng)很多數(shù)字接連冒出來的時候,干脆就直接摸魚,寫了一個「較小數(shù)字」就蒙混過關(guān)了。

如果不能準(zhǔn)確提取現(xiàn)有的數(shù)據(jù),后面的推理分析就很不樂觀了。但我還是淺問了一下「按照現(xiàn)有的戰(zhàn)況,分析本局的勝率和敗率」。
Qwen 比較中規(guī)中矩,可以綜合讀取視頻里所有相關(guān)的信息,比如等級、金幣數(shù)等等。
意外的是 Gemini, 它不僅讀取了視頻里的信息,還讀了音頻:這段錄像是同事現(xiàn)打的一段人機,錄制時環(huán)境嘈雜,竟然能被 Gemini 識別出來。它認為人機對戰(zhàn)中,只要不出錯,就是穩(wěn)贏。
有點東西。
王者的難度屬實有點大,這個表現(xiàn)也不算意外。但整體上,兩個模型的表現(xiàn)都比想象中的好很多。
盡管兩邊的主打不一樣,Gemini 強調(diào)推理,Qwen 強調(diào)視覺,但都反映出了一開始所說的: 以推理能力為基石,全面惠及不同維度的能力。
這也能在 Qwen QvQ-Max 的發(fā)布報告中看到,團隊談到了為什么要投入視覺在推理中:傳統(tǒng)的 AI 模型大多依賴文字輸入,比如回答問題、寫文章或者生成代碼。但現(xiàn)實生活中,很多信息并不是用文字表達的。
圖片、圖表甚至視頻等多種形式,都包含著信息。一張圖片可能包含豐富的細節(jié),比如顏色、形狀、位置關(guān)系等,而這些信息往往比文字更直觀、也更復(fù)雜。
而僅僅 只是「看到」這些信息,還遠遠不夠。只有調(diào)動推理能力,「看懂」所有的信息,還能做出進一步分析,一切才有更豐富的應(yīng)用層面的意義。
Gemini 和 Qwen 的表現(xiàn)為「模型即產(chǎn)品」又多添了一枚砝碼,當(dāng)推理能力再上一個臺階的時候,泛用性進一步提高,「通用型智能」初具形態(tài),只是時間問題。
我們正在招募伙伴
簡歷投遞郵箱
hr@ifanr.com
?? 郵件標(biāo)題
「姓名+崗位名稱」(請隨簡歷附上項目/作品或相關(guān)鏈接)

熱門跟貼