欧美激情视频十区,秋霞午夜久久一区三区 ,一二三四视频社区观看中文版,永久免费看黄app,亚洲国线精品国偷产拍

靠著吉卜力，OpenAI 又大出了一把風(fēng)頭。但實際在過去的一周里，有不少模型發(fā)布了版本更新，包括 DeepSeek，Gemini，Qwen。個個都是在推理上有所增強，以及多模態(tài)的支持。

每次有新的推理模型升級或者出現(xiàn)，怎么領(lǐng)略它們的能力很棘手。說白了，老讓它們做題也沒什么意思。

周末打游戲的時候，我忽然意識到：游戲不就是最好的試驗場景嗎？

版本齊齊更新，推理能力再上一層

Qwen 在周五的凌晨發(fā)布了全新自家視覺推理模型的全新版本 QvQ-Max。不僅能夠「看懂」圖片和視頻里的內(nèi)容，還能結(jié)合這些信息進行分析、推理，甚至給出解決方案。

Gemini 這邊，則是三月 25 日推出的 2.5 Pro Experimental，推理、寫代碼以及多模態(tài)理解都有全面提高。在數(shù)學(xué)和科學(xué)基準(zhǔn)測試（如 GPQA 和 AIME 2025）中排名超越 OpenAI 的 03 mini。

帶有 100 萬個標(biāo)記上下文窗口，能夠理解龐大的數(shù)據(jù)集并處理來自不同信息源的復(fù)雜問題，包括文本、音頻、圖像、視頻甚至整個代碼存儲庫。

再說一遍：推理能力對于模型而言，不只是解解數(shù)學(xué)題而已。更重要的是， 讓推理作為底層能力，惠及模型在所有形態(tài)的任務(wù)上的處理，包括跨模態(tài)的理解。

這也是為什么各家都很重視推理能力，理論上它是 AGI 真正的基石。

怎么，打游戲很難嗎？

游戲是一個「 既不復(fù)雜又挺復(fù)雜」的考核場景。不復(fù)雜的原因很簡單：現(xiàn)階段模型動不了手，所有的操控還得是玩家自己來。

「挺復(fù)雜」又在于，它是多模態(tài)素材，文字、圖像、視覺效果應(yīng)有盡有。

一種潛在的使用場景是，讓模型能通過讀取游戲記錄，根據(jù)相對應(yīng)的關(guān)卡，制定作戰(zhàn)計劃。 這意味著不僅要搞懂所有的素材，還要有分析和計算的能力。

一下子讓模型出攻略，步子邁得有點太大了。還是先從看懂游戲錄屏，并且整理數(shù)字開始吧，不算太難。

我給 Gemini 和 Qwen 都上傳了相同的游戲錄屏，然后讓它們整理所有出現(xiàn)的傷害數(shù)值。

這里出現(xiàn)了一些不同：Gemini 對模糊指令的理解更好一點，我只需要寫到「整理成表格」就好，但 Qwen 需要更明確一點，否則它最終出具的表格，什么樣式的都有。

游戲樣本選擇了來自 b 站 up 主@司馬玄清在《重返未來：1999》的一段錄屏。主要原因是，這是一款卡牌游戲，形式簡單。且在這個視頻里背景清晰，數(shù)值能夠完全展示出來，同時對用到的技能也有文字展示。

上傳開始，Qwen 不花多少時間就成功接收，并開始處理。Gemini 的上傳很是花了一些時間，整體上在兩三分鐘左右，傳上去之后還要花個半分鐘左右分析。

兩邊都提供了思維鏈，Qwen 給的是中文，Gemini 的思維鏈默認是英文，而且長非常非常多。

思維鏈的不同也反映在了最后給出的表格上，從第一眼看兩邊的數(shù)值就不一樣了。

核查了一下發(fā)現(xiàn)，Qwen 是 每五秒統(tǒng)計一次，收錄讀秒時的畫面顯示的內(nèi)容，老實說這個思路準(zhǔn)確度是會有點問題。

Gemini 給出了很長的表格，雖然沒有明確的時間戳，但是對傷害數(shù)值的統(tǒng)計準(zhǔn)確率高出了不少，粗略地看，基本沒有瞎編的數(shù)字。

仔細核查一下，Gemini 的抓取數(shù)值的準(zhǔn)確度確實是超出預(yù)期的，首先它能連續(xù)「觀看」視頻內(nèi)容并進行分析。

同時還能兼顧多個行動主體，比如我方受到攻擊時還能區(qū)分是哪個角色被攻擊、傷害多少。隨機抽查幾個數(shù)字，正確率挺高。

當(dāng)然也不是百分百準(zhǔn)確：比如對連擊的抓取不行，玩家打出一連串攻擊時，只能抓到第一次的記錄。

在試圖合計多段攻擊的總值時，也不準(zhǔn)——總結(jié)得很好，下次不要總結(jié)了。

整體來看，Gemini 的準(zhǔn)確度能有 65 分，Qwen 大概是 55 分。后面還讓它們分別總結(jié)了所涉及到的特殊技能：

兩邊總結(jié)起來的思路不一樣，Qwen 是按照技能類型劃分，主要參考了卡面的文字展示。

Gemini 則是以視頻為主，計算作戰(zhàn)中的出現(xiàn)方式來統(tǒng)計，結(jié)合了角色。

不得不說，視頻材料消耗 token 跟玩似的，五分鐘的視頻光是傳上去就已經(jīng) 9 萬 token 了。幸好 Gemini 還算大方，每個會話的起始量都是一百萬，經(jīng)得起花。

前置工作鋪墊好了，理論上對游戲應(yīng)該有所了解，那么「如果我想用更短的時間就勝利，出擊方式和技能卡牌使用應(yīng)該怎么調(diào)整？」

技能和角色的名稱由于翻譯的原因比較混亂，暫且拋開不談，兩邊都給出了像模像樣的「攻略」，尤其是 Qwen。

Gemini 也可以出攻略，相對沒有那么詳細。

綜合能力可能，強操控游戲仍是挑戰(zhàn)

有一說一，卡牌游戲總歸是比較簡單的，不管是對于玩家還是對于 AI。就這準(zhǔn)確度就已經(jīng)堪憂了，涉及操控的話，還能跑得動嗎？

于是下面我找來了一段王者榮耀的視頻，看看這回兩個模型的表現(xiàn)。

這次兩個模型都開始摸不著頭腦了。Qwen 給出了一個整理，但光看著就 bug 滿滿，而且沒有了時間戳甚至很難核對。

Gemini 還是按照之前的方式，給出了詳細的表格。但是按照時間戳一對比，數(shù)字也是很亂，它在備注里也寫到自己對一些傷害難以區(qū)分。

甚至當(dāng)很多數(shù)字接連冒出來的時候，干脆就直接摸魚，寫了一個「較小數(shù)字」就蒙混過關(guān)了。

如果不能準(zhǔn)確提取現(xiàn)有的數(shù)據(jù)，后面的推理分析就很不樂觀了。但我還是淺問了一下「按照現(xiàn)有的戰(zhàn)況，分析本局的勝率和敗率」。

Qwen 比較中規(guī)中矩，可以綜合讀取視頻里所有相關(guān)的信息，比如等級、金幣數(shù)等等。

意外的是 Gemini， 它不僅讀取了視頻里的信息，還讀了音頻：這段錄像是同事現(xiàn)打的一段人機，錄制時環(huán)境嘈雜，竟然能被 Gemini 識別出來。它認為人機對戰(zhàn)中，只要不出錯，就是穩(wěn)贏。

有點東西。

王者的難度屬實有點大，這個表現(xiàn)也不算意外。但整體上，兩個模型的表現(xiàn)都比想象中的好很多。

盡管兩邊的主打不一樣，Gemini 強調(diào)推理，Qwen 強調(diào)視覺，但都反映出了一開始所說的： 以推理能力為基石，全面惠及不同維度的能力。

這也能在 Qwen QvQ-Max 的發(fā)布報告中看到，團隊談到了為什么要投入視覺在推理中：傳統(tǒng)的 AI 模型大多依賴文字輸入，比如回答問題、寫文章或者生成代碼。但現(xiàn)實生活中，很多信息并不是用文字表達的。

圖片、圖表甚至視頻等多種形式，都包含著信息。一張圖片可能包含豐富的細節(jié)，比如顏色、形狀、位置關(guān)系等，而這些信息往往比文字更直觀、也更復(fù)雜。

而僅僅 只是「看到」這些信息，還遠遠不夠。只有調(diào)動推理能力，「看懂」所有的信息，還能做出進一步分析，一切才有更豐富的應(yīng)用層面的意義。

Gemini 和 Qwen 的表現(xiàn)為「模型即產(chǎn)品」又多添了一枚砝碼，當(dāng)推理能力再上一個臺階的時候，泛用性進一步提高，「通用型智能」初具形態(tài)，只是時間問題。

我們正在招募伙伴

簡歷投遞郵箱
hr@ifanr.com

?? 郵件標(biāo)題
「姓名+崗位名稱」（請隨簡歷附上項目/作品或相關(guān)鏈接）

国产黄片av免费_在线观看看片_www第一精品久久久_成人毛片18女人毛片免_日日摸夜夜操av_国产精品热久久久久夜色精品三区 _中文字幕日韩欧美精品在线_欧美高清另类hdvideosex

我讓最強 AI 推理模型陪我打《王者榮耀》，我這個青銅直接起飛

熱搜

熱門跟貼

国产黄片av免费_在线观看看片_www第一精品久久久_成人毛片18女人毛片免_日日摸夜夜操av_国产精品热久久久久夜色精品三区 _中文字幕日韩欧美精品在线_欧美高清另类hdvideosex

熱搜

熱門跟貼

相關(guān)推薦

王者榮耀5V5真人塔防游戲，塔有高壓電，輸了領(lǐng)盒飯，影視

Midjourney V7重磅上線，硬剛GPT-4o強強對決！AI生圖王者爭霸實測來襲

王者人機多成狗了！惡心一把后機給你人機對手！

本以為是王者，怎料是個青銅，看小哥這下如何解釋

當(dāng)王者所有英雄全部回到巔峰時期，誰才是最強的

AI下國際象棋竟會作弊，人類該如何應(yīng)對？

青年科學(xué)家AI整活，青藏高原和太陽耀斑都沒放過

手握王炸，卻裝成青銅，這叫頂級玩家

小強業(yè)八水平，先下贏我再說，結(jié)果被我過關(guān)斬將，馬后炮絕殺

只能坑高手的趣味殘局，我終于找到了，學(xué)會了最少能提高3先

3秒寫出萬字算法，當(dāng)DeepSeek玩起手游抽卡后，網(wǎng)友：真的懂行！

典型的豬隊友，我都輔助這樣了，你還是挨打

媽媽讓兒子打農(nóng)藥，竟成為兒子“練武場”，王者農(nóng)藥就是來的吧！

廉頗：呆萌打野的使用手冊！

兩分半做出破曉？逆風(fēng)卻能經(jīng)濟領(lǐng)先！峽谷發(fā)育公式揭秘！

【榮耀發(fā)財快報】新賽季首周打野強度排行！諸葛悶聲發(fā)財成黑馬？

王者榮耀：你還非要往槍口上撞

廉頗：咱就說馬可他能輔助嗎？

王者六款【小兵皮膚】橫評！

2000億營收背后，聊聊騰訊「14款流水超40億」的長青游戲

王者榮耀5V5真人塔防游戲，塔有高壓電，輸了領(lǐng)盒飯，影視

Midjourney V7重磅上線，硬剛GPT-4o強強對決！AI生圖王者爭霸實測來襲

王者人機多成狗了！惡心一把后機給你人機對手！

當(dāng)王者所有英雄全部回到巔峰時期，誰才是最強的

AI下國際象棋竟會作弊，人類該如何應(yīng)對？

青年科學(xué)家AI整活，青藏高原和太陽耀斑都沒放過

手握王炸，卻裝成青銅，這叫頂級玩家

小強業(yè)八水平，先下贏我再說，結(jié)果被我過關(guān)斬將，馬后炮絕殺

只能坑高手的趣味殘局，我終于找到了，學(xué)會了最少能提高3先

3秒寫出萬字算法，當(dāng)DeepSeek玩起手游抽卡后，網(wǎng)友：真的懂行！

典型的豬隊友，我都輔助這樣了，你還是挨打

媽媽讓兒子打農(nóng)藥，竟成為兒子“練武場”，王者農(nóng)藥就是來的吧！

兩分半做出破曉？逆風(fēng)卻能經(jīng)濟領(lǐng)先！峽谷發(fā)育公式揭秘！

【榮耀發(fā)財快報】新賽季首周打野強度排行！諸葛悶聲發(fā)財成黑馬？

王者六款【小兵皮膚】橫評！