
這并不意味著 OpenAI 在說(shuō)謊!
站長(zhǎng)之家(ChinaZ.com) 4月21日 消息:OpenAI 的新 AI 模型 o3 在第一方和第三方基準(zhǔn)測(cè)試結(jié)果上存在差異,這也引發(fā)了人們對(duì)該公司透明度和模型測(cè)試實(shí)踐的質(zhì)疑。去年 12 月, OpenAI 的 o3 模型首次亮相,當(dāng)時(shí),該公司宣稱這款模型能夠解答 FrontierMath(一組極具挑戰(zhàn)性的數(shù)學(xué)問(wèn)題)中超過(guò) 25% 的題目 —— 這個(gè)成績(jī)遠(yuǎn)超競(jìng)爭(zhēng)對(duì)手 —— 第二名的正確率約為 2%。
“目前,市面上所有AI產(chǎn)品在 FrontierMath 上的得分都低于 2%,”O(jiān)penAI 首席研究官馬克?陳(Mark Chen)在一次直播中表示,“我們(在內(nèi)部測(cè)試中)發(fā)現(xiàn),在激進(jìn)的測(cè)試計(jì)算條件下,o3 能夠達(dá)到超過(guò) 25% 的正確率?!?/p>
但事實(shí)證明,這個(gè)數(shù)字很可能是上限,實(shí)現(xiàn)這一成績(jī)的 o3 版本所使用的計(jì)算資源比 OpenAI 上周公開(kāi)推出的模型得多得多。
上周五,F(xiàn)rontierMath 所屬研究機(jī)構(gòu) Epoch AI 公布了針對(duì) o3 的獨(dú)立基準(zhǔn)測(cè)試結(jié)果。他們發(fā)現(xiàn),o3 的得分約為 10% —— 遠(yuǎn)低于 OpenAI 所宣稱的 25%。

當(dāng)然,這并不意味著 OpenAI 在說(shuō)謊 —— OpenAI 在去年 12 月公布的基準(zhǔn)測(cè)試結(jié)果還游一個(gè)“下限得分”,這個(gè)“下限”與 Epoch 觀察到的得分相符。Epoch 還指出,其測(cè)試設(shè)置可能與 OpenAI 的不同,并且在評(píng)估中使用了更新版的 FrontierMath。
Epoch 寫(xiě)道:“我們的結(jié)果與 OpenAI 的結(jié)果存在差異,可能是因?yàn)?OpenAI 使用了更強(qiáng)大的內(nèi)部架構(gòu)進(jìn)行評(píng)估,在測(cè)試時(shí)使用了更多計(jì)算資源,或者是因?yàn)檫@些結(jié)果是在 FrontierMath 的不同子集上運(yùn)行得出的(FrontierMath - 2024 - 11 - 26 中的 180 道題與 FrontierMath - 2025 - 02 - 28 - private 中的 290 道題)?!?/p>
曾測(cè)試過(guò) o3 預(yù)覽版的 ARC Prize Foundation 在 X 上發(fā)帖稱,公開(kāi)的 o3 模型 “是另一個(gè)為聊天 / 產(chǎn)品使用場(chǎng)景進(jìn)行調(diào)優(yōu)的模型”,這證實(shí)了 Epoch 的報(bào)告。ARC Prize 寫(xiě)道:“所有已發(fā)布的 o3 計(jì)算層級(jí)都比我們(做基準(zhǔn)測(cè)試時(shí)使用的)版本要小?!?一般來(lái)說(shuō),計(jì)算層級(jí)越高,基準(zhǔn)測(cè)試得分可能越好。

上周,OpenAI 的技術(shù)人員 Wenda Zhou 在一次直播中表示,與 12 月展示的 o3 版本相比,投入實(shí)際應(yīng)用的 o3 “針對(duì)現(xiàn)實(shí)應(yīng)用場(chǎng)景和速度進(jìn)行了更多優(yōu)化”。他補(bǔ)充說(shuō),因此可能會(huì)出現(xiàn)基準(zhǔn)測(cè)試 “差異”?!拔覀冞M(jìn)行了(優(yōu)化),讓?zhuān)P停└叱杀拘б?,總體上更有用,” Zhou 說(shuō),“我們?nèi)匀幌M?—— 也依舊認(rèn)為 —— 這是一個(gè)更好的模型…… 當(dāng)你提問(wèn)時(shí),不需要那么久的等待時(shí)間,對(duì)于這類(lèi)模型來(lái)說(shuō),這很重要?!?/p>
這再次提醒人們,對(duì)于 AI 基準(zhǔn)測(cè)試結(jié)果,最好不要輕信表面數(shù)據(jù) —— 尤其是當(dāng)數(shù)據(jù)來(lái)源是一家要推銷(xiāo)服務(wù)的公司時(shí)。
熱門(mén)跟貼