xxx18国产人妻xxxx,国产麻豆久久久久久久精品,av自拍亚洲国产,秋霞午夜久久一区三区,av在线播放网站,com

這并不意味著 OpenAI 在說(shuō)謊！

站長(zhǎng)之家(ChinaZ.com) 4月21日消息:OpenAI 的新 AI 模型 o3 在第一方和第三方基準(zhǔn)測(cè)試結(jié)果上存在差異，這也引發(fā)了人們對(duì)該公司透明度和模型測(cè)試實(shí)踐的質(zhì)疑。去年 12 月， OpenAI 的 o3 模型首次亮相，當(dāng)時(shí)，該公司宣稱這款模型能夠解答 FrontierMath（一組極具挑戰(zhàn)性的數(shù)學(xué)問(wèn)題）中超過(guò) 25% 的題目 —— 這個(gè)成績(jī)遠(yuǎn)超競(jìng)爭(zhēng)對(duì)手 —— 第二名的正確率約為 2%。

“目前，市面上所有AI產(chǎn)品在 FrontierMath 上的得分都低于 2%，”O(jiān)penAI 首席研究官馬克?陳（Mark Chen）在一次直播中表示，“我們（在內(nèi)部測(cè)試中）發(fā)現(xiàn)，在激進(jìn)的測(cè)試計(jì)算條件下，o3 能夠達(dá)到超過(guò) 25% 的正確率?！?/p>

但事實(shí)證明，這個(gè)數(shù)字很可能是上限，實(shí)現(xiàn)這一成績(jī)的 o3 版本所使用的計(jì)算資源比 OpenAI 上周公開(kāi)推出的模型得多得多。

上周五，F(xiàn)rontierMath 所屬研究機(jī)構(gòu) Epoch AI 公布了針對(duì) o3 的獨(dú)立基準(zhǔn)測(cè)試結(jié)果。他們發(fā)現(xiàn)，o3 的得分約為 10% —— 遠(yuǎn)低于 OpenAI 所宣稱的 25%。

當(dāng)然，這并不意味著 OpenAI 在說(shuō)謊 —— OpenAI 在去年 12 月公布的基準(zhǔn)測(cè)試結(jié)果還游一個(gè)“下限得分”，這個(gè)“下限”與 Epoch 觀察到的得分相符。Epoch 還指出，其測(cè)試設(shè)置可能與 OpenAI 的不同，并且在評(píng)估中使用了更新版的 FrontierMath。

Epoch 寫(xiě)道：“我們的結(jié)果與 OpenAI 的結(jié)果存在差異，可能是因?yàn)?OpenAI 使用了更強(qiáng)大的內(nèi)部架構(gòu)進(jìn)行評(píng)估，在測(cè)試時(shí)使用了更多計(jì)算資源，或者是因?yàn)檫@些結(jié)果是在 FrontierMath 的不同子集上運(yùn)行得出的（FrontierMath - 2024 - 11 - 26 中的 180 道題與 FrontierMath - 2025 - 02 - 28 - private 中的 290 道題）?！?/p>

曾測(cè)試過(guò) o3 預(yù)覽版的 ARC Prize Foundation 在 X 上發(fā)帖稱，公開(kāi)的 o3 模型 “是另一個(gè)為聊天 / 產(chǎn)品使用場(chǎng)景進(jìn)行調(diào)優(yōu)的模型”，這證實(shí)了 Epoch 的報(bào)告。ARC Prize 寫(xiě)道：“所有已發(fā)布的 o3 計(jì)算層級(jí)都比我們（做基準(zhǔn)測(cè)試時(shí)使用的）版本要小?！?一般來(lái)說(shuō)，計(jì)算層級(jí)越高，基準(zhǔn)測(cè)試得分可能越好。

上周，OpenAI 的技術(shù)人員 Wenda Zhou 在一次直播中表示，與 12 月展示的 o3 版本相比，投入實(shí)際應(yīng)用的 o3 “針對(duì)現(xiàn)實(shí)應(yīng)用場(chǎng)景和速度進(jìn)行了更多優(yōu)化”。他補(bǔ)充說(shuō)，因此可能會(huì)出現(xiàn)基準(zhǔn)測(cè)試 “差異”?！拔覀冞M(jìn)行了（優(yōu)化），讓?zhuān)Ｐ停└叱杀拘б?，總體上更有用，” Zhou 說(shuō)，“我們?nèi)匀幌Ｍ?—— 也依舊認(rèn)為 —— 這是一個(gè)更好的模型…… 當(dāng)你提問(wèn)時(shí)，不需要那么久的等待時(shí)間，對(duì)于這類(lèi)模型來(lái)說(shuō)，這很重要?！?/p>

這再次提醒人們，對(duì)于 AI 基準(zhǔn)測(cè)試結(jié)果，最好不要輕信表面數(shù)據(jù) —— 尤其是當(dāng)數(shù)據(jù)來(lái)源是一家要推銷(xiāo)服務(wù)的公司時(shí)。