免费看小黄鸭av片成人,国产一级片在线免费观看视频,人妻久久久精品99系列中文字幕,99久高清在线视频观看,国产啊视频在线观看

機(jī)器之心報(bào)道

編輯：張倩、澤南

大家翹首以盼的 Llama 4，用起來(lái)為什么那么拉跨？

Llama 4 這么大的節(jié)奏，Meta 終于繃不住了。

本周二凌晨，Meta Gen AI 團(tuán)隊(duì)負(fù)責(zé)人發(fā)表了一份澄清說(shuō)明（針對(duì)外界質(zhì)疑「在測(cè)試集上訓(xùn)練」等問(wèn)題），大佬 Yann LeCun 也進(jìn)行了轉(zhuǎn)發(fā)。

很高興能讓大家用上 Llama 4，我們已經(jīng)聽(tīng)說(shuō)人們使用這些模型取得了很多出色的成果。盡管如此，我們也聽(tīng)到一些關(guān)于不同服務(wù)質(zhì)量參差不齊的報(bào)告。由于我們?cè)谀Ｐ蜏?zhǔn)備就緒后就推出了它們，因此我們預(yù)計(jì)所有公開(kāi)部署都需要幾天時(shí)間才能完成。我們將繼續(xù)努力修復(fù)錯(cuò)誤并吸引合作伙伴。
我們還聽(tīng)說(shuō)有人聲稱 Llama 4 在測(cè)試集上進(jìn)行訓(xùn)練，這根本不是事實(shí)，我們永遠(yuǎn)不會(huì)這樣做。我們?cè)敢饫斫鉃椋喝藗兛吹降牟环€(wěn)定是由于需要穩(wěn)定部署。相信 Llama 4 模型是一項(xiàng)重大進(jìn)步，期待與社區(qū)的持續(xù)合作以釋放它們的價(jià)值。

當(dāng)前 Llama 4 性能不佳是被部署策略給拖累了嗎？

權(quán)威的大模型基準(zhǔn)平臺(tái) LMArena 也站出來(lái)發(fā)布了一些 Llama 4 的對(duì)話結(jié)果，希望部分解答人們的疑惑。

鏈接：https://huggingface.co/spaces/lmarena-ai/Llama-4-Maverick-03-26-Experimental_battles

可以看到，其中很多同問(wèn)題的回答上，不論是跟哪家大模型比，Llama 4 的效果都是更好的。

但這究竟是模型真的好，還是 Meta 為了拯救口碑而進(jìn)行的一系列公關(guān)活動(dòng)？我們需要一起來(lái)梳理一下這一事件的發(fā)展脈絡(luò)。

Llama 4：買家秀 vs. 賣家秀

Llama 4 是 Meta 在 4 月 6 日發(fā)布的模型，分為 Llama 4 Scout、Llama 4 Maverick 和 Llama 4 Behemoth 這幾個(gè)版本。Meta 官方宣稱新模型可以實(shí)現(xiàn)無(wú)與倫比的高智商和效率。

在大模型競(jìng)技場(chǎng)（Arena），Llama 4 Maverick 的總排名第二，成為第四個(gè)突破 1400 分的大模型。其中開(kāi)放模型排名第一，超越了 DeepSeek；在困難提示詞、編程、數(shù)學(xué)、創(chuàng)意寫作等任務(wù)中排名均為第一；大幅超越了自家 Llama 3 405B，得分從 1268 提升到了 1417；風(fēng)格控制排名第五。

這樣的成績(jī)讓開(kāi)源社區(qū)以為又迎來(lái)一個(gè)新王，于是紛紛下載嘗試。但沒(méi)想到的是，這個(gè)模型并沒(méi)有想象中好用。比如網(wǎng)友 @deedydas 發(fā)帖稱，Llama 4 Scout（109B）和 Maverick（402B）在 Kscores 基準(zhǔn)測(cè)試中表現(xiàn)不佳，不如 GPT-4o、Gemini Flash、Grok 3、DeepSeek V3 以及 Sonnet 3.5/7 等模型。而 Kscores 基準(zhǔn)測(cè)試專注于編程任務(wù)，例如代碼生成和代碼補(bǔ)全。

另外還有網(wǎng)友指出，Llama 4 的 OCR、前端開(kāi)發(fā)、抽象推理、創(chuàng)意寫作等問(wèn)題上的表現(xiàn)能力也令人失望。（參見(jiàn)《Meta Llama 4 被疑考試「作弊」：在競(jìng)技場(chǎng)刷高分，但實(shí)戰(zhàn)中頻頻翻車》）

于是就有人質(zhì)疑，模型能力這么拉跨，發(fā)布時(shí)曬的那些評(píng)分是怎么來(lái)的？

內(nèi)部員工爆料

Meta 工程師原貼對(duì)線

在關(guān)于該模型表現(xiàn)反差的猜測(cè)中，「把測(cè)試集混入訓(xùn)練數(shù)據(jù)」是最受關(guān)注的一個(gè)方向。

在留學(xué)論壇「一畝三分地」上，一位職場(chǎng)人士發(fā)帖稱，由于 Llama 4 模型始終未達(dá)預(yù)期，「公司領(lǐng)導(dǎo)層建議將各個(gè) benchmark 的測(cè)試集混合在 post-training 過(guò)程中」，ta 因無(wú)法接受這種做法而辭職，并指出「Meta 的 VP of AI 也是因?yàn)檫@個(gè)原因辭職的」（指的是在上周宣布離職的 Meta AI 研究副總裁 Joelle Pineau）。

由于發(fā)帖者沒(méi)有實(shí)名認(rèn)證信息，我們無(wú)法確認(rèn)這一帖子的可靠性，相關(guān)信息也缺乏官方證實(shí)和具體證據(jù)。

不過(guò)，在該貼的評(píng)論區(qū)，有幾位 Meta 員工反駁了樓主的說(shuō)法，稱「并沒(méi)有這種情況」，「為了刷點(diǎn)而 overfit 測(cè)試集我們從來(lái)沒(méi)有做過(guò)」。

其中一位還貼出了自己的真名 ——「Licheng Yu」。領(lǐng)英資料顯示，Licheng Yu 是 Facebook AI 的研究科學(xué)家主管，已經(jīng)在 Meta 全職工作了五年多，其工作內(nèi)容包括支持 Llama 4 的后訓(xùn)練 RL。

如前文所訴，Meta Gen AI 團(tuán)隊(duì)負(fù)責(zé)人也發(fā)推反駁了用測(cè)試數(shù)據(jù)訓(xùn)練模型的說(shuō)法。

不過(guò)，有些測(cè)試者發(fā)現(xiàn)了一些有意思的現(xiàn)象。比如普林斯頓大學(xué)博士生黃凱旋指出，Llama 4 Scout 在 MATH-Perturb 上的得分「獨(dú)樹(shù)一幟」，Original 和 MATH-P-Simple 數(shù)據(jù)集上的表現(xiàn)差距非常大（兩個(gè)數(shù)據(jù)集本身非常相似，后者只在前者的基礎(chǔ)上進(jìn)行了輕微擾動(dòng)），這點(diǎn)很令人驚訝。

這是沒(méi)有做好數(shù)據(jù)增強(qiáng)的問(wèn)題嗎？或許也可以認(rèn)為他們的模型為了標(biāo)準(zhǔn)測(cè)試做了「過(guò)度」優(yōu)化？

雖然在數(shù)學(xué)方面，這個(gè)問(wèn)題還沒(méi)有答案。不過(guò)，在對(duì)話方面，Meta 的確指出他們針對(duì)對(duì)話做了優(yōu)化。他們?cè)诠嬷刑岬?，大模型?jìng)技場(chǎng)上的 Maverick 是「實(shí)驗(yàn)性聊天版本」，與此同時(shí)官方 Llama 網(wǎng)站上的圖表也透露，該測(cè)試使用了「針對(duì)對(duì)話優(yōu)化的 Llama 4 Maverick」。

針對(duì)這個(gè)版本問(wèn)題，大模型競(jìng)技場(chǎng)官方賬號(hào)也給出了回應(yīng)，稱 Meta 的做法是對(duì)平臺(tái)政策的誤讀，應(yīng)該更清楚地說(shuō)明他們的模型是定制模型。此外，他們還將 Meta 在 HuggingFace 上發(fā)布的版本添加到了競(jìng)技場(chǎng)進(jìn)行重新測(cè)試，結(jié)果有待公布。

大模型競(jìng)技場(chǎng)公布對(duì)戰(zhàn)數(shù)據(jù)

最后，不論訓(xùn)練策略和 Deadline 的是與非，Llama 4 是否經(jīng)得起考驗(yàn)，終究還是要看模型本身的實(shí)力。目前在大模型競(jìng)技場(chǎng)上，Llama 4 展示了一系列問(wèn)題上的 good case。其中不僅有生成方案的：