国产黄片av免费_在线观看看片_www第一精品久久久_成人毛片18女人毛片免_日日摸夜夜操av_国产精品热久久久久夜色精品三区 _中文字幕日韩欧美精品在线_欧美高清另类hdvideosex

<ul id="sw60a"></ul>

<ul id="sw60a"><tbody id="sw60a"></tbody></ul>

Llama 4爆料大反轉(zhuǎn)，沒在測試集上訓練！華人員工實名辟謠，LeCun出面救火

新智元

2025-04-08 14:23 ·北京 ·《新智元》官方網(wǎng)易號

新智元報道

編輯：編輯部 YNH

【新智元導讀】近日，關(guān)于Meta Llama 4的「訓練作弊」爆料搞得沸沸揚揚。Meta迅速反擊，Licheng Yu、Di Jin及GenAI負責人Ahmad Al-Dahle接連辟謠，首席AI科學家Yann LeCun也親自下場力挺。與此同時，Llama 4的實際表現(xiàn)卻頻頻被吐槽。

Llama 4大瓜，又有了新的反轉(zhuǎn)。

昨日，自稱是Meta內(nèi)部員工的一則Llama 4訓練作弊爆料，徹底掀翻了全網(wǎng)。

緊接著，Meta研究科學家主管Licheng Yu實名辟謠，團隊根本沒有針對測試集過擬合訓練。

此前，他曾參與了Llama 3系列的研發(fā)，并這次負責Llama4 17B模型。

另一位Meta高級AI研究科學家Di Jin（此次負責Llama 4 288B）反懟道，「我參與了微調(diào)和強化學習的datamix，也沒有這種情況，樓主是否實名證實」？

而且，他還抓住了所謂爆料者的一大破綻——最近離職高級VP，并非是GenAI團隊的。但凡是內(nèi)部的員工，不可能不了解這一點。

與此同時，領(lǐng)導Llama團隊的Meta GenAI副總裁兼負責人Ahmad Al-Dahle在X上發(fā)帖進行了澄清。

Ahmad表示，不同平臺間之所以會存在質(zhì)量差異，是因為模型在完成開發(fā)后Meta便立即進行了開源。預計還需數(shù)日，各家才能完成優(yōu)化適配。

至于那些「使用測試集訓練」的言論，可以說是毫無依據(jù)，因為這完全違背了Meta原則。

Ahmad堅信Llama 4模型標志著重大的技術(shù)進步，并期待與開發(fā)者社區(qū)攜手挖掘其潛能。

作為Meta首席AI科學家的Yann LeCun，也在第一時間轉(zhuǎn)發(fā)了Ahmad的帖子表示力挺。

話雖如此，但并不能「洗白」Meta在背后偷偷動了手腳——刷榜LMSYS的Llama 4是一款「提供版」模型。

競技場開撕Meta，2000+對話公開真相

Llama 4開源首日，Maverick模型在Chatbot Arena上拿下僅次于Gemini 2.5的高分。

然而，開發(fā)者下載后發(fā)現(xiàn)，Meta公開的與HF公開下載的模型大相徑庭，一時間大模型排行榜被全網(wǎng)罵慘。

今天，lmarena.ai團隊徹底坐不住了，直接下場開懟。

他們發(fā)文表示，為了確保完全透明，我們公開了2000+組模型對戰(zhàn)數(shù)據(jù)，包括用戶提示詞、模型回復、用戶偏好供超看。

更勁爆的是，團隊直指Meta在提交模型時，并非用的是原版，而是Llama-4-Maverick-03-26-Experimental。

這是一個經(jīng)過DPO優(yōu)化的定制模型，然而Meta在提交時并未明確說明這一點。

為了平息爭議，團隊火速給出解決方案，公開對戰(zhàn)數(shù)據(jù)同時，并盡快上線Llama 4 Maverick公開版，并隨后更新榜單結(jié)果。

Llama 4弱爆？吐槽一大片，但也有力挺

雖然整件事只是一個抓馬，但Llama 4實力拉跨是真的。

在aider多語言編程基準測試中，Llama 4 Maverick僅拿下了16%成績，遠不及Qwen2.5-Coder、DeepSeek V3開源模型。

更不用提Gemini 2.5 Pro和Claude 3.7 Sonnet了。

網(wǎng)友Flavio Adamo使用相同的提示詞，分別讓Llama 4 Maveric和GPT-4o制作一個旋轉(zhuǎn)多邊形的動畫。

可以看出，Llama 4 Maveric生成的多邊形并不規(guī)則而且沒有開口。小球也不符合物理規(guī)律，直接穿過多邊形掉下去了。

相比之下GPT-4o制作的動畫雖然也不完美，但至少要好得多。

另外，Llama 4 Scout最大優(yōu)勢便是支持10000 token上下文，甚至當時有網(wǎng)友直呼「RAG已死」。

可事實上，在最新上下文基準測試中，Llama 4的排名幾乎可以算上倒數(shù)的了。

報告中指出，Llama 4的表現(xiàn)令人失望。Maverick未能改進本就低于平均水平的Llama 3.3 70b，而Scout模型更是糟糕透頂。

谷歌的博士研究員Kaixuan Huang表示Llama 4的數(shù)學能力弱爆了。

他們在MATH-Perturb基準測試上測試了Llama4-Scout，其得分排名甚至不及參數(shù)更小、發(fā)布更早的DeepSeek-R1-Distill-Qwen-14B。

實在難以想象這是一個新發(fā)布的模型。

地址：https://math-perturb.github.io/

不過，斯坦福計算機助理教授Percy Liang剛剛發(fā)布一個新基準，Llama 4 Maverick竟拿下了最高分。

針對這次基準烏龍事件，他本人也做出了回應(yīng)，每個人不要過度解讀排行榜。如果對一個模型進行多樣測試，一切就清晰了。

DS太強，小扎按下恐慌按鈕

Llama 4效果如此不盡人意，難道Meta不能等一切準備就緒再發(fā)嗎？

時間來不及了！

有傳言稱，4月第二周，Qwen-3即將出世，而且說不定哪天DeepSeek R2突然發(fā)布了。

屆時，Llama 4可能更就拿不出手了，畢竟幾個月前，Meta前員工爆料稱，內(nèi)部高層恐慌一片。

來自艾倫研究員Nathan Lambert發(fā)長文稱，Llama 4可能是今年最奇怪的一次模型發(fā)布。

曾經(jīng)，Llama系列每一次迭代，都被視為AI領(lǐng)域年度大事件，如今Llama 4卻讓人感到迷失。

Llama 4包括三款模型，最大亮點采用了MoE架構(gòu)，訓練計算量比Llama 3更少。

在LMArena排行榜上，Llama 4 Maverick取得了1417 ELO高分，表現(xiàn)搶眼。

但詭異的發(fā)布時間，「輕浮」的對話風格，以及評估數(shù)據(jù)的缺乏，都讓Llama 4的亮相盡顯慌亂。

業(yè)界一直發(fā)出質(zhì)疑——Llama 4的設(shè)計更像是古早的模型，復雜MoE架構(gòu)、超大參數(shù)規(guī)模、高內(nèi)存需求，與開發(fā)者需求漸行漸遠。

相較之下，Qwen 2.5提供了多樣化模型選擇，更貼近開源標桿的設(shè)計。

從目前來看，Meta團隊似乎更專注于用AI賦能自家平臺，而非真正支撐開源的生態(tài)。

參考資料：

https://x.com/ylecun/status/1909313264460378114

https://x.com/emollick/status/1909306675174977637

打開網(wǎng)易新聞體驗更佳

熱搜

熱門跟貼

打開APP發(fā)貼

小金县| 东明县| 枝江市| 湖南省| 寻乌县| 盘山县| 霍林郭勒市| 峡江县| 晋州市| 望江县| 甘谷县| 庄河市| 东平县| 阜康市| 卢龙县| 天气| 阿克苏市| 和顺县| 屏南县| 盐城市| 清苑县| 斗六市| 亚东县| 普宁市| 安吉县| 北辰区| 萨嘎县| 清新县| 阿瓦提县| 乳山市| 崇州市| 滁州市| 稻城县| 包头市| 泉州市| 盐源县| 通榆县| 屏南县| 调兵山市| 额尔古纳市| 保康县|

<th id="ckoag"></th>

<ul id="ckoag"><pre id="ckoag"></pre></ul>