国产视频黄免费看,精品在线国产,亚洲熟伦在线观看,欧美成年人精品性视频,亚洲av综合成人久久久

新智元報(bào)道

編輯：編輯部 NXY

【新智元導(dǎo)讀】Llama 4本該是AI圈的焦點(diǎn)，卻成了大型翻車現(xiàn)場(chǎng)。開源首日，全網(wǎng)實(shí)測(cè)代碼能力崩盤。更讓人震驚的是，模型訓(xùn)練測(cè)試集被曝作弊，內(nèi)部員工直接請(qǐng)辭。

Meta前腳剛發(fā)Llama 4，后腳就有大佬請(qǐng)辭了！

一畝三分地的爆料貼稱，經(jīng)過反復(fù)訓(xùn)練后，Llama 4未能取得SOTA，甚至與頂尖大模型實(shí)力懸殊。

為了蒙混過關(guān)，高層甚至建議：

在后訓(xùn)練階段中，將多個(gè)benchmark測(cè)試集混入訓(xùn)練數(shù)據(jù)。

最終目的，讓模型短期提升指標(biāo)，拿出來可以看起來不錯(cuò)的結(jié)果。

這位內(nèi)部員工@dliudliu表示，「自己根本無法接受這種做法，甚至辭職信中明確要求——不要在Llama 4技術(shù)報(bào)告中掛名」。

另一方面，小扎給全員下了「死令」——4月底是Llama 4交付最后期限。

在一系列高壓之下，已有高管提出了辭職。

網(wǎng)友Flavio Adamo使用相同的提示詞，分別讓Llama 4 Maveric和GPT-4o制作一個(gè)旋轉(zhuǎn)多邊形的動(dòng)畫。

可以看出，Llama 4 Maveric生成的多邊形并不規(guī)則而且沒有開口。小球也不符合物理規(guī)律，直接穿過多邊形掉下去了。

相比之下GPT-4o制作的動(dòng)畫雖然也不完美，但至少要好得多。

甚至，有人直接曝出，Llama 4在LMarena上存在過擬合現(xiàn)象，有極大的「作弊」嫌疑。

而如今，內(nèi)部員工爆料，進(jìn)一步證實(shí)了網(wǎng)友的猜想。

沃頓商學(xué)院教授Ethan Mollick一語中的，「如果你經(jīng)常使用 AI 模型，不難分辨出哪些是針對(duì)基準(zhǔn)測(cè)試進(jìn)行優(yōu)化的，哪些是真正的重大進(jìn)步」。

不過，另一位內(nèi)部員工稱，并沒有遇到這類情況，不如讓子彈飛一會(huì)兒。

內(nèi)部員工爆料，Llama 4訓(xùn)練作弊？

幾位AI研究人員在社交媒體上都「吐槽」同一個(gè)問題，Meta在其公告中提到LM Arena上的Maverick是一個(gè)「實(shí)驗(yàn)性的聊天版本」。

如果看得仔細(xì)一點(diǎn)，在Llama官網(wǎng)的性能對(duì)比測(cè)試圖的最下面一行，寫著「Llama 4 Maverick optimized for conversationality.」

翻譯過來就是「針對(duì)對(duì)話優(yōu)化的Llama 4 Maverick」——似乎有些「雞賊」。

這種「區(qū)別對(duì)待」的會(huì)讓開發(fā)人員很難準(zhǔn)確預(yù)測(cè)該模型在特定上下文中的表現(xiàn)。

AI的研究人員觀察到可公開下載的Maverick與LM Arena上托管的模型在行為上存在顯著差異。

而就在今天上午，已經(jīng)有人爆料Llama 4的訓(xùn)練過程存在嚴(yán)重問題！

即Llama 4內(nèi)部訓(xùn)練多次仍然沒有達(dá)到開源SOTA基準(zhǔn)。

Meta的領(lǐng)導(dǎo)層決定在后訓(xùn)練過程中混合各種基準(zhǔn)測(cè)試集——讓Llama 4「背題」以期望在測(cè)試中取得「好成績(jī)」。

這個(gè)爆料的原始來源是「一畝三分地」，根據(jù)對(duì)話，爆料者很可能來自于Meta公司內(nèi)部。

對(duì)話中提到的Meta AI研究部副總裁Joelle Pineau也申請(qǐng)了5月底辭職。（不過，也有網(wǎng)友稱并非是與Llama4相關(guān)）

但是根據(jù)Meta的組織架構(gòu)體系，Pineau是FAIR的副總裁，而FAIR實(shí)際上是Meta內(nèi)部與GenAI完全獨(dú)立的組織，GenAI才是負(fù)責(zé)Llama項(xiàng)目的組織。

GenAI的副總裁是Ahmad Al-Dahle，他并沒有辭職。

Llama 4才剛剛發(fā)布一天，就出現(xiàn)如此重磅的消息，讓未來顯得撲朔迷離。

代碼翻車，網(wǎng)友大失所望

在昨天網(wǎng)友的實(shí)測(cè)中，評(píng)論還是有好有壞。但是過去一天進(jìn)行更多的測(cè)試后，更多的網(wǎng)友表達(dá)了對(duì)Llama 4的不滿。在Dr_Karminski的一篇熱帖中，他說Llama-4-Maverick——總參數(shù)402B的模型——在編碼能力方面大致只能與 Qwen-QwQ-32B相當(dāng)。 Llama-4-Scout——總參數(shù)109B的模型——大概與Grok-2或Ernie 4.5類似。