整理 | 屠敏
出品 | CSDN(ID:CSDNnews)
這兩天本該成為 AI 圈焦點的 Meta 新一代大模型 —— Llama 4,如今隨著時間的流逝,逐漸被質(zhì)疑聲淹沒:有人指責 Llama 4 在訓(xùn)練測試集上“作弊”,更有內(nèi)部員工爆料稱:“內(nèi)部模型的表現(xiàn)實際未能達到開源 SOTA(當前最佳),甚至與之相差甚遠,但是為了趕在 4 月底的 Deadline 之前交差,團隊最終‘拼出了一個看起來還行’的版本”,該員工因無法接受這種結(jié)果,選擇拒絕署名,并憤然離職...
盡管爭議不斷,但在 Meta 看來,Llama 4 依然是其在多模態(tài) AI 模型探索上的重要一步。那么,這一代 Llama 到底帶來了哪些技術(shù)突破?三款模型之間又各有怎樣的定位?不妨先一起深入了解下 Llama 4 系列的全貌。

Meta 發(fā)布 Llama 4 家族,官方號稱“原生多模態(tài) AI 創(chuàng)新的新時代開啟”
過去,在強大的 DeepSeek 系列還沒開源之前,Meta 的 Llama 一直是開源大模型界的“天花板”。Meta 自己在發(fā)布新模型之際也強調(diào)說:“既然 AI 越來越多地走進人們的生活,那先進的模型就該向所有人開放,讓每個人都有機會打造屬于自己的 AI 體驗。”
這次 Meta 正式發(fā)布了全新的 Llama 4 系列模型,一次性帶來了三款重量級大模型選手:
Llama 4 Scout:這是一個擁有170 億個“活躍參數(shù)”、使用16 個專家模型的多模態(tài) AI 模型。Meta 稱,它是當前這個級別中全球最強的模型,不僅比以往所有 Llama 模型都更強大,還能在單個 NVIDIA H100 顯卡上運行。而且,它支持10M 上下文長度,比 Gemma 3、Gemini 2.0 Flash-Lite、Mistral 3.1 等主流模型在很多測試中表現(xiàn)更好。
Llama 4 Maverick:同樣是 170 億活躍參數(shù),但用了更多的專家模型(多達128 個)。它在多個測試中表現(xiàn)超過 GPT-4o 和 Gemini 2.0 Flash。Meta 表示,在邏輯推理和編程任務(wù)上,它甚至能與 DeepSeek V3 打了個平手——而參數(shù)只有 DeepSeek V3 的一半。
這些優(yōu)秀的模型都來自一個“老師模型”——Llama 4 Behemoth,它有 2880 億活躍參數(shù),采用了 16 個專家,是目前最強的模型之一。它在數(shù)學(xué)、科學(xué)等標準測試中擊敗了 GPT-4.5、Claude Sonnet 3.7 和 Gemini 2.0 Pro。不過,這款模型還處于預(yù)覽階段。
而前面兩款模型可以直接在 llama.com(https://www.llama.com/llama-downloads/)和 Hugging Face(https://huggingface.co/meta-llama)下載體驗。


Llama 4 Scout 和 Llama 4 Maverick 的亮點
根據(jù) Meta 官方博客介紹,新的 Llama 4 模型是其首批使用專家混合結(jié)構(gòu)(Mixture of Experts,簡稱 MoE)的模型,和 DeepSeek V3 使用的架構(gòu)一樣。通俗地講,MoE 不是所有的“腦細胞”都一起工作,而是輸入一個字時,只調(diào)用一小部分“最擅長”處理它的模塊。這樣既聰明又節(jié)省計算資源。

舉個例子,Llama 4 Maverick 這個模型雖然總共有4000 億個參數(shù)(可以理解為模型“知識量”),但實際在運行時只啟用了170 億個參數(shù)(稱為“活躍參數(shù)”)。它是怎么做到既擁有龐大的“知識庫”,又不耗太多算力的?秘訣就在于使用了 MoE 的設(shè)計。
在 MoE 層中,有128 個路由“專家”和一個共享專家。每次處理一個文字或圖像單元(token)時,模型只會調(diào)用這 128 個路由專家中的一個,加上共享專家,而不是調(diào)用全部專家。雖然 4000 億個參數(shù)都存在顯存里,但每次只用很少的一部分,大大提升了運行效率,降低了成本和響應(yīng)時間。這意味著 Llama 4 Maverick 也可以在一臺 NVIDIA H100 的服務(wù)器上順暢運行,不用部署超級計算機。
此外,Llama 4 是從一開始就設(shè)計為可以同時理解文字和圖像(甚至視頻幀)的“多模態(tài)模型”。它采用了Early Fusion(早期融合)的技術(shù),讓文字和視覺信息在模型內(nèi)部融合得更早更自然,不再是后期再拼接進來的。這種方式允許模型在訓(xùn)練時同時學(xué)習海量的文字、圖片和視頻內(nèi)容,也提高了模型對圖像內(nèi)容的理解力。
為了更好地訓(xùn)練這樣復(fù)雜的大模型,Meta 團隊還發(fā)明了一個新的訓(xùn)練方法叫做MetaP,用來優(yōu)化模型的重要“超參數(shù)”(比如學(xué)習率、初始化方式等),提高了訓(xùn)練的穩(wěn)定性和效果。
官方透露,Llama 4 通過對 200 種語言進行預(yù)訓(xùn)練來實現(xiàn)開源微調(diào)工作,其中包括 100 多種語言,每種語言都有超過 10 億個 token??傮w而言,相比 Llama 3,這次使用的多語言數(shù)據(jù)量增加了 10 倍。
與此同時,在訓(xùn)練過程中,Meta 使用了FP8 精度的方法,可以在不犧牲模型質(zhì)量的前提下大幅降低計算資源消耗。Meta 表示,在訓(xùn)練超大模型 Llama 4 Behemoth 時,使用了3.2 萬張 GPU,每張卡可以達到 390 TFLOPs 的計算效率。
在初步訓(xùn)練之后,Meta 還對 Llama 4 系列進行了中期、后期訓(xùn)練,專門用一些“長上下文”的訓(xùn)練數(shù)據(jù),來讓模型更擅長處理長文本,比如 Llama 4 Scout 支持長達1000 萬個 token 的上下文長度。
整體而言, 根據(jù) Meta 公開的基準測試結(jié)果來看, 在編碼、推理、多語言、長上下文和圖像基準測試中,Llama 4 Maverick 超越了 GPT-4o 和 Gemini 2.0 等同類模型,并且在編碼和推理方面可與規(guī)模大得多的 DeepSeek v3.1 相媲美。

Llama 4 Scout 則是將上下文長度從 Llama 3 的 128K大幅提升至 1000 萬 token,這為多文檔總結(jié)、分析海量用戶行為以完成個性化任務(wù)、以及處理龐大的代碼庫等應(yīng)用場景打開了全新的可能性。Llama 4 Scout 在預(yù)訓(xùn)練和微調(diào)階段都使用了256K 的上下文長度,這使得基礎(chǔ)模型具備了出色的長文本泛化能力。


Llama 4 Scout 在編碼、推理、長上下文和圖像基準方面也超越了同類模型,并且比所有以前的 Llama 模型都具有更強大的性能。

Meta 這次還首次公開了 Llama 4 Behemoth 模型的預(yù)覽版本,它也被稱之為“教師模型”。
它同樣是一款 MoE 模型,擁有2880 億活躍參數(shù)、16 個專家模型,參數(shù)總量接近2 萬億,在數(shù)學(xué)、多語言和圖像等非推理類基準測試中均表現(xiàn)出色,達到當前同類模型的前沿水平。
值得一提的是,Llama 4 Behemoth 不只是一個“大力出奇跡”的模型,它還承擔了更深層次的“教師”角色 —— Meta 將其用于訓(xùn)練和“蒸餾”更小型的 Llama 4 模型(如 Maverick),顯著提升了學(xué)生模型在多個終端任務(wù)中的表現(xiàn)質(zhì)量。
為此,Meta 開發(fā)了一個全新的蒸餾損失函數(shù),能夠動態(tài)調(diào)整“軟目標”和“硬目標”的權(quán)重,在整個訓(xùn)練過程中實現(xiàn)更精準的知識遷移。此外,為降低訓(xùn)練過程中的計算資源消耗,Meta 在 Behemoth 的預(yù)訓(xùn)練階段進行了協(xié)同蒸餾(codistillation),將原本代價高昂的前向計算攤平到整個訓(xùn)練流程中。對于新增數(shù)據(jù),則額外在 Behemoth 上執(zhí)行前向計算以生成蒸餾目標。


廣泛關(guān)注背后的爭議
最后,和以往 Llama 模型一發(fā)布就引發(fā)熱議一樣,Llama 4 的推出同樣吸引了廣泛關(guān)注。然而,不少用戶在實際體驗后卻感到失望,認為它的真實表現(xiàn)并沒有達到 Meta 宣傳中所描繪的那般“劃時代”。
X 用戶 @deedydas 發(fā)帖稱,「Llama 4 實際上似乎是一個糟糕的編碼模型。Scout (109B) 和 Maverick (402B) 在 Kscores 編碼任務(wù)基準測試中的表現(xiàn) 4o、Gemini Flash、Grok 3、DeepSeek V3 和 Sonnet 3.5/7。LMarena 上的 ELO-maxxing 分數(shù)再高,也不能掩蓋模型本身的問題。」

隨即,他還附上了 Kscores 的(https://github.com/KCORES/kcores-llm-arena/)測試結(jié)果,該基準是用來評估大模型在實際編程場景中實用性的一個重要指標。在這個測試中,Llama 4 Scout(17B 16E)在編碼能力方面明顯不如 DeepSeek V3。

不僅如此,另一位用戶@flavioAd 嘗試用完全相同的提示詞對比測試了 GPT-4o 和 Llama 4。不難看出,GPT-4o 生成的內(nèi)容有不少瑕疵,但是還是比 Llama 4 要稍微好一些。
有 Reddit 用戶甚至調(diào)侃:“還記得當初 DeepSeek 發(fā)布時,就有傳言稱 Meta 內(nèi)部因此感到緊張,相比之下, 其 Llama 4 的表現(xiàn)太讓人失望了,以至于 Meta 一度猶豫要不要發(fā)布它嗎?現(xiàn)在看來,他們也許真的應(yīng)該跳過這一代,直接上 Llama 5 才對...”
還有網(wǎng)友爆料,“他們確實放棄了原來的 Llama 4,然后再次嘗試使用 Deepseek 的架構(gòu),才有了現(xiàn)在的 Scout 和 Maverick?!?/p>
在爭議持續(xù)發(fā)酵之際,一位自稱是 Meta 內(nèi)部員工的用戶 “dliudliu” 在一畝三分地社區(qū)發(fā)文,披露了 Llama 4 背后的更多細節(jié)。他寫道:
在經(jīng)過反復(fù)訓(xùn)練,其實內(nèi)部模型的表現(xiàn)依然未能達到開源 SOTA,甚至與之相差甚遠。
然而,Meta 高層建議將各個 benchmark 的測試集混合在 post-training 過程中,目的是希望能夠在各項指標上交差拿出一個“看起來可以”的結(jié)果。而如果未能在 4 月底的設(shè)置的 deadline 前達成目標,后果將不堪設(shè)想。
昨日,Llama4 發(fā)布之后,X 和 Reddit 上已經(jīng)有很多人實測結(jié)果非常差。
作為一名目前也在學(xué)術(shù)界的人,我實在無法接受這種做法。因此,已經(jīng)提交離職申請,并且明確表示之后 Llama4 的 Technical Report 中不要署上我的名字。Meta 的 VP of AI 也是因為這個原因辭職的。

回看本月初,據(jù)外媒報道, Meta 人工智能研究副總裁、 也曾重度參與過 Llama AI 的 Joelle Pineau 在任職 8 年后離職。一切也都和這位自稱 Meta 內(nèi)部員工的表述對得上。

與此同時,評論區(qū)也有 網(wǎng)友表示,“ 作為之前在 Meta 實習過的人,這是真的。我不想說太多,但 GenAI 組織很亂,管理層沒有整合模型的經(jīng)驗,而且會因為政治原因而爭吵設(shè)計決策。非常糟糕的團隊,浪費了大量的計算資源。 ”

倘若為真,那 Llama 4 表現(xiàn)不佳的情況也就不難理解了。

最后,還有網(wǎng)友犀利點評道,「Llama 4 的 Scout 和 Maverick 兩款模型讓我大失所望。也許這也能解釋為什么 Meta 的 AI 研究負責人 Joelle Pineau 最近會被解雇。
這些模型為何如此平庸?問題可能出在它們的“專家混合”架構(gòu)中用了太小的專家模型——只有 170 億參數(shù)?放在今天這個時代,確實顯得有些“小”。
Meta 的困境也說明了一個現(xiàn)實:就算你手握全球最多的 GPU 和數(shù)據(jù),如果沒有新鮮的點子,也未必能造出領(lǐng)先的 AI。反倒是像 DeepSeek、OpenAI 這樣的公司,真正靠創(chuàng)新在推動 AI 向前。AI 不是靠砸資源就能搞定的活兒,它最終拼的,還是腦子。」

至此,Llama 4 你用上了嗎?你覺得它是否名副其實,還是確實有些“貨不對板”?歡迎留言分享你的體驗和看法。
參考:
https://ai.meta.com/blog/llama-4-multimodal-intelligence/
https://www.reddit.com/r/LocalLLaMA/comments/1jt7hlc/metas_llama_4_fell_short/
https://x.com/deedydas/status/1908749649642663959/photo/1
https://www.1point3acres.com/bbs/forum.php?mod=viewthread&tid=1122600&page=1&authorid=1241854
熱門跟貼