作者|沐風(fēng)

來源|AI先鋒官

就在這周末,開源界元老Meta正式推出了首個原生多模態(tài)Llama 4系列模型,性能上全面超越GPT-4o、Gemini 2.0等頂級競品,同時支持1000萬token超長上下文。

該系列總共公布了3個模型,分別為Scout、Maverick和Behemoth。

打開網(wǎng)易新聞 查看精彩圖片

在這三個模型中,Maverick、Scout都是從Behemoth上蒸餾得來,并且Scout和Maverick已經(jīng)開源,可以在其官網(wǎng)和Hugging Face上進行下載。

據(jù)官方介紹,Llama 4是Meta迄今為止最先進的模型,也是同類產(chǎn)品中多模態(tài)性最強的模型。

另外,Llama 4模型是Llama系列模型中首批采用混合專家(MoE)架構(gòu)的模型,也是DeepSeek系列模型采用的架構(gòu)。

與傳統(tǒng)的稠密模型相比,在MoE架構(gòu)中,單獨的token只會激活全部參數(shù)中的一小部分,訓(xùn)練和推理的計算效率更高。

接下來,我們就一起看看Llama 4系列模型都有哪些亮點。

Llama 4 Scout

  • 擁有170億活躍參數(shù),總參數(shù)量為1090億。

  • 配備了16個專家模塊,每次推理激活其中2個。

  • 支持1000萬token上下文。

  • 單張H100 GPU即可運行。

  • 在基準測試中,其性能表現(xiàn)超過了Gemma 3、Gemini 2.0 Flash-Lite以及Mistral 3.1。

打開網(wǎng)易新聞 查看精彩圖片

Llama 4 Maverick

  • 同樣具備170億活躍參數(shù),總參數(shù)量增加至4000億。

  • 專家模塊的數(shù)量增加到128個,每次推理激活17個專家。

  • 支持1000萬token上下文。

  • 基準測試中,其性能表現(xiàn)超越了GPT-4o和Gemini 2.0 Flash。

  • 在推理、編程、多語言等任務(wù)上媲美DeepSeek v3,但參數(shù)僅為其一半。

  • 在LMArena測試中,ELO評分高達1417。

打開網(wǎng)易新聞 查看精彩圖片

Llama 4 Behemoth

  • 擁有2880億個活躍參數(shù),總參數(shù)量接近2萬億。

  • 具體有16個專家模型。

  • 在多個 STEM 基準測試中優(yōu)于 GPT-4.5、Claude Sonnet 3.7 和 Gemini 2.0 Pro。

  • 目前仍在訓(xùn)練中,尚未公開發(fā)布。

打開網(wǎng)易新聞 查看精彩圖片

值得一提的是,Llama 4 Maverick一經(jīng)發(fā)布就沖上了LMArena排行榜中的第二名,僅僅比 Gemini-2.5-pro模型少22分,成為第四個突破 1400 分的大模型。

打開網(wǎng)易新聞 查看精彩圖片

但這一成績卻引發(fā)了諸多質(zhì)疑。

據(jù)多位AI研究人員在社交平臺X上指出,Meta在LMArena上部署的Llama 4 Maverick與廣泛提供給開發(fā)者的版本并不一致。

打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片

不過,Meta在其公告中明確提到,參與LMArena測試的Llama 4 Maverick是一個“實驗性聊天版本”。

而根據(jù)官方Llama網(wǎng)站上公布的信息,Meta 在LMArena的測試中所使用的實際上是“針對對話性優(yōu)化的Llama 4 Maverick”。這表明,該版本經(jīng)過了專門的優(yōu)化調(diào)整,以適應(yīng) LM Arena 的測試環(huán)境和評分標準。

打開網(wǎng)易新聞 查看精彩圖片

有AI研究人員在社交平臺X上指出,公開可下載的Maverick與LMArena上托管版本之間存在明顯行為差異。LMArena版本更傾向于使用大量表情符號并提供冗長的回答,這在標準版本中并不常見。

打開網(wǎng)易新聞 查看精彩圖片

在實際使用中,很多人覺得Llama 4的編碼能力和數(shù)學(xué)邏輯方面都沒有測試中那么厲害,甚至有社區(qū)用戶給它進行了重新打分,重新打分后的Llama 4連前10都進不去。

打開網(wǎng)易新聞 查看精彩圖片

在經(jīng)典測試題“strawberry中有多少個R”的問題上,Llama 4 Maverick也未能做對。

打開網(wǎng)易新聞 查看精彩圖片

據(jù)博主“karminski-牙醫(yī)”發(fā)布的評測結(jié)果顯示,Llama 4 Maverick與Qwen-QwQ-32B的寫代碼水平一致,Scout則是直接掛科。

其更是直言:“不建議用Llama 4寫代碼”。

打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片

 Llama 4多模態(tài)大模型上線即開源,測試成績、開源模式廣遭質(zhì)疑
打開網(wǎng)易新聞 查看更多視頻
Llama 4多模態(tài)大模型上線即開源,測試成績、開源模式廣遭質(zhì)疑

看來,Llama 4這次更像是個“偏科生”,多模態(tài)和長文本是長板,但邏輯推理和代碼生成似乎還需要打磨。

除此之外,Llama 4的開源模式也遭質(zhì)疑。

例如,油管知名博主1littlecoder就指出Llama 4的許可條款與真正的開源精神相去甚遠。

馬克·扎克伯格在Llama 4發(fā)布視頻中充滿熱情地宣布:"今天是Llama 4的日子。我們的目標是構(gòu)建世界領(lǐng)先的AI,將其開源,并使其普遍可訪問,讓全世界都能受益。我一直認為開源AI將成為領(lǐng)先模型,而隨著Llama 4,這開始變?yōu)楝F(xiàn)實。"

然而,1littlecoder直言不諱地表示:"這是對開源的污蔑,與開源毫無關(guān)系。你可以稱它為開放模型,你可以稱它為開放權(quán)重模型,但它不是開源的。"

1littlecoder認為,開源軟件的基本原則之一是普遍可訪問性。開源通過開源或免費許可促進對產(chǎn)品的普遍訪問。這意味著任何人都應(yīng)該能夠訪問你的產(chǎn)品,而不會有太多麻煩。"

與其他真正開源的AI模型相比,Llama 4的獲取過程顯得異常復(fù)雜。

1littlecoder提到,“Meta的模型要求你首先登錄Hugging Face賬戶,這點我能理解,他們可能有垃圾郵件問題。然后填寫表格,務(wù)必提供你的法定全名。我是說,為什么下載PyTorch權(quán)重或一些隨機二進制文件需要提供我的法定姓名?還有出生日期、完整的組織名稱、所有公司標識符?!?/p>

打開網(wǎng)易新聞 查看精彩圖片

更令人擔憂的是,表格上明確警告:“避免使用首字母縮寫和特殊字符。未能按照這些指示操作可能會阻止你訪問此模型和Hugging Face上的其他模型。提交后,你將無法編輯此表格。因此,請確保所有信息準確無誤?!?/strong>

這意味著一旦因填寫信息不當被Meta禁止,用戶可能永遠無法從Hugging Face下載該模型,這與開源軟件的普遍可訪問性原則直接沖突。

更具爭議性的是Llama 4的社區(qū)許可協(xié)議。

1littlecoder更是將其描述為"對開源的污蔑"。

這份許可協(xié)議包含多項限制,直接挑戰(zhàn)了傳統(tǒng)開源定義:

首先是用戶限制條款:“如果你擁有一家月活躍用戶超過7億的公司,你不能使用這個模型?!彪m然這對大多數(shù)開發(fā)者來說影響有限,但它違背了開源軟件不應(yīng)對使用者有歧視的基本原則。

其次是關(guān)于再分發(fā)的嚴格要求。許可證規(guī)定,如果分發(fā)或提供Llama材料,必須顯示"使用Llama構(gòu)建"的標志。

1littlecoder對此表示強烈不滿:“為什么我要這樣做?你想加速開源,對吧?你不是在尋求任何好處,因為你相信開源。只要給我模型,我想怎么用就怎么用。這是愚蠢,完全的愚蠢?!?/p>

更令人震驚的是命名要求:“如果你使用Llama材料或任何Llama材料的輸出或結(jié)果來創(chuàng)建、訓(xùn)練、微調(diào)或以其他方式改進分發(fā)或提供的AI模型,你還應(yīng)該在任何此類AI模型名稱的開頭包含‘Llama’?!?/p>

此外,還有版權(quán)聲明要求:“在你分發(fā)的Llama材料的所有副本中,你必須包含以下歸屬聲明,并與分發(fā)的此類副本一起提供聲明文本文件‘Llama 4的許可證和Llama 4社區(qū)許可證,版權(quán)Meta平臺,保留所有權(quán)利。’”

1littlecoder在結(jié)束時呼吁AI社區(qū)重新思考什么才是真正的開源:“請不要稱這為開源。我相信,將任何進入Hugging Face的愚蠢模型稱為開源,對于開源代表的內(nèi)容或開源支持者來說,是一種污蔑。這不是開源,只是你可以下載并帶有一堆限制的開放權(quán)重?!?/p>

掃碼邀請進群,我們帶你一起來玩轉(zhuǎn)ChatGPT、GPT-4、文心一言、通義千問、訊飛星火等AI大模型,順便學(xué)一些AI搞錢技能。

往期文章回顧