
新智元報道
編輯:定慧 桃子
【新智元導(dǎo)讀】Llama 4家族周末突襲,實屬意外。這場AI領(lǐng)域的「閃電戰(zhàn)」不僅帶來了兩款全新架構(gòu)的開源模型,更揭示了一個驚人事實:蘋果Mac設(shè)備或?qū)⒊蔀椴渴鸫笮虯I模型的「性價比之王」。
誰也沒料到,


一共三款模型,首次采用MoE架構(gòu),開啟了原生多模態(tài)的Llama時代!
Llama 4 Scout,激活17B,16個專家,109B參數(shù);
Llama 4 Maverick,激活17B,128個專家,402B參數(shù);
Llama 4 Behemoth,激活288B,16個專家,2T參數(shù)。
Llama 4發(fā)布后排名瞬間躍升,甚至超過了DeepSeek-V3,Meta再一次回到牌桌。

業(yè)界首個1000萬上下文,RAG已死?
Meta宣稱Llama-4-Scout-17B-16E測試中好于Gemma 3、Gemini 2.0 Flash-Lite和Mistral 3.1。甚至,小扎劇透了推理模型也不遠了。

但也有網(wǎng)友調(diào)侃Llama 4這次是「趕鴨子上架」,所以Llama 4性能到底如何,請看下面網(wǎng)友的實測。
稀疏MoE模型,和蘋果芯堪稱天作之合
當前,第一批測試結(jié)果已經(jīng)出來了!
蘋果ML工程師Awni Hannun實測,Llama 4 Maverick在單臺M3 Ultra-512GB上使用MLX推理框架時速度極快,達到了50 token/秒!
與DeepSeek V3/R1類似,Llama 4系都是巨大的稀疏MoE模型。
這些模型擁有極其龐大的參數(shù)量,但每次只有少量參數(shù)(專家)被激活。由于事先無法預(yù)測哪些參數(shù)會被激活,因此必須把所有參數(shù)同時存放在高速的GPU顯存中。
為何對于開源模型,社區(qū)大佬都傾向于使用蘋果芯片去測試?

一方面,是因為買不到英偉達H100啊。

Awni Hannun表示,更重要的是Apple芯片適合稀疏模型。
GPU顯存速度快,但成本昂貴。然而Apple Silicon通過統(tǒng)一內(nèi)存(Unified Memory)和UltraFusion 技術(shù)融合多個芯片,使其能夠以更低的成本提供更大容量、中等速度的內(nèi)存。
一個月前發(fā)布的M3 Ultra Mac Studio的統(tǒng)一內(nèi)存容量高達512GB!
然而,當內(nèi)存容量增大到這個程度時,內(nèi)存帶寬就不足了。對于512GB版本來說,內(nèi)存刷新率(每秒GPU可完整遍歷所有內(nèi)存的次數(shù),即內(nèi)存帶寬與容量之比)只有1.56次/秒。與其他硬件對比如下:
NVIDIA H100(80GB):37.5次/秒
AMD MI300X(192GB):27.6次/秒
Apple M2 Ultra(192GB):4.16次/秒(比H100慢9倍)
Apple M3 Ultra(512GB):1.56次/秒(比H100慢24倍)
理想情況下,工作負載特性應(yīng)與硬件特性相匹配。否則,硬件會存在浪費(性能過剩)或瓶頸(性能不足)。對工作負載(此處為批大小=1的推理任務(wù))而言,關(guān)鍵特性是模型稀疏度。
模型的稀疏度定義為 1-(激活參數(shù)數(shù)/總參數(shù)數(shù))。
稠密模型稀疏度為0%(因為激活參數(shù) = 總參數(shù))。各模型稀疏度如下:
Llama 3.3 405B:總參數(shù)=405B,激活參數(shù)=405B,稀疏度=0%
DeepSeek V3/R1:總參數(shù)=671B,激活參數(shù)=37B,稀疏度=94.4%
Llama 4 Scout:總參數(shù)=109B,激活參數(shù)=17B,稀疏度=84.4%
Llama 4 Maverick:總參數(shù)=400B,激活參數(shù)=17B,稀疏度=95.75%(非常高?。?/p>
Llama 4 Behemoth:總參數(shù)=2T,激活參數(shù)=288B,稀疏度=85.6%
一般來說,稀疏度越高,越適合內(nèi)存刷新率較低的Apple Silicon。因此,Llama 4 Maverick顯然是最適合 Apple Silicon的模型。
另外更重要的原因就是Apple Silicon是運行大模型最具成本效益的方案,因為統(tǒng)一內(nèi)存每GB的成本遠低于GPU顯存:
NVIDIA H100:80GB,3TB/s,售價$25,000,每GB成本$312.50
AMD MI300X:192GB,5.3TB/s,售價$20,000,每GB成本$104.17
Apple M3 Ultra:512GB,800GB/s,售價$9,500,每GB成本$18.55
以2萬億參數(shù)巨獸Llama 4 Behemoth為例。
考慮到若用H100來完整容納Behemoth模型(fp16精度),則需要50塊H100,總成本為125萬美元;
MI300X的總成本則為42萬美元;
但若使用M3 Ultra,總成本僅為7.6萬美元!
以下是網(wǎng)友@alexocheema對不同版本Mac運行新Llama 4版本的情況進行了全面分析。

Llama 4這次發(fā)布的模型最大一個優(yōu)點之一就是稀疏模型,這給了本地部署很多想象力,也是開源模型的使命。
以精度4-bit為例,使用MLX推理框架可以在具有足夠RAM的Mac上部署這些模型。
網(wǎng)友@awnihannun總結(jié)了部署Llama 4最新三個模型所需要的最小配置,幾乎都可以完成本地部署:
Llama 4 Scout 109B參數(shù):64GB的M4 Max;
Llama 4 Maverick 400B參數(shù):256GB的M3 Ultra;
Llama 4 Behemoth 2T參數(shù):3臺512GB的M3 Ultra;

Llama 4很強,就是寫代碼有點菜
說完了硬件,再來看看Llama 4的實測效果。 網(wǎng)友@gnukeith測試了Llama 4的多模態(tài)能力,讓模型識別圖片中的人物來自于哪個動漫,Llama成功識別!

網(wǎng)友@attentionmech制作了一個模型視覺化網(wǎng)頁(簡單說就是看模型有多少層,有多深),Llama 4視覺上看起來確實令人驚嘆。
網(wǎng)友@philip_kiely使用Llama 4(Maverick)輕松擊敗了Brick Breaker氛圍測試。
當然,也有翻車的,比如網(wǎng)友@fighto測試了「喜聞樂見」的讓模型數(shù)r的問題,Llama 4 Maverick回答錯誤。

網(wǎng)友@tariquesha1測試了Llama 4的圖像生成能力。
再來看看Llama 4寫代碼的實戰(zhàn)案例。
網(wǎng)友AlexBefest宣布Llama 4 Maverick——Python六邊形測試失敗。Python六邊形測試可以說是每個新發(fā)布大模型的「試金石」了。

下面展示了其他模型在Python六邊形測試彈跳小球上的結(jié)果,來自Github的KCORES團隊。
KCORES團隊成員karminski-牙醫(yī)發(fā)布了Llama 4 Scout和Llama 4 Maverick的測試結(jié)果。
用他的話說,Llama 4 Scout小參數(shù)模型開心就好;足足有402B參數(shù)的Maverick模型的表現(xiàn)并不是很滿意:
Scout小參數(shù)模型大概接近Grok2的水平(咋還倒退了);
而Mavericks還不如使用DeepSeek-V3-0324;
總之不建議Llama 4寫代碼

按照KCORES LLM Arena的評測結(jié)果,目前最好的模型GPT-4.5-Preview。

當然,目前的測試只針對寫代碼,其他長文本和多模態(tài)領(lǐng)域還需要更多的測試案例。
Llama 4的另一個突破就是支持10M的上下文窗口長度,相當于20個小時的視頻。

全網(wǎng)部署Llama 4
不管怎么說Llama 4的發(fā)布依然是開源模型的又一劑強心針。 各家巨頭和平臺同時宣布支持最新的Llama 4。 微軟CEO Satya Nadella宣布馬上將Scout和Maverick發(fā)布在Azure AI Foundry平臺。

Cerebras宣布將在下周完成Llama 4最新模型的部署。

Together AI上也同步推出Llama 4模型,作為Meta的發(fā)布合作伙伴,還支持Together API的方式來訪問Llama 4 Maverick 和Llama 4 Scout。

T3 Chat也宣布Llama 4 Scout和Maverick均已啟動,Scout由Groq托管,而Maverick由OpenRouter托管,并且聲明了小參數(shù)模型Scout非常便宜,決定免費發(fā)布。

Databricks數(shù)據(jù)智能平臺宣布使用Llama模型來為AI應(yīng)用程序、智能體和工作流程提供支持。

接下來還會有更多的平臺跟進Llama 4最新模型,就像幾個月前各家平臺也是「瘋狂」上線DeepSeek一樣。
還有一個問題,為啥小扎選在他們的休息日發(fā)布Llama 4,馬上就周一了???
Defined和Liftoff的聯(lián)合創(chuàng)始人Nathan Lambert說頂尖Lab的領(lǐng)導(dǎo)們都會知道其他Labs的發(fā)布計劃。
難道說小扎知道下周會有什么「瘋狂」的模型發(fā)布可能會蓋過Llama 4的風(fēng)頭,所以「趕鴨子上架」嗎。

首先在Llama 4的Github Model_Card的更新日志中,發(fā)現(xiàn)一個改動:
模型發(fā)布的日期從美國時間的4月7號改到了4月5號(也就是我們4月6號的凌晨)!

所以,周一Meta還會發(fā)布什么新模型嗎?
在llama.com的官網(wǎng)上,我們看到了llama4-resoning-is-coming的后綴,似乎預(yù)示著llama-4推理模型也要馬上發(fā)布了!

而奧特曼繼續(xù)放出他的煙霧彈,在社交媒體不停的預(yù)熱:OpenAI接下來也要放大招了!

而不論是此前奧特曼宣布GPT5、o3和o4-mini的消息,還是Llama 4的發(fā)布,還是DeepSeek和清華共同發(fā)布的論文,似乎預(yù)示著一件事:
所有人都在等待并期待著DeepSeek-R2!

請大家做好準備,也許下周即將是「瘋狂」的一周。
參考資料:
https://x.com/karminski3/status/1908673924596195838
https://x.com/awnihannun/status/1908676110717771994
https://x.com/alexocheema/status/1908651942777397737
https://docs.google.com/spreadsheets/d/1mcRayUPtVJG_hOMruWWEf6T8TKbfTQIvH3WUkj_kx6E/edit?gid=0#gid=0
熱門跟貼