打開(kāi)網(wǎng)易新聞 查看精彩圖片

作者|莊洲,編輯|Evan

大模型正在上演Linux的故事

世間建筑可以分為兩種,一種是集市,天天開(kāi)放在那里,從無(wú)到有,從小到大;一種是教堂,幾代人嘔心瀝血,歷盡幾十年方能完工。Eric Raymond在《大教堂與集市》中如是寫(xiě)道。

而Linux的故事,更像是用集市的方式,建造一座大教堂。如今,在生成式人工智能領(lǐng)域,越來(lái)越多的開(kāi)源模型正在為這樣的“建造模式”貢獻(xiàn)新的案例。

阿里云,是開(kāi)源模型的堅(jiān)定追逐者。目前,通義千問(wèn)Qwen衍生模型數(shù)量已突破10萬(wàn),超越美國(guó)Llama模型,通義成為全球第一AI開(kāi)源模型。

4月29日凌晨,阿里發(fā)布新一代通義千問(wèn)模型Qwen3(簡(jiǎn)稱千問(wèn)3),參數(shù)量?jī)H為DeepSeek-R1的三分之一,為235B,成本大幅下降。

據(jù)悉,千問(wèn)3是國(guó)內(nèi)首個(gè)“混合推理模型”,“快思考”與“慢思考”集成進(jìn)同一個(gè)模型,對(duì)簡(jiǎn)單需求可低算力“秒回”答案,對(duì)復(fù)雜問(wèn)題可多步驟“深度思考”,大大節(jié)省算力消耗。

2023年至今,阿里通義團(tuán)隊(duì)已經(jīng)開(kāi)源了200多款模型,包含大語(yǔ)言模型千問(wèn)Qwen及視覺(jué)生成模型萬(wàn)相Wan等兩大基模系列,開(kāi)源囊括文本生成模型、視覺(jué)理解/生成模型、語(yǔ)音理解/生成模型、文生圖及視頻模型等全模態(tài),覆蓋從小到大全尺寸參數(shù),滿足不同的終端需求。

千問(wèn)3的總參數(shù)量為235B,激活僅需22B。千問(wèn)3預(yù)訓(xùn)練數(shù)據(jù)量達(dá)36T ,并在后訓(xùn)練階段多輪強(qiáng)化學(xué)習(xí),將非思考模式無(wú)縫整合到思考模型中。

千問(wèn)3的部署成本還大幅下降,僅需4張H20即可部署千問(wèn)3滿血版,顯存占用僅為性能相近模型的三分之一。

阿里的開(kāi)源模型發(fā)布,對(duì)行業(yè)意味著什么?開(kāi)源模型的能力如何?未來(lái)的大模型競(jìng)爭(zhēng)將會(huì)走向何方?

#01

開(kāi)源大模型的能力正在后來(lái)居上

開(kāi)源大模型的能力正在趕上閉源模型。

這是筆者在詢問(wèn)了多位AI創(chuàng)業(yè)者、大廠大模型開(kāi)發(fā)者及投資人后的共識(shí)。

盡管,他們也同意,如今還是閉源模型處于領(lǐng)先地位,但開(kāi)源模型和閉源模型之間的差距正在逐步縮小,而這樣的速度,令業(yè)界始料未及。

“閉源模型先做到了90分,但如今,開(kāi)源模型也能夠做到90分的水平?!币晃淮竽P烷_(kāi)發(fā)人員表示。Scaling Law總有瓶頸,這個(gè)瓶頸所體現(xiàn)的便是模型越大,能力提升、付出的成本則是成倍增加,因此給了開(kāi)源模型追趕的時(shí)間。

是開(kāi)源模型究竟開(kāi)放了什么?其與開(kāi)源軟件有什么區(qū)別?又與閉源模型的差異體現(xiàn)在哪里?

開(kāi)源軟件通常是公開(kāi)源代碼的全貌,允許開(kāi)發(fā)者查看、修改,后續(xù)開(kāi)發(fā)者可以很容易根據(jù)代碼復(fù)現(xiàn)相應(yīng)的功能實(shí)現(xiàn)。但開(kāi)源模型一般只開(kāi)源參數(shù),至于其中用了什么數(shù)據(jù)、如何微調(diào)、如何對(duì)齊,卻難以知曉。閉源模型則是直接提供一整套方案??梢岳斫鉃?,開(kāi)源模型是基于原有的材料,需要廚師自備工具、菜單、研究做法,但究竟能不能做出一道好菜,全靠廚師功力。閉源模型則是預(yù)制菜,加熱即用。

但開(kāi)源模型的好處在于,能夠讓更多開(kāi)發(fā)者參與到模型的開(kāi)發(fā)中,幫助模型提升性能、完善生態(tài),并且靈活性強(qiáng)。這能夠幫助模型公司省去很多人力成本和時(shí)間成本。對(duì)于使用開(kāi)源模型的一方,也是一種節(jié)省成本的方式。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

不過(guò),開(kāi)源模型的成本優(yōu)勢(shì)在前期,舉個(gè)例子,據(jù)計(jì)算,閉源模型GPT-4每百萬(wàn)個(gè)代幣輸入的成本約為10美元,每百萬(wàn)個(gè)代幣輸出的成本約為30美元,而開(kāi)源模型Llama-3-70-B每百萬(wàn)個(gè)代幣輸入的成本約為 60 美分,每百萬(wàn)個(gè)代幣輸出的成本約為 70 美分,這使其成本大約便宜 10 倍,而性能差異卻很小。但如果涉及到后續(xù)的部署,則需要極強(qiáng)的技術(shù)實(shí)力和投入。

不過(guò),阿里此次發(fā)布的千問(wèn)3,也正在逐步解決成本投入的問(wèn)題,以阿里新發(fā)布的千問(wèn)3為例,從部署成本看,千問(wèn)3是滿血版R1的25%~35%,模型部署成本大降六/七成。旗艦版千問(wèn)3模型的總參數(shù)235B激活22B,大致需要4張H20或同等性能的GPU。對(duì)比來(lái)看,滿血版DeepSeek-R1總參數(shù)671B激活37B,1臺(tái)8卡H20雖然可跑,但較吃緊(100w左右),一般推薦16卡H20,總價(jià)約200萬(wàn)左右。

模型推理上看,千問(wèn)3獨(dú)特的混合推理模型,開(kāi)發(fā)者可自行設(shè)置“思考預(yù)算”,在滿足性能需求的同時(shí)實(shí)現(xiàn)更精細(xì)化的思考控制,自然也會(huì)節(jié)省整體推理成本??梢詤⒖嫉氖牵?lèi)型的Gemini-2.5-Flash在定價(jià)上的推理和非推理模式的價(jià)格相差約6倍,用戶使用非推理模式時(shí)相當(dāng)于可節(jié)省600%的算力成本。

一位大廠從事大模型開(kāi)發(fā)人員告訴硅兔君,開(kāi)源模型更適合于有很強(qiáng)技術(shù)實(shí)力,但沒(méi)有足夠預(yù)算的團(tuán)隊(duì),例如學(xué)術(shù)機(jī)構(gòu)。而閉源模型則適合人少錢(qián)多的公司。不過(guò),隨著開(kāi)源模型能力的提升,有41%的受訪企業(yè)計(jì)劃增加對(duì)開(kāi)源模型的使用,而41%的企業(yè)認(rèn)為如果開(kāi)源模型和閉源模型性能相當(dāng),會(huì)轉(zhuǎn)向開(kāi)源模型。在這項(xiàng)調(diào)查中,僅有18%的企業(yè)不打算增加對(duì)開(kāi)源LLM的使用。

A16z創(chuàng)始人馬克·安德里森就表示,開(kāi)源,讓大學(xué)重新回到競(jìng)爭(zhēng)中,因?yàn)?,如果研究者的?dān)心是,第一,大學(xué)沒(méi)有足夠的資金來(lái)參與AI領(lǐng)域的競(jìng)爭(zhēng)并保持相關(guān)性;其次,所有大學(xué)加在一起也沒(méi)有足夠的資金來(lái)參與競(jìng)爭(zhēng),因?yàn)闆](méi)有人能夠跟上這些大型公司的籌資能力。而當(dāng)開(kāi)源模型越來(lái)越多且能力上來(lái)之后,就意味著大學(xué)可以使用開(kāi)源模型進(jìn)行研究。對(duì)沒(méi)有足夠資金的小公司而言,這個(gè)邏輯同樣成立。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

硅兔君制圖

#02

大模型的東方啟示

DeepSeek的橫空出世,讓諸多人發(fā)現(xiàn)了中國(guó)公司開(kāi)源模型的能力。

“Deep Seek代表的是輕量化、低成本的AI產(chǎn)品。”一位中美AI投資人表示,舉個(gè)例子,混合專(zhuān)家模型(MoE)的調(diào)整需要極高的工藝,過(guò)去的主流模型使用MoE的并不多,是因?yàn)殡y,但是“小孩不信邪”,卻把這件事做成了。

但開(kāi)源模型最重要的是生態(tài),也就是說(shuō)到底有多少人用。畢竟,要切換不同的模型,對(duì)用戶而言是極高的成本。不過(guò),當(dāng)DeepSeek橫空出世之后,在硅谷一些用Meta的大模型的用戶也切換到了DeepSeek,“后來(lái)者一定要比先發(fā)者有足夠的優(yōu)勢(shì)。”一位大模型研發(fā)人員表示,這樣才會(huì)吸引用戶放棄前期投入的成本,切換到新的開(kāi)源模型上來(lái)。

硅兔君整理了目前全球知名模型的開(kāi)源和閉源情況發(fā)現(xiàn),除了亞馬遜,微軟、谷歌、Meta、OpenAI都有開(kāi)源模型的布局,一些公司選擇純開(kāi)源路線、一些選擇開(kāi)源和閉源并行,在中國(guó),阿里是在開(kāi)源道路上走得最堅(jiān)定的大廠。早在DeepSeek發(fā)布R1前,阿里就在開(kāi)源模型上押注和布局。

全球知名模型開(kāi)源情況

分類(lèi)

企業(yè)

旗下主要模型

開(kāi)源/閉源

海外云廠商

微軟

Phi-3系列

開(kāi)源

WizardMath系列

開(kāi)源

MAI系列

閉源

谷歌

Gemini系列

閉源

Gemma系列

開(kāi)源

亞馬遜

Nova系列

閉源

Olympus系列

閉源

Titan系列

閉源

海外大模型企業(yè)

Meta

Llama系列

開(kāi)源

OpenAI

GPT-2

開(kāi)源

GPT-3系列、GPT-4系列、o系列

閉源

xAI

Grok-1

開(kāi)源

Grok-1.5、Grok-2

閉源

Anthropic

Claude系列

閉源

Cohere

Command系列

閉源

Mistral AI

Mistral 系列

開(kāi)源

中國(guó)云廠商

阿里

Qwen系列

開(kāi)源

通義千問(wèn)系列

開(kāi)源

華為

盤(pán)古大模型

閉源

騰訊

混元Large

閉源

混元3D生成模型

開(kāi)源

百度

文心系列

閉源

中國(guó)大模型企業(yè)

DeepSeek

DeepSeek-R1系列、DeepSeek-V3/R1系列

開(kāi)源

MiniMax

MiniMax-Text-01、MiniMax-VL-01

開(kāi)源

月之暗面

Moonshot-v1系列模型

閉源

百川智能

Baichuan 2-7B/13B

開(kāi)源

Baichuan 3

閉源

智譜AI

GLM-4系列模型

閉源

GLM-4 series系列開(kāi)源模型

開(kāi)源

資料來(lái)源:公開(kāi)信息整理 硅兔君整理

截至2025年4月29日

根據(jù)李飛飛的《斯坦福人工智能報(bào)告2025》,2024年中,阿里發(fā)布的著名AI大模型數(shù)量為6個(gè),位于全球第三,谷歌和Open AI并列第一,為7個(gè)。而在報(bào)告中所提及的2024年重要大模型排名,阿里的AI貢獻(xiàn)度位列全球第三。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

來(lái)源:《斯坦福人工智能報(bào)告2025》

而29日發(fā)布的千問(wèn)3,作為通義千問(wèn)系列最新一代大語(yǔ)言模型,提供了一系列稠密(Dense)和混合專(zhuān)家(MoE)模型。在推理、指令跟隨、智能體能力和多語(yǔ)言支持方面取得了突破性的進(jìn)展,具有以下特性:

1) 獨(dú)特的混合推理:支持在思考模式 (用于復(fù)雜邏輯推理、數(shù)學(xué)和編碼)和 非思考模式 (用于高效通用對(duì)話)之間無(wú)縫切換,確保在各種場(chǎng)景下的最佳性能。

2) 顯著增強(qiáng)的推理能力 :在數(shù)學(xué)、代碼生成和常識(shí)邏輯推理方面超越了之前的 QwQ(在思考模式下)和Qwen2.5-Instruct 指令模型(在非思考模式下)。

3) 更好的人類(lèi)偏好對(duì)齊 :在創(chuàng)意寫(xiě)作、角色扮演、多輪對(duì)話和指令跟隨方面表現(xiàn)出色,提供更自然、更吸引人和更具沉浸感的對(duì)話體驗(yàn)。

4) 智能體能力突出 :可以在思考和非思考模式下精確集成外部工具,在復(fù)雜的基于代理的任務(wù)中在開(kāi)源模型中表現(xiàn)領(lǐng)先。

5) 強(qiáng)大的多語(yǔ)言能力:支持119 種語(yǔ)言和方言,具備強(qiáng)大的多語(yǔ)言指令跟隨和翻譯能力。

其中所提到的“混合推理”,相當(dāng)于把頂尖的推理模型和非推理模型集成到同一個(gè)模型里去,需要極其精細(xì)、創(chuàng)新的設(shè)計(jì)及訓(xùn)練。目前,熱門(mén)模型中只有千問(wèn)3、Claude3.7以及Gemini 2.5 Flash可以做到。

具體而言,在“推理模式”下,模型會(huì)執(zhí)行更多中間步驟,如分解問(wèn)題、逐步推導(dǎo)、驗(yàn)證答案等,給出更深思熟慮的答案;而在“非推理模式”下,模型會(huì)直接生成答案。同一個(gè)模型,可以完成“快思考”和“慢思考”,這類(lèi)似于人類(lèi)在回答簡(jiǎn)單問(wèn)題時(shí),憑經(jīng)驗(yàn)或直覺(jué)快速作答,面對(duì)復(fù)雜難題時(shí)再深思熟慮,仔細(xì)思考給出答案。千問(wèn)3還可API設(shè)置“思考預(yù)算”(即預(yù)期最大thinking tokens數(shù)量),進(jìn)行不同程度的思考,讓模型在性能和成本間取得更好的平衡,以滿足開(kāi)發(fā)者和機(jī)構(gòu)的多樣需求。

Qwen3的性能情況

打開(kāi)網(wǎng)易新聞 查看精彩圖片

對(duì)中國(guó)而言,開(kāi)源模型的做法也比閉源模型能夠吸引更多客戶,因?yàn)槿绻情]源的模型,只能更多集中在國(guó)內(nèi)市場(chǎng),但開(kāi)源則能夠讓更多國(guó)外公司也進(jìn)行使用,舉個(gè)例子:Perplexity是一家美國(guó)公司,但用戶可以在Perplexity上使用DeepSeek R1,并完全托管在美國(guó),使用美國(guó)的數(shù)據(jù)中心。

#03

大模型的下半場(chǎng)

2023年3月,在舊金山的探索館一場(chǎng)開(kāi)源AI盛會(huì)上,羊駝漫步在會(huì)場(chǎng)上,致敬了Meta的開(kāi)源大語(yǔ)言模型“LLaMA”。

2023年至今,一年多時(shí)間里,生成式AI正在不斷發(fā)生變化。公眾的關(guān)注點(diǎn)已從基礎(chǔ)模型變?yōu)锳I原生的應(yīng)用。在YC W25的Demo Day中,80%的項(xiàng)目都是AI應(yīng)用。

“開(kāi)源模型將會(huì)促進(jìn)更多Agent的落地?!?/strong>多位業(yè)界人士向硅兔君表達(dá)了這個(gè)觀點(diǎn)。一方面是開(kāi)源將會(huì)降低使用成本及門(mén)檻。

例如千問(wèn)3 有很強(qiáng)的工具調(diào)用能力,在伯克利函數(shù)調(diào)用BFCL評(píng)測(cè)榜中,千問(wèn)3創(chuàng)下70.76的新高,將大幅降低Agent調(diào)用工具的門(mén)檻。同時(shí),可結(jié)合 Qwen-Agent 開(kāi)源框架來(lái)充分實(shí)現(xiàn)Qwen3 的智能體能力。Qwen-Agent 是一個(gè)基于 Qwen 的指令跟蹤、工具使用、規(guī)劃和內(nèi)存功能開(kāi)發(fā) LLM 應(yīng)用程序的框架,框架內(nèi)部封裝了工具調(diào)用模板和工具調(diào)用解析器,還附帶瀏覽器助手、代碼解釋器和自定義助手等示例應(yīng)用程序,大大降低了編碼復(fù)雜性。千問(wèn)3原生支持MCP協(xié)議,開(kāi)發(fā)者要定義可用工具,可基于 MCP 配置文件,使用 Qwen-Agent 的集成工具或自行集成其他工具,快速開(kāi)發(fā)一個(gè)帶有設(shè)定、知識(shí)庫(kù)RAG和工具使用能力的智能體。

不僅如此,阿里的千問(wèn)3能夠支持不同尺寸模型,千問(wèn)3對(duì)手機(jī)、智能眼鏡、智能駕駛、人形機(jī)器人等智能設(shè)備和場(chǎng)景的部署更為友好,所有企業(yè)都可免費(fèi)下載和商用千問(wèn)3系列模型,這也將大大加速AI大模型在終端上的應(yīng)用落地。

另外,有從業(yè)者指出,閉源模型在To B端并沒(méi)有很好解決信任問(wèn)題,很多大企業(yè)其實(shí)并不愿意將自己的業(yè)務(wù)接入第三方大模型的API,因?yàn)檫@背后是核心數(shù)據(jù)是否會(huì)成為第三方大模型訓(xùn)練的一部分,這也是開(kāi)源模型的機(jī)會(huì)。

有一個(gè)說(shuō)法是,開(kāi)源作為早期產(chǎn)品,在沒(méi)有經(jīng)過(guò)beta測(cè)試之前的市場(chǎng)推廣策略,當(dāng)不知道明天會(huì)是什么樣的時(shí)候,先開(kāi)源出來(lái),吸引開(kāi)發(fā)者。當(dāng)有人用起來(lái)的時(shí)候,就有了最佳實(shí)踐,緊接著就建立起了自己的生態(tài)。

不過(guò),由于開(kāi)源模型的商業(yè)鏈條較長(zhǎng),不如閉源模型來(lái)得快和清晰,因此業(yè)界人士表示,開(kāi)源模型更多適合家里有錢(qián)有資源的“富二代”的游戲。以Meta來(lái)說(shuō),Meta做開(kāi)源模型,更多是搭建生態(tài),為Meta其他業(yè)務(wù)板塊提供支持。阿里做開(kāi)源的邏輯,則更多是為其云服務(wù)。阿里有很強(qiáng)的云設(shè)施服務(wù),可以在此基礎(chǔ)上訓(xùn)練大模型,另外也可以將大模型部署在自己的云服務(wù)商,甚至可以根據(jù)用戶部署定制專(zhuān)屬大模型,用這樣的方式走通商業(yè)邏輯。

“我的模式是,讓大公司、小公司和開(kāi)源相互競(jìng)爭(zhēng)。這就是計(jì)算機(jī)行業(yè)發(fā)生的事情?!瘪R克·安德里森曾表示。而在大模型逐漸變成如水、電、煤一樣的標(biāo)準(zhǔn)化產(chǎn)品,開(kāi)源可能更適合未來(lái)的方向。

打開(kāi)網(wǎng)易新聞 查看精彩圖片