打開網(wǎng)易新聞 查看精彩圖片

“大模型已經(jīng)從早期階段的初期,進(jìn)入早期階段的中期,不可能只在單點能力上改進(jìn)了?!?br/>

程曼祺

編輯宋瑋

今天(4 月 29 日)清晨,阿里巴巴更新通義千問(Qwen)系列最新一代基礎(chǔ)模型 Qwen3,并開源 8 個版本。

Qwen3 是中國的首個混合推理模型(hybird reasoning model),也是全球第一個開源的混合推理模型——即在同一個模型中融合了 “推理” 和 “非推理” 模式,能像人那樣根據(jù)不同問題選擇 “快、慢思考”。

打開網(wǎng)易新聞 查看精彩圖片

Qwen3 旗艦?zāi)P?,MoE(混合專家模型)模型 Qwen3-235B-A22B,以 2350 億總參數(shù)、220 億激活參數(shù),在多項主要 Benchmark(測評指標(biāo))上超越了 6710 億總參數(shù)、370 億激活參數(shù)的 DeepSeek-R1 滿血版。更小的 MoE 模型 Qwen3-30B-A3B,使用時的激活參數(shù)僅為 30 億,不到之前 Qwen 系列純推理稠密模型 QwQ-32B 的 1/10,但效果更優(yōu)。更小參數(shù)、更好性能,意味著開發(fā)者可以用更低部署和使用成本,得到更好效果。圖片來自通義千問官方博客。(注:MoE 模型每次使用時只會激活部分參數(shù),使用效率更高,所以有總參數(shù)、激活參數(shù)兩個參數(shù)指標(biāo)。)

Qwen3 發(fā)布前,我們訪談了阿里大模型研發(fā)一號位,阿里云 CTO 和通義實驗室負(fù)責(zé)人,周靖人。他也是阿里開源大模型的主要決策者。

迄今為止,Qwen 系列大模型已被累計下載 3 億次(綜合 Hugging Face、魔搭等社區(qū)數(shù)據(jù))其中 2.5 億次是最近 7 個月新增的 ;基于 Qwen 的衍生模型數(shù)量超 10 萬個,為全球第一。

阿里開源 AI 模型,早于 ChatGPT 引爆這一輪 AI 熱潮。2022 年 11 月初,阿里上線開源模型分享平臺魔搭社區(qū),一口氣開源了達(dá)摩院成立 5 年來研發(fā)的所有近 400 個模型。2023 年 8 月,阿里又決定開源 Qwen 系列大模型,目前已累計開源超 200 個模型。

在 2022 年底到 2023 年,開源大模型不是一個容易的選擇:開源意味著需要接受開發(fā)者和市場的反饋,也要接受各方測試,對能力要求非常高。周靖人和阿里大模型團(tuán)隊選擇接受開源的檢驗。

這之后,Qwen 僅用 1 年多在全球開源模型中后來居上:在去年 10 月,Qwen 的衍生模型數(shù)量達(dá)到 8 萬多個,超越了更早開源的 Meta Llama 系列,此后持續(xù)領(lǐng)先。

打開網(wǎng)易新聞 查看精彩圖片

三個開源模型系列 Qwen 系列、Llama 系列、Mistral 系列的衍生模型數(shù)變化。

蘋果據(jù)傳選擇 Qwen 成為中國的大模型合作伙伴,李飛飛團(tuán)隊用 Qwen 來訓(xùn)練超低成本推理模型,通用 Agent 產(chǎn)品 Manus 調(diào)用 Qwen 來做決策規(guī)劃,DeepSeek-R1 的部分小尺寸模型也用到了 Qwen 來訓(xùn)練。

但相比在技術(shù)社區(qū)的影響力,Qwen 在泛商業(yè)界相對低調(diào),幾次關(guān)鍵發(fā)布被 “搶頭條”。開發(fā)者調(diào)侃,Qwen 是大模型領(lǐng)域的 “汪峰”。

“這是什么意思呢 ?” 周靖人投來疑問的目光,他沒聽過這個玩笑。

周靖人戴著金絲眼鏡,語調(diào)缺乏起伏、語速也幾乎一致,平穩(wěn)有如程序。3 小時的訪談中,他講得最多的是 “技術(shù)規(guī)律”。

我們問他,怎么考慮更新和發(fā)布模型的節(jié)奏競爭?他說:

“我們無法預(yù)知別人的發(fā)布節(jié)奏。研發(fā)這件事,想臨時調(diào)節(jié)奏也調(diào)不過來,不符合研發(fā)規(guī)律?!?br/>

聊起阿里集團(tuán) CEO 吳泳銘今年 2 月說 “阿里現(xiàn)在的首要目標(biāo)是追求 AGI”,周靖人說:

“今天外界聽到吳泳銘宣布了什么,感覺阿里好像突然有個大轉(zhuǎn)變,其實不是。從技術(shù)發(fā)展規(guī)律來說,沒有前期積累不可能一蹴而就。”

開源如果做不到第一,意義將大打折扣,也可能失去閉源的商業(yè)機會。周靖人卻淡化這個選擇的壓力:

“從技術(shù)發(fā)展規(guī)律看,不開源反而風(fēng)險更大,因為開源至少會追上閉源,甚至發(fā)展得更好?!?br/>

他有一些不同于多數(shù)人的觀點,講出來時也語調(diào)平淡、不帶色彩:

“其實 o1 談不上定義了新范式。讓模型學(xué)會思考,它不是一個范式,而是一種能力?!?br/>

周靖人在 2015 年從微軟加入阿里巴巴,在 iDST 和達(dá)摩院帶過前沿技術(shù)研發(fā),也在螞蟻、淘寶做過實際業(yè)務(wù)落地。

以下是《晚點》對周靖人的訪談,他回顧了阿里開發(fā)大模型的過程,開源的關(guān)鍵決策,和他對當(dāng)前大模型技術(shù)的思考。

“某一天的流量沒那么重要。大模型不是短期競爭”

晚點:現(xiàn)在外界對阿里有一個調(diào)侃,說你們是大模型領(lǐng)域的汪峰。

周靖人:這我不知道。什么意思呢?

晚點:指阿里的重磅發(fā)布常被 “搶了頭條”。先是春節(jié)更新基座模型 Qwen2.5-Max,被 DeepSeek 推理模型 R1 搶了風(fēng)頭;后來 3 月發(fā)布推理模型 QwQ-32B ,又趕上大火的 Agent 產(chǎn)品 Manus 同天發(fā)布。

周靖人:某一天的流量其實沒那么重要。

晚點:真正重要的是什么?

周靖人:更前瞻性地思考,更篤定地堅持自己的技術(shù)路徑和節(jié)奏。

晚點:阿里通往 AGI 的路徑是什么?

周靖人:首先,我們的一個核心認(rèn)知是,大模型發(fā)展和云體系的支撐不可分割。無論訓(xùn)練還是推理,大模型的每一次突破,表面看是模型能力演進(jìn),背后其實是整個云計算和數(shù)據(jù)、工程平臺的全面配合和升級。

在模型能力上,大家現(xiàn)在討論最多的是推理模型。我們在繼續(xù)探索讓模型能更像人那樣去思考,未來甚至能自我反思、自我糾錯等。

多模態(tài)也是通向 AGI 的重要途徑。人的大腦也是有的部分處理文字,有的部分處理視覺、聲音。我們要讓大模型能理解并貫通各個模態(tài)。

我們也在探索新的學(xué)習(xí)機制,包括怎么能讓模型在線學(xué)習(xí)、持續(xù)學(xué)習(xí)和自學(xué)習(xí)(Self Learning)。(注:現(xiàn)在的模型訓(xùn)練是 “離線學(xué)習(xí)”,每次升級需要重新做預(yù)訓(xùn)練、更新版本。)

在提升云體系的性能和效率上,我們會加強云和模型的軟硬一體聯(lián)合優(yōu)化。尤其在今年,工程能力、整個云系統(tǒng)結(jié)合 AI 的性能和效率會變成核心競爭力。

晚點:同時做這么多事,不會失焦嗎?

周靖人:大模型發(fā)展到現(xiàn)在,已經(jīng)從早期階段的初期,進(jìn)入了早期階段的中期,不可能只在單點能力上改進(jìn)了。因為真正的通用人工智能,就是需要多模態(tài)、工具使用、Agent 支持和持續(xù)學(xué)習(xí)等多種能力,等(某個方向)跑出來再做是來不及的。不光我們,頭部公司都會在多個方向上提前預(yù)研。

晚點:剛發(fā)布的 Qwen3 體現(xiàn)了阿里在哪些方向的布局?

周靖人: Qwen3 是一個混合推理模型,它同時提供了 “推理模式” 和 “非推理模式”,前者用于復(fù)雜邏輯推理、數(shù)學(xué)和編程,后者能處理日常指令和高效對話?;旌贤评砟P徒窈笫谴竽P桶l(fā)展的重要趨勢。

晚點:為什么會成為趨勢?混合推理模型的好處是什么?

周靖人:它能更好平衡性能和成本。在 “推理模式” 下,模型會執(zhí)行分解問題、逐步推導(dǎo)、驗證等中間步驟,給出 “深思熟慮” 的答案;在 “非推理模式” 下,則可以快速遵循指令生成答案。

Qwen3 還有一個 “思考預(yù)算” 設(shè)置——開發(fā)者可以自己設(shè)定深度思考的最大 token 消耗,這能更好滿足不同開發(fā)者對性能和成本的需求。

晚點:那么這么做的代價和難點是?

周靖人:混合推理模型是通過推理和非推理的混合訓(xùn)練做到的,這需要模型學(xué)習(xí)兩種不同的輸出分布,很考驗訓(xùn)練策略。所以設(shè)計和訓(xùn)練混合推理模型,遠(yuǎn)比做單純的推理模型要難。

Qwen3 在后訓(xùn)練階段,也是兩種模式混合訓(xùn)練,相當(dāng)于合并了推理模型 QwQ 系列和指令微調(diào)模型 Qwen2.5-instruct 系列,同時將它們的優(yōu)勢并合二為一。

晚點:阿里現(xiàn)在怎么把握模型更新節(jié)奏?發(fā)布節(jié)奏和聲量也是現(xiàn)在各公司的競爭點,比如 OpenAI 有幾次更新都是趕在 Google 的重磅發(fā)布之前。

周靖人:肯定會有這方面的考慮,但最終不是靠發(fā)布時宣傳得怎么樣,最終還是看開發(fā)者和市場反饋。

再說我們也無法預(yù)知別人的發(fā)布節(jié)奏。研發(fā)這件事,想臨時調(diào)節(jié)奏也調(diào)不過來,不符合研發(fā)規(guī)律。

晚點:Qwen 系列下載量在全球僅次于 Llama,同時是衍生模型數(shù)量最多的開源模型,但市場對此認(rèn)知不夠,這會讓阿里困擾嗎?你們想了什么方法來增加技術(shù)影響力?

周靖人:其實通義千問的傳播是不錯的。核心還是在于開源的模型要足夠強,否則其他方式都沒什么用。

晚點:通義千問何時會有一個真正出圈的、讓更多人 eye-opening 的進(jìn)展?類似 Sora、DeepSeek-R1 曾引起的關(guān)注。

周靖人:通義千問接下來會有很多亮點,但能否讓大家 eye-opening,這要看大家。我覺得有時我們太關(guān)注此時此刻,誰又比誰強一點點。但長遠(yuǎn)看,如果真認(rèn)為 AGI 是最終目的地,當(dāng)前的你追我趕都只是階段性過程。

更重要的是,要知道自己在正確的方向上,以及要持續(xù)、長期創(chuàng)新。所以不用太糾結(jié),今天或明天,是不是比別人又多了一個身位。

晚點:阿里管理層,比如吳泳銘,他就不在意通義千問此時此刻是否優(yōu)于別人嗎?

周靖人:我們肯定要保持在第一梯隊。我們也追求每一代模型發(fā)布時,都有技術(shù)突破,能代表領(lǐng)域當(dāng)前最高水平。

同時我們也多次內(nèi)部強調(diào),這不是一個短期競爭,不是靠一時把弦繃多緊,而是要長期創(chuàng)新。整個科技發(fā)展需要定力,也希望給行業(yè)一些時間和耐心。

“沒有前期積累,此時此刻談不上以 AI 為中心”

晚點:在今年 2 月的阿里財報會議上,阿里集團(tuán)和阿里云 CEO 吳泳銘說 “阿里現(xiàn)在的首要目標(biāo)是追求 AGI,持續(xù)開發(fā)拓展智能邊界的大模型”。作為阿里大模型負(fù)責(zé)人,你是何時明確最大目標(biāo)是 AGI 的?

周靖人:今天外界聽到吳泳銘宣布了什么,感覺阿里好像突然有個大的轉(zhuǎn)變,其實不是這樣的。從技術(shù)發(fā)展規(guī)律來說,沒有前期積累不可能一蹴而就。

阿里對 AI 投入非常早,Transformer 之前,就有 iDST(阿里數(shù)據(jù)科學(xué)與技術(shù)研究院,2014 年成立)和達(dá)摩院(2017 年成立)做 AI 前沿研究。Transformer 之后,我們從 2019 年開始做多模態(tài) MoE(混合專家模型)模型,2021 年發(fā)布了萬億參數(shù)的 MoE 多模態(tài)大模型 M6。

Transformer 的核心在于預(yù)訓(xùn)練。它一開始并不帶著一個特殊的具體任務(wù),而是通過大量數(shù)據(jù)訓(xùn)練一個能適配多種任務(wù)的模型。

這是機器學(xué)習(xí)的一大突破。因為以前的模型要針對一個具體問題選擇數(shù)據(jù)、做標(biāo)注,模型能力不好遷移,往往是一個場景就要做一個模型。比如人臉識別就不好遷移到物體識別上。我們就是看中了預(yù)訓(xùn)練的泛化性,所以較早投入了這個方向。

晚點:最開始 Google 提出 Transformer 是處理 NLP(自然語言處理)問題,后來 OpenAI 做 GPT 也是先在語言上取得突破。而阿里是先重點做了多模態(tài)大模型,為什么是這樣的選擇?

周靖人:當(dāng)時我也在負(fù)責(zé)淘寶的搜索和推薦。那時我們就意識到,對一個商品的理解,不單單是理解圖片或文字描述、用戶評論和各種點擊、瀏覽數(shù)據(jù)。更精準(zhǔn)的理解應(yīng)該是一個多模態(tài)的全方位理解。

晚點:所以當(dāng)時更多是為電商場景服務(wù),還不是拓展智能邊界?

周靖人:電商是目標(biāo)場景之一。另一方面,從 AGI 的演進(jìn)邏輯看,多模態(tài)也不可或缺,AI 要能使用工具,甚至未來能在真實物理世界活動,都需要多模態(tài)能力。

這個例子也很好說明了,阿里很早就是一個技術(shù)公司。淘寶的成功,不僅是把貨賣到線上,雙十一的高并發(fā)、更精準(zhǔn)的商品推薦都需要大量技術(shù)支持。

2009 年,阿里也開始做云計算,2014 年又開始基于云做一系列 AI 平臺、數(shù)據(jù)平臺,比如 MaxCompute 等。

沒有這些前期積累,此時此刻就談不上以 AI 為中心。

晚點:從 2019 年開始做預(yù)訓(xùn)練模型到 2023 年的大模型熱潮,阿里對大模型的認(rèn)知和投入經(jīng)歷了什么變化?

周靖人:2022 年秋天 ChatGPT 發(fā)布前,阿里云最早在行業(yè)里提出了 MaaS(Model as a Service),模型即服務(wù)。那時大模型還沒火,所以大家聽起來沒什么感覺。

但當(dāng)時我們已經(jīng)看到,模型是新時代重要的生產(chǎn)元素。上一代云計算,在 IaaS (基礎(chǔ)設(shè)施即服務(wù))層是計算、存儲、網(wǎng)絡(luò)等計算元素,再往上是 PaaS (平臺即服務(wù))層的數(shù)據(jù)平臺、機器學(xué)習(xí)平臺等生產(chǎn)元素。而模型融合了數(shù)據(jù)和計算,是更高階的產(chǎn)物。這里面有一個從 IaaS 到 PaaS 再到 MaaS 的路徑。

另一個重要的動作是開源。我們做開源也很早,要追溯到 2022 年推出開源模型分享社區(qū) “魔搭”,之后在 2023 年 8 月決定開源通義千問大模型系列。當(dāng)時關(guān)注的人也不多,但今天大家已經(jīng)更清楚看到了開源的價值。

晚點:開源之于阿里是一種競爭策略嗎?比如你在微軟的前同事沈向洋曾說:第一名總是閉源,第二名才開源。

周靖人:開源成功的例子也很多,比如上一代大數(shù)據(jù)體系,開源的 Spark、Flink 成為了主流。

我們開源大模型是基于兩個判斷:一是模型會成為核心生產(chǎn)元素,開源更利于它普及,能推動整個產(chǎn)業(yè)快速發(fā)展;二是開源已成為大模型的重要創(chuàng)新驅(qū)動力。

這種創(chuàng)新來自多個方面:一是,開源能讓全球更多優(yōu)秀人才參與技術(shù)創(chuàng)新,一起推動技術(shù)發(fā)展;同時,開源會降低企業(yè)使用模型的門檻,也因為開源免費,企業(yè)可以沒有顧慮地嘗試業(yè)務(wù)集成,這也推動更多企業(yè)內(nèi)的開發(fā)者參與開源建設(shè)。所以社區(qū)開發(fā)者的技術(shù)創(chuàng)新和企業(yè)的反饋都會幫助建設(shè)技術(shù)生態(tài)、促進(jìn)技術(shù)演進(jìn)。

這是阿里做魔搭社區(qū)和開源通義千問的一貫邏輯,不是到了某個時間點才拍腦袋的決定。最初外界也不是那么理解,魔搭剛上線時默默無聞,但今天已成為中國最大的模型社區(qū)。

晚點:萬一開源沒做好,反而失去閉源的商業(yè)機會怎么辦?當(dāng)時討論開源時,阿里高層里有哪些討論和顧慮?

周靖人:你可能想聽到一些激烈討論的故事,但其實并沒有。

阿里的愿景是 “讓天下沒有難做的生意”;云的初心是讓企業(yè)能在云上高效實現(xiàn)技術(shù)和業(yè)務(wù)創(chuàng)新;開源大模型是希望企業(yè)能更容易地把大模型用到業(yè)務(wù)里。所以這 3 個愿景高度一致、一脈相承。

同時從技術(shù)發(fā)展規(guī)律看,不開源反而風(fēng)險更大,因為開源技術(shù)至少會追上閉源,甚至往往發(fā)展得更快、更強,Android、Spark 都是例子。

晚點:什么時候覺得通義千問的開源生態(tài)算是跑出來了?

周靖人:一是看開發(fā)者的選擇,去年我們占 Hugging Face 的下載量是 30% 多,基于通義千問的衍生模型數(shù)量也是最多的,已經(jīng)超過 10 萬個,這只追蹤了反饋到開發(fā)者社區(qū)的數(shù)量,實際比這要多。

二是看性能指標(biāo),比如我們之前發(fā)的 QwQ-32B 模型,在 LeCun 做的 LiveBench 上超過了 R1,是最好的開源推理模型,這還不是 QwQ 的滿血版。(注:LiveBench 從數(shù)學(xué)、推理、編程、語言理解、指令遵循和數(shù)據(jù)分析等多個復(fù)雜維度對模型進(jìn)行評估;由圖靈獎得主、Meta AI 首席科學(xué)家 Yann LeCun 領(lǐng)導(dǎo)編制。)

通義千問事實上是全世界最好、最全、使用最廣泛的開源模型,這件事市場的認(rèn)知還蠻統(tǒng)一的。

晚點:阿里通義千問系列比 Meta Llama 開源更晚,但反超了對方,Llama 的失誤是什么,或者說你們可能做對了什么?

周靖人:我們很注重開發(fā)者需求,開源不是把代碼或模型權(quán)重開出來就完了,是要真正讓開發(fā)者能用起來。

所以每次開源,從什么角度開、設(shè)哪些尺寸,都要全面權(quán)衡不同開發(fā)者在成本和能力上的不同需求。比如最近通義萬相開源了可以在消費級顯卡上跑的版本,就是為了覆蓋更廣泛的開發(fā)者,因為很多人不見得有龐大的服務(wù)器。真正的開源,是讓大家方便使用,積極貢獻(xiàn)。

晚點:這次 Qwen3 一共開源了 8 個版本,其中 6 個是稠密模型,參數(shù)從 0.6B 到 32B,2 個是 MoE(混合專家系統(tǒng))模型,一個 30B(激活 3B),一個 235B(激活 22B)。為什么是這個尺寸組合?

周靖人:其實就是盡量滿足從個人到企業(yè)的不同開發(fā)者的需求。比如手機端側(cè)可以用 4B,電腦或汽車端側(cè)推薦 8B, 32B 是企業(yè)最喜歡的尺寸,能商用大規(guī)模部署。MoE 模型只需要激活很少的參數(shù),就能獲得很強的性能,可以提供更好的性價比。

晚點:這次有開源 Infra 層的新配套工具,幫開發(fā)者更好使用 Qwen 嗎?

周靖人:Qwen3 第一時間支持了 vLLM 和 SGLang 這兩個主流的推理優(yōu)化開源框架。Qwen3 也原生支持 MCP(Model Context Protocol,由 Anthropic 開發(fā)的模型上下文協(xié)議)。配合我們今年 1 月開源的 Qwen-Agent 框架,Agent 開發(fā)者可通過 MCP 或其它方法集成工具,快速開發(fā)智能體。

晚點:想求證一個情況,有消息稱,在 DeepSeek-R1 發(fā)布后,有 20% 以上的通義千問模型開發(fā)者轉(zhuǎn)而使用 DeepSeek 模型。這種遷移對你們是多大的挑戰(zhàn)?Qwen3 能扭轉(zhuǎn)這種現(xiàn)象嗎?

周靖人:我們沒有觀察到明顯的遷移。而且開發(fā)者試用不同模型很正常,開源社區(qū)本來就不能排他,每個人會根據(jù)自身需求做選擇。我們相信,只要通義千問的模型能力持續(xù)進(jìn)步,開發(fā)者就會愿意過來。

晚點:行業(yè)內(nèi)認(rèn)為 o1 和 R1 開啟了新范式。你如何看待它們的價值?

周靖人:其實 o1 談不上定義了新范式。讓模型學(xué)會思考,它不是一個范式,而是一種能力。就像多模態(tài)也不是范式,這些都是正常的模型演進(jìn)。

o1 里的很多東西,比如 CoT(思維鏈)、強化學(xué)習(xí)(RL)很早就有。你甚至可以說 everything is RL,包括每一次模型迭代,就是在訓(xùn)新一版模型時加了上一版的反饋。

范式是一個很重的詞。過去真正可以稱得上范式變化的,我認(rèn)為是整個訓(xùn)練基礎(chǔ)模型的方法。

晚點:你覺得今年在大模型領(lǐng)域,相對確定的進(jìn)展是什么?

周靖人:有兩個主線:一是模型能力上,會繼續(xù)在類人思考和多模態(tài)上有提升;二是模型和底層云計算系統(tǒng)會更深度結(jié)合,能同時提升訓(xùn)練和推理效率,讓模型更好用、更普及。

晚點:這個過程會有什么瓶頸嗎?雖然用強化學(xué)習(xí)做推理模型被認(rèn)為有很大潛力,但其基礎(chǔ)是一個好的預(yù)訓(xùn)練模型,比如阿里的推理模型 QwQ-32B 是基于 Qwen2.5-32B,R1 是基于 DeepSeek-v3。而最近 X.ai 發(fā)布的預(yù)訓(xùn)練模型 Grok 3, 用 20 萬張卡帶來的提升只有 1.2%(在 Chatbot Arena 上比之前的第一名的總分提升)。當(dāng)預(yù)訓(xùn)練的 Scaling Laws 放緩時,在此基礎(chǔ)上做推理模型的提升還能持續(xù)多久?

周靖人:推理模型確實都依賴于強大的基座模型,這是共識。但不能簡單說預(yù)訓(xùn)練本身的 Scaling Laws 到頭了。

如果只看文本,數(shù)據(jù)的上限可以看到,但多模態(tài)數(shù)據(jù),比如大量視覺數(shù)據(jù)還沒被用到。同時,預(yù)訓(xùn)練和后訓(xùn)練乃至推理的邊界正在模糊,整合這些階段也有可能帶來提升。在學(xué)習(xí)方式上,除了離線訓(xùn)練,大家也都在探索在線學(xué)習(xí)、持續(xù)學(xué)習(xí)等。

所以,無論是看數(shù)據(jù)、訓(xùn)練方式還是學(xué)習(xí)機制,基座模型的能力都有提升空間。

“云和大模型有同樣的優(yōu)先級,要齊頭并進(jìn)”

晚點:你現(xiàn)在既是阿里云 CTO 也是通義實驗室負(fù)責(zé)人,要同時保證阿里云和通義千問大模型處于領(lǐng)先位置,兩件事的優(yōu)先級哪個更高?

周靖人:優(yōu)先級是一樣的,因為二者拆不開,模型是云服務(wù)的重要部分;模型要有高性價比,又需要云體系支持。兩方面要齊頭并進(jìn)。

晚點:如果通義千問大模型不能持續(xù)保持領(lǐng)先,對本來處于領(lǐng)先的阿里云業(yè)務(wù)是否也有不利影響?

周靖人:這是雙向影響的。如果模型不強,云的智能化服務(wù)就會打折;而如果模型足夠強、云能力跟不上,就沒法提供高性價比的服務(wù)。

在 AI 時代,客戶要的不是單一的模型或云的能力,而是強模型 + 低成本 + 高彈性的綜合體驗。

反映到技術(shù)上,過去訓(xùn)練和推理是分開考慮的,但現(xiàn)在訓(xùn)練時就要考慮推理效率,推理時也要想模型好不好訓(xùn)、能不能收斂。這是一個硬幣的兩面,要整體協(xié)同優(yōu)化。

晚點:DeepSeek 就是基于自己的 GPU 集群做了模型訓(xùn)練和推理的極致 Infra 優(yōu)化。它有可能成為第三方 AI 云玩家嗎?

周靖人:它看起來有算力、有 Infra 層、有模型,但它不構(gòu)成一個完整的云服務(wù)。

云服務(wù)要具備極致彈性并保證各種 SLA(Service Level Agreement,服務(wù)級別協(xié)議)——比如有些調(diào)用需要極低的延遲,另一些調(diào)用需要更高的吞吐和更低的成本,另外也需要穩(wěn)定安全——這才是真正的企業(yè)級云服務(wù)。不能用著用著就宕機了或突然延時很高,這樣企業(yè)無法把重要業(yè)務(wù)放上去。

晚點:當(dāng)你看到 DeepSeek Infra 開源周最后的總結(jié),稱他們基于自己算力提供 API 服務(wù)的成本利潤率達(dá)到了 545%(換算成毛利為 85%),感受是什么?

周靖人:他們的系統(tǒng)優(yōu)化的確非常出色,但這是一種理想化的計算方式。不用把它當(dāng)成云的邏輯,因為真正提供云服務(wù)時,不能在系統(tǒng)繁忙時段選擇性地服務(wù)客戶,或降低繁忙時段的服務(wù)質(zhì)量。

完整的 MaaS 服務(wù)也不會只有一個模型,而是兼容多種模型,所以阿里云一開始就支持 DeepSeek。云的邏輯是對不同模型都做好性能優(yōu)化,把選擇權(quán)留給客戶。

晚點:在新的 AI 云機會中,阿里云的競爭對手實際是誰?

周靖人:國內(nèi)我們是引領(lǐng)者,國際上的對手很多,AWS、Azure、GCP(Google 云服務(wù)) 都值得我們學(xué)習(xí)。

晚點:激進(jìn)投入 AI 云的字節(jié)火山引擎不是嗎?

周靖人:火山這幾年發(fā)展很快,我們歡迎大家一起來推動 AI 產(chǎn)業(yè)的發(fā)展。這個市場空間還很大。

晚點:阿里近期宣布了 3800 億的 AI 和云計算基礎(chǔ)設(shè)施投入計劃。不過從基礎(chǔ)層投入到應(yīng)用繁榮有一個周期,你們會擔(dān)心應(yīng)用到時對 AI 云沒這么大需求嗎?

周靖人:AI 應(yīng)用的指數(shù)級增長趨勢很明顯,過去一年阿里云 MaaS 服務(wù)增速很快,甚至到了供不應(yīng)求的狀態(tài)。

晚點:除了芯片數(shù)量、計算效率等,你覺得在 AI 基礎(chǔ)層的投入上,還有哪些被忽略的方面?

周靖人:未來供電會是一個挑戰(zhàn)。所以 energy-aware optimization(面向節(jié)能的優(yōu)化)也會成為一個技術(shù)方向,就是找到方法降低每個 token 的能耗。

晚點:阿里已經(jīng)有什么準(zhǔn)備了嗎?

周靖人:比如建設(shè)智算中心,除了根據(jù)用戶的業(yè)務(wù)需求綜合考慮建設(shè)成本和服務(wù)延時,也會考慮附近的自然能源供給、氣候條件等。這些都是云基礎(chǔ)體系的一部分,我們這么多年積累的這些 Know-How 在 AI 時代越發(fā)重要。

“科技研發(fā)沒有捷徑”

晚點:頭部大公司面對 AI 機會的共同選擇是從計算到模型層都做,從語言、推理到多模態(tài),到更前沿的自主學(xué)習(xí)等技術(shù)方向都探索。但也有人認(rèn)為 DeepSeek 那樣更聚焦的方式更能明確團(tuán)隊重點——比如 DeepSeek 之前也做多模態(tài),但去年下半年更收束到語言和推理上。對比這種更聚焦的方式,阿里多方向布局的過程中怎么解決內(nèi)部資源分配問題?

周靖人:科技創(chuàng)新本身就需要多嘗試,但也不是無厘頭地什么都試。我們會先做小規(guī)模實驗,驗證方向?qū)Σ粚?,再看是否加大投入?/p>

研發(fā)過程本身是一個 pipeline(流水線),有的方向是預(yù)研,有的在收尾,有不同節(jié)奏。今天的 AI 研發(fā)是一個從高效實驗到訓(xùn)練最后到產(chǎn)出的完整體系。

晚點:在眾多 pipeline 中,出現(xiàn)什么信號時,可以判斷這是一個有很大潛力的方向?

周靖人:你可能想聽一個大的 secret,但其實沒什么訣竅和捷徑。一般都是先有假設(shè),再做小規(guī)模實驗,得到初步的證據(jù),然后是更大規(guī)模的實驗。我們內(nèi)部有科學(xué)的評估方法和數(shù)據(jù)支持,幫助好的方向脫穎而出。這是能持續(xù)做出成績的組織的共性。

晚點:怎樣能有高質(zhì)量的假設(shè)?怎樣提升同時進(jìn)行多個實驗的效率?

周靖人:一是方向性的判斷,這來自優(yōu)秀人才的技術(shù)素質(zhì);二是科學(xué)的驗證方法,要看實驗和數(shù)據(jù)支持,不是靠一個人拍腦袋。

晚點:假如我是一名阿里通義研究人員,我有一個想法需要用 100 張卡做實驗,我如何能及時、順暢地獲得想要的資源?

周靖人:我們有快速實驗的平臺,支持用少量資源試錯。一上來就想在超大規(guī)模模型上中大獎,這是不可能的。

晚點:你們的眾多 pipeline 里,最近有哪些已有較大進(jìn)展了嗎?

周靖人:最近大家最關(guān)注的還是語言和推理。我們在多模態(tài) VL(視覺語言模型)、音頻等模型等方向都有很多積累,都在 Qwen3 上有了明顯提升。

晚點:研發(fā)的本源是人才,阿里的部分技術(shù)骨干被字節(jié)等公司高薪聘請,你們怎么應(yīng)對?

周靖人:人才流動很正常。更重要的是團(tuán)隊能堅持一個初心,一起做出出色的工作,這是凝聚力的來源。

同時現(xiàn)在模型研發(fā)不僅是模型、算法層的創(chuàng)新,而是個長期系統(tǒng)工程,要有堅定投入的耐心,今天做、明天停,對團(tuán)隊影響很大。阿里在通義千問上的投入是非常堅定的。

晚點:我們了解到,2024 年,通義給所有研究員普漲了一級職級,并全面加薪。這是對人才市場變化的回應(yīng)嗎?

周靖人:我們一直有激勵團(tuán)隊。薪酬匹配是需要的,但高薪不是唯一手段。

晚點:你 2023 年曾告訴我們,AI 時代,科研、技術(shù)、產(chǎn)品要更緊密結(jié)合,沒法像以前那樣分那么開。為什么阿里去年下半年把大模型的 2C 產(chǎn)品從阿里云分到了吳嘉管理的阿里信息智能事業(yè)群?

周靖人:這不是分開,而是更專業(yè)化。通義專注技術(shù)研發(fā),2C 產(chǎn)品團(tuán)隊專注用戶體驗和運營,分工更清晰,但協(xié)作很緊密。比如夸克也在用最新的通義千問模型。

晚點:你現(xiàn)在和吳嘉怎么配合?

周靖人:我們?nèi)粘S懻摵茴l繁。通義的重要目標(biāo)之一是支持好夸克等產(chǎn)品,這些產(chǎn)品也能給我們模型研發(fā)一些反饋。

晚點:為什么通義要自己做 Qwen Chat 這個對話產(chǎn)品?

周靖人:Qwen Chat 不會有太多產(chǎn)品設(shè)計,它更多是讓全球開發(fā)者能方便體驗通義千問的最新模型。

晚點:你很冷靜,從 AI 熱潮以來,有什么事會讓你難得的興奮嗎?

周靖人:一是技術(shù)的快速發(fā)展本身,二是我們過去的堅持能讓我們有一個好的進(jìn)展。這對每一個技術(shù)工作者來說都是非常幸運的事。

晚點:那有什么事讓你焦慮嗎?比如在你們的強項多模態(tài)上,你最初看到 Sora 時焦慮嗎?

周靖人:沒有。為什么焦慮?ChatGPT 剛出來時行業(yè)很焦慮,后來國內(nèi)模型競爭起來了,就更理智了。Sora 也是一樣,我們最近開源的視頻生成模型萬相 2.1 和 Sora 對比,外界評價也是互有勝負(fù)。

晚點:不焦慮的前提是你們保持在第一梯隊,阿里怎么知道自己一直在大模型第一梯隊?

周靖人:還是看市場反饋。自己說自己多強,意義不大。

晚點:有什么長期保持在第一梯隊的方法嗎?現(xiàn)在大家都是各領(lǐng)風(fēng)騷 30 天。

周靖人:從每個組織內(nèi)部看,今天每一代模型的提升,都是基于前一代的能力,優(yōu)勢是逐漸積累、代代疊加的。

看起來各領(lǐng)風(fēng)騷,是因為科技發(fā)展的規(guī)律就是你追我趕,大家相互啟發(fā)和學(xué)習(xí),這對研究者來說很自然。所以我也經(jīng)常和團(tuán)隊說,不用那么在意一時的流量,科技發(fā)展都是一步步來的。

題圖來源:阿里巴巴