黄片儿下载免费看,久久久久久久国产精品人,久久久中文字幕综合精品,久久国产xxx,两个人的免费视频免费看

“大模型已經(jīng)從早期階段的初期，進(jìn)入早期階段的中期，不可能只在單點能力上改進(jìn)了?！?br/>

文丨程曼祺

編輯丨宋瑋

今天（4 月 29 日）清晨，阿里巴巴更新通義千問（Qwen）系列最新一代基礎(chǔ)模型 Qwen3，并開源 8 個版本。

Qwen3 是中國的首個混合推理模型（hybird reasoning model），也是全球第一個開源的混合推理模型——即在同一個模型中融合了 “推理” 和 “非推理” 模式，能像人那樣根據(jù)不同問題選擇 “快、慢思考”。

Qwen3 旗艦?zāi)Ｐ?，MoE（混合專家模型）模型 Qwen3-235B-A22B，以 2350 億總參數(shù)、220 億激活參數(shù)，在多項主要 Benchmark（測評指標(biāo)）上超越了 6710 億總參數(shù)、370 億激活參數(shù)的 DeepSeek-R1 滿血版。更小的 MoE 模型 Qwen3-30B-A3B，使用時的激活參數(shù)僅為 30 億，不到之前 Qwen 系列純推理稠密模型 QwQ-32B 的 1/10，但效果更優(yōu)。更小參數(shù)、更好性能，意味著開發(fā)者可以用更低部署和使用成本，得到更好效果。圖片來自通義千問官方博客。（注：MoE 模型每次使用時只會激活部分參數(shù)，使用效率更高，所以有總參數(shù)、激活參數(shù)兩個參數(shù)指標(biāo)。）

Qwen3 發(fā)布前，我們訪談了阿里大模型研發(fā)一號位，阿里云 CTO 和通義實驗室負(fù)責(zé)人，周靖人。他也是阿里開源大模型的主要決策者。

迄今為止，Qwen 系列大模型已被累計下載 3 億次（綜合 Hugging Face、魔搭等社區(qū)數(shù)據(jù)）其中 2.5 億次是最近 7 個月新增的；基于 Qwen 的衍生模型數(shù)量超 10 萬個，為全球第一。

阿里開源 AI 模型，早于 ChatGPT 引爆這一輪 AI 熱潮。2022 年 11 月初，阿里上線開源模型分享平臺魔搭社區(qū)，一口氣開源了達(dá)摩院成立 5 年來研發(fā)的所有近 400 個模型。2023 年 8 月，阿里又決定開源 Qwen 系列大模型，目前已累計開源超 200 個模型。

在 2022 年底到 2023 年，開源大模型不是一個容易的選擇：開源意味著需要接受開發(fā)者和市場的反饋，也要接受各方測試，對能力要求非常高。周靖人和阿里大模型團(tuán)隊選擇接受開源的檢驗。

這之后，Qwen 僅用 1 年多在全球開源模型中后來居上：在去年 10 月，Qwen 的衍生模型數(shù)量達(dá)到 8 萬多個，超越了更早開源的 Meta Llama 系列，此后持續(xù)領(lǐng)先。

三個開源模型系列 Qwen 系列、Llama 系列、Mistral 系列的衍生模型數(shù)變化。

蘋果據(jù)傳選擇 Qwen 成為中國的大模型合作伙伴，李飛飛團(tuán)隊用 Qwen 來訓(xùn)練超低成本推理模型，通用 Agent 產(chǎn)品 Manus 調(diào)用 Qwen 來做決策規(guī)劃，DeepSeek-R1 的部分小尺寸模型也用到了 Qwen 來訓(xùn)練。

但相比在技術(shù)社區(qū)的影響力，Qwen 在泛商業(yè)界相對低調(diào)，幾次關(guān)鍵發(fā)布被 “搶頭條”。開發(fā)者調(diào)侃，Qwen 是大模型領(lǐng)域的 “汪峰”。

“這是什么意思呢 ?” 周靖人投來疑問的目光，他沒聽過這個玩笑。

周靖人戴著金絲眼鏡，語調(diào)缺乏起伏、語速也幾乎一致，平穩(wěn)有如程序。3 小時的訪談中，他講得最多的是 “技術(shù)規(guī)律”。

我們問他，怎么考慮更新和發(fā)布模型的節(jié)奏競爭？他說：

“我們無法預(yù)知別人的發(fā)布節(jié)奏。研發(fā)這件事，想臨時調(diào)節(jié)奏也調(diào)不過來，不符合研發(fā)規(guī)律?！?br/>

聊起阿里集團(tuán) CEO 吳泳銘今年 2 月說 “阿里現(xiàn)在的首要目標(biāo)是追求 AGI”，周靖人說：

“今天外界聽到吳泳銘宣布了什么，感覺阿里好像突然有個大轉(zhuǎn)變，其實不是。從技術(shù)發(fā)展規(guī)律來說，沒有前期積累不可能一蹴而就。”

開源如果做不到第一，意義將大打折扣，也可能失去閉源的商業(yè)機會。周靖人卻淡化這個選擇的壓力：

“從技術(shù)發(fā)展規(guī)律看，不開源反而風(fēng)險更大，因為開源至少會追上閉源，甚至發(fā)展得更好?！?br/>

他有一些不同于多數(shù)人的觀點，講出來時也語調(diào)平淡、不帶色彩：

“其實 o1 談不上定義了新范式。讓模型學(xué)會思考，它不是一個范式，而是一種能力?！?br/>

周靖人在 2015 年從微軟加入阿里巴巴，在 iDST 和達(dá)摩院帶過前沿技術(shù)研發(fā)，也在螞蟻、淘寶做過實際業(yè)務(wù)落地。

以下是《晚點》對周靖人的訪談，他回顧了阿里開發(fā)大模型的過程，開源的關(guān)鍵決策，和他對當(dāng)前大模型技術(shù)的思考。

“某一天的流量沒那么重要。大模型不是短期競爭”

晚點：現(xiàn)在外界對阿里有一個調(diào)侃，說你們是大模型領(lǐng)域的汪峰。

周靖人：這我不知道。什么意思呢？

晚點：指阿里的重磅發(fā)布常被 “搶了頭條”。先是春節(jié)更新基座模型 Qwen2.5-Max，被 DeepSeek 推理模型 R1 搶了風(fēng)頭；后來 3 月發(fā)布推理模型 QwQ-32B ，又趕上大火的 Agent 產(chǎn)品 Manus 同天發(fā)布。

周靖人：某一天的流量其實沒那么重要。

晚點：真正重要的是什么？

周靖人：更前瞻性地思考，更篤定地堅持自己的技術(shù)路徑和節(jié)奏。

晚點：阿里通往 AGI 的路徑是什么？

周靖人：首先，我們的一個核心認(rèn)知是，大模型發(fā)展和云體系的支撐不可分割。無論訓(xùn)練還是推理，大模型的每一次突破，表面看是模型能力演進(jìn)，背后其實是整個云計算和數(shù)據(jù)、工程平臺的全面配合和升級。

在模型能力上，大家現(xiàn)在討論最多的是推理模型。我們在繼續(xù)探索讓模型能更像人那樣去思考，未來甚至能自我反思、自我糾錯等。

多模態(tài)也是通向 AGI 的重要途徑。人的大腦也是有的部分處理文字，有的部分處理視覺、聲音。我們要讓大模型能理解并貫通各個模態(tài)。

我們也在探索新的學(xué)習(xí)機制，包括怎么能讓模型在線學(xué)習(xí)、持續(xù)學(xué)習(xí)和自學(xué)習(xí)（Self Learning）。（注：現(xiàn)在的模型訓(xùn)練是 “離線學(xué)習(xí)”，每次升級需要重新做預(yù)訓(xùn)練、更新版本。）

在提升云體系的性能和效率上，我們會加強云和模型的軟硬一體聯(lián)合優(yōu)化。尤其在今年，工程能力、整個云系統(tǒng)結(jié)合 AI 的性能和效率會變成核心競爭力。

晚點：同時做這么多事，不會失焦嗎？

周靖人：大模型發(fā)展到現(xiàn)在，已經(jīng)從早期階段的初期，進(jìn)入了早期階段的中期，不可能只在單點能力上改進(jìn)了。因為真正的通用人工智能，就是需要多模態(tài)、工具使用、Agent 支持和持續(xù)學(xué)習(xí)等多種能力，等（某個方向）跑出來再做是來不及的。不光我們，頭部公司都會在多個方向上提前預(yù)研。

晚點：剛發(fā)布的 Qwen3 體現(xiàn)了阿里在哪些方向的布局？

周靖人： Qwen3 是一個混合推理模型，它同時提供了 “推理模式” 和 “非推理模式”，前者用于復(fù)雜邏輯推理、數(shù)學(xué)和編程，后者能處理日常指令和高效對話?；旌贤评砟Ｐ徒窈笫谴竽Ｐ桶l(fā)展的重要趨勢。

晚點：為什么會成為趨勢？混合推理模型的好處是什么？

周靖人：它能更好平衡性能和成本。在 “推理模式” 下，模型會執(zhí)行分解問題、逐步推導(dǎo)、驗證等中間步驟，給出 “深思熟慮” 的答案；在 “非推理模式” 下，則可以快速遵循指令生成答案。

Qwen3 還有一個 “思考預(yù)算” 設(shè)置——開發(fā)者可以自己設(shè)定深度思考的最大 token 消耗，這能更好滿足不同開發(fā)者對性能和成本的需求。

晚點：那么這么做的代價和難點是？

周靖人：混合推理模型是通過推理和非推理的混合訓(xùn)練做到的，這需要模型學(xué)習(xí)兩種不同的輸出分布，很考驗訓(xùn)練策略。所以設(shè)計和訓(xùn)練混合推理模型，遠(yuǎn)比做單純的推理模型要難。

Qwen3 在后訓(xùn)練階段，也是兩種模式混合訓(xùn)練，相當(dāng)于合并了推理模型 QwQ 系列和指令微調(diào)模型 Qwen2.5-instruct 系列，同時將它們的優(yōu)勢并合二為一。

晚點：阿里現(xiàn)在怎么把握模型更新節(jié)奏？發(fā)布節(jié)奏和聲量也是現(xiàn)在各公司的競爭點，比如 OpenAI 有幾次更新都是趕在 Google 的重磅發(fā)布之前。

周靖人：肯定會有這方面的考慮，但最終不是靠發(fā)布時宣傳得怎么樣，最終還是看開發(fā)者和市場反饋。

再說我們也無法預(yù)知別人的發(fā)布節(jié)奏。研發(fā)這件事，想臨時調(diào)節(jié)奏也調(diào)不過來，不符合研發(fā)規(guī)律。

晚點：Qwen 系列下載量在全球僅次于 Llama，同時是衍生模型數(shù)量最多的開源模型，但市場對此認(rèn)知不夠，這會讓阿里困擾嗎？你們想了什么方法來增加技術(shù)影響力？

周靖人：其實通義千問的傳播是不錯的。核心還是在于開源的模型要足夠強，否則其他方式都沒什么用。

晚點：通義千問何時會有一個真正出圈的、讓更多人 eye-opening 的進(jìn)展？類似 Sora、DeepSeek-R1 曾引起的關(guān)注。

周靖人：通義千問接下來會有很多亮點，但能否讓大家 eye-opening，這要看大家。我覺得有時我們太關(guān)注此時此刻，誰又比誰強一點點。但長遠(yuǎn)看，如果真認(rèn)為 AGI 是最終目的地，當(dāng)前的你追我趕都只是階段性過程。

更重要的是，要知道自己在正確的方向上，以及要持續(xù)、長期創(chuàng)新。所以不用太糾結(jié)，今天或明天，是不是比別人又多了一個身位。

晚點：阿里管理層，比如吳泳銘，他就不在意通義千問此時此刻是否優(yōu)于別人嗎？

周靖人：我們肯定要保持在第一梯隊。我們也追求每一代模型發(fā)布時，都有技術(shù)突破，能代表領(lǐng)域當(dāng)前最高水平。

同時我們也多次內(nèi)部強調(diào)，這不是一個短期競爭，不是靠一時把弦繃多緊，而是要長期創(chuàng)新。整個科技發(fā)展需要定力，也希望給行業(yè)一些時間和耐心。

“沒有前期積累，此時此刻談不上以 AI 為中心”

晚點：在今年 2 月的阿里財報會議上，阿里集團(tuán)和阿里云 CEO 吳泳銘說 “阿里現(xiàn)在的首要目標(biāo)是追求 AGI，持續(xù)開發(fā)拓展智能邊界的大模型”。作為阿里大模型負(fù)責(zé)人，你是何時明確最大目標(biāo)是 AGI 的？

周靖人：今天外界聽到吳泳銘宣布了什么，感覺阿里好像突然有個大的轉(zhuǎn)變，其實不是這樣的。從技術(shù)發(fā)展規(guī)律來說，沒有前期積累不可能一蹴而就。

阿里對 AI 投入非常早，Transformer 之前，就有 iDST（阿里數(shù)據(jù)科學(xué)與技術(shù)研究院，2014 年成立）和達(dá)摩院（2017 年成立）做 AI 前沿研究。Transformer 之后，我們從 2019 年開始做多模態(tài) MoE（混合專家模型）模型，2021 年發(fā)布了萬億參數(shù)的 MoE 多模態(tài)大模型 M6。

Transformer 的核心在于預(yù)訓(xùn)練。它一開始并不帶著一個特殊的具體任務(wù)，而是通過大量數(shù)據(jù)訓(xùn)練一個能適配多種任務(wù)的模型。

這是機器學(xué)習(xí)的一大突破。因為以前的模型要針對一個具體問題選擇數(shù)據(jù)、做標(biāo)注，模型能力不好遷移，往往是一個場景就要做一個模型。比如人臉識別就不好遷移到物體識別上。我們就是看中了預(yù)訓(xùn)練的泛化性，所以較早投入了這個方向。

晚點：最開始 Google 提出 Transformer 是處理 NLP（自然語言處理）問題，后來 OpenAI 做 GPT 也是先在語言上取得突破。而阿里是先重點做了多模態(tài)大模型，為什么是這樣的選擇？

周靖人：當(dāng)時我也在負(fù)責(zé)淘寶的搜索和推薦。那時我們就意識到，對一個商品的理解，不單單是理解圖片或文字描述、用戶評論和各種點擊、瀏覽數(shù)據(jù)。更精準(zhǔn)的理解應(yīng)該是一個多模態(tài)的全方位理解。

晚點：所以當(dāng)時更多是為電商場景服務(wù)，還不是拓展智能邊界？

周靖人：電商是目標(biāo)場景之一。另一方面，從 AGI 的演進(jìn)邏輯看，多模態(tài)也不可或缺，AI 要能使用工具，甚至未來能在真實物理世界活動，都需要多模態(tài)能力。

這個例子也很好說明了，阿里很早就是一個技術(shù)公司。淘寶的成功，不僅是把貨賣到線上，雙十一的高并發(fā)、更精準(zhǔn)的商品推薦都需要大量技術(shù)支持。

2009 年，阿里也開始做云計算，2014 年又開始基于云做一系列 AI 平臺、數(shù)據(jù)平臺，比如 MaxCompute 等。

沒有這些前期積累，此時此刻就談不上以 AI 為中心。

晚點：從 2019 年開始做預(yù)訓(xùn)練模型到 2023 年的大模型熱潮，阿里對大模型的認(rèn)知和投入經(jīng)歷了什么變化？

周靖人：2022 年秋天 ChatGPT 發(fā)布前，阿里云最早在行業(yè)里提出了 MaaS（Model as a Service），模型即服務(wù)。那時大模型還沒火，所以大家聽起來沒什么感覺。

但當(dāng)時我們已經(jīng)看到，模型是新時代重要的生產(chǎn)元素。上一代云計算，在 IaaS （基礎(chǔ)設(shè)施即服務(wù)）層是計算、存儲、網(wǎng)絡(luò)等計算元素，再往上是 PaaS （平臺即服務(wù)）層的數(shù)據(jù)平臺、機器學(xué)習(xí)平臺等生產(chǎn)元素。而模型融合了數(shù)據(jù)和計算，是更高階的產(chǎn)物。這里面有一個從 IaaS 到 PaaS 再到 MaaS 的路徑。

另一個重要的動作是開源。我們做開源也很早，要追溯到 2022 年推出開源模型分享社區(qū) “魔搭”，之后在 2023 年 8 月決定開源通義千問大模型系列。當(dāng)時關(guān)注的人也不多，但今天大家已經(jīng)更清楚看到了開源的價值。

晚點：開源之于阿里是一種競爭策略嗎？比如你在微軟的前同事沈向洋曾說：第一名總是閉源，第二名才開源。

周靖人：開源成功的例子也很多，比如上一代大數(shù)據(jù)體系，開源的 Spark、Flink 成為了主流。

我們開源大模型是基于兩個判斷：一是模型會成為核心生產(chǎn)元素，開源更利于它普及，能推動整個產(chǎn)業(yè)快速發(fā)展；二是開源已成為大模型的重要創(chuàng)新驅(qū)動力。

這種創(chuàng)新來自多個方面：一是，開源能讓全球更多優(yōu)秀人才參與技術(shù)創(chuàng)新，一起推動技術(shù)發(fā)展；同時，開源會降低企業(yè)使用模型的門檻，也因為開源免費，企業(yè)可以沒有顧慮地嘗試業(yè)務(wù)集成，這也推動更多企業(yè)內(nèi)的開發(fā)者參與開源建設(shè)。所以社區(qū)開發(fā)者的技術(shù)創(chuàng)新和企業(yè)的反饋都會幫助建設(shè)技術(shù)生態(tài)、促進(jìn)技術(shù)演進(jìn)。

這是阿里做魔搭社區(qū)和開源通義千問的一貫邏輯，不是到了某個時間點才拍腦袋的決定。最初外界也不是那么理解，魔搭剛上線時默默無聞，但今天已成為中國最大的模型社區(qū)。

晚點：萬一開源沒做好，反而失去閉源的商業(yè)機會怎么辦？當(dāng)時討論開源時，阿里高層里有哪些討論和顧慮？

周靖人：你可能想聽到一些激烈討論的故事，但其實并沒有。

阿里的愿景是 “讓天下沒有難做的生意”；云的初心是讓企業(yè)能在云上高效實現(xiàn)技術(shù)和業(yè)務(wù)創(chuàng)新；開源大模型是希望企業(yè)能更容易地把大模型用到業(yè)務(wù)里。所以這 3 個愿景高度一致、一脈相承。

同時從技術(shù)發(fā)展規(guī)律看，不開源反而風(fēng)險更大，因為開源技術(shù)至少會追上閉源，甚至往往發(fā)展得更快、更強，Android、Spark 都是例子。

晚點：什么時候覺得通義千問的開源生態(tài)算是跑出來了？

周靖人：一是看開發(fā)者的選擇，去年我們占 Hugging Face 的下載量是 30% 多，基于通義千問的衍生模型數(shù)量也是最多的，已經(jīng)超過 10 萬個，這只追蹤了反饋到開發(fā)者社區(qū)的數(shù)量，實際比這要多。

二是看性能指標(biāo)，比如我們之前發(fā)的 QwQ-32B 模型，在 LeCun 做的 LiveBench 上超過了 R1，是最好的開源推理模型，這還不是 QwQ 的滿血版。（注：LiveBench 從數(shù)學(xué)、推理、編程、語言理解、指令遵循和數(shù)據(jù)分析等多個復(fù)雜維度對模型進(jìn)行評估；由圖靈獎得主、Meta AI 首席科學(xué)家 Yann LeCun 領(lǐng)導(dǎo)編制。）

通義千問事實上是全世界最好、最全、使用最廣泛的開源模型，這件事市場的認(rèn)知還蠻統(tǒng)一的。

晚點：阿里通義千問系列比 Meta Llama 開源更晚，但反超了對方，Llama 的失誤是什么，或者說你們可能做對了什么？

周靖人：我們很注重開發(fā)者需求，開源不是把代碼或模型權(quán)重開出來就完了，是要真正讓開發(fā)者能用起來。

所以每次開源，從什么角度開、設(shè)哪些尺寸，都要全面權(quán)衡不同開發(fā)者在成本和能力上的不同需求。比如最近通義萬相開源了可以在消費級顯卡上跑的版本，就是為了覆蓋更廣泛的開發(fā)者，因為很多人不見得有龐大的服務(wù)器。真正的開源，是讓大家方便使用，積極貢獻(xiàn)。

晚點：這次 Qwen3 一共開源了 8 個版本，其中 6 個是稠密模型，參數(shù)從 0.6B 到 32B，2 個是 MoE（混合專家系統(tǒng)）模型，一個 30B（激活 3B），一個 235B（激活 22B）。為什么是這個尺寸組合？

周靖人：其實就是盡量滿足從個人到企業(yè)的不同開發(fā)者的需求。比如手機端側(cè)可以用 4B，電腦或汽車端側(cè)推薦 8B， 32B 是企業(yè)最喜歡的尺寸，能商用大規(guī)模部署。MoE 模型只需要激活很少的參數(shù)，就能獲得很強的性能，可以提供更好的性價比。

晚點：這次有開源 Infra 層的新配套工具，幫開發(fā)者更好使用 Qwen 嗎？

周靖人：Qwen3 第一時間支持了 vLLM 和 SGLang 這兩個主流的推理優(yōu)化開源框架。Qwen3 也原生支持 MCP（Model Context Protocol，由 Anthropic 開發(fā)的模型上下文協(xié)議）。配合我們今年 1 月開源的 Qwen-Agent 框架，Agent 開發(fā)者可通過 MCP 或其它方法集成工具，快速開發(fā)智能體。

晚點：想求證一個情況，有消息稱，在 DeepSeek-R1 發(fā)布后，有 20% 以上的通義千問模型開發(fā)者轉(zhuǎn)而使用 DeepSeek 模型。這種遷移對你們是多大的挑戰(zhàn)？Qwen3 能扭轉(zhuǎn)這種現(xiàn)象嗎？

周靖人：我們沒有觀察到明顯的遷移。而且開發(fā)者試用不同模型很正常，開源社區(qū)本來就不能排他，每個人會根據(jù)自身需求做選擇。我們相信，只要通義千問的模型能力持續(xù)進(jìn)步，開發(fā)者就會愿意過來。

晚點：行業(yè)內(nèi)認(rèn)為 o1 和 R1 開啟了新范式。你如何看待它們的價值？

周靖人：其實 o1 談不上定義了新范式。讓模型學(xué)會思考，它不是一個范式，而是一種能力。就像多模態(tài)也不是范式，這些都是正常的模型演進(jìn)。

o1 里的很多東西，比如 CoT（思維鏈）、強化學(xué)習(xí)（RL）很早就有。你甚至可以說 everything is RL，包括每一次模型迭代，就是在訓(xùn)新一版模型時加了上一版的反饋。

范式是一個很重的詞。過去真正可以稱得上范式變化的，我認(rèn)為是整個訓(xùn)練基礎(chǔ)模型的方法。

晚點：你覺得今年在大模型領(lǐng)域，相對確定的進(jìn)展是什么？

周靖人：有兩個主線：一是模型能力上，會繼續(xù)在類人思考和多模態(tài)上有提升；二是模型和底層云計算系統(tǒng)會更深度結(jié)合，能同時提升訓(xùn)練和推理效率，讓模型更好用、更普及。

晚點：這個過程會有什么瓶頸嗎？雖然用強化學(xué)習(xí)做推理模型被認(rèn)為有很大潛力，但其基礎(chǔ)是一個好的預(yù)訓(xùn)練模型，比如阿里的推理模型 QwQ-32B 是基于 Qwen2.5-32B，R1 是基于 DeepSeek-v3。而最近 X.ai 發(fā)布的預(yù)訓(xùn)練模型 Grok 3，用 20 萬張卡帶來的提升只有 1.2%（在 Chatbot Arena 上比之前的第一名的總分提升）。當(dāng)預(yù)訓(xùn)練的 Scaling Laws 放緩時，在此基礎(chǔ)上做推理模型的提升還能持續(xù)多久？

周靖人：推理模型確實都依賴于強大的基座模型，這是共識。但不能簡單說預(yù)訓(xùn)練本身的 Scaling Laws 到頭了。

如果只看文本，數(shù)據(jù)的上限可以看到，但多模態(tài)數(shù)據(jù)，比如大量視覺數(shù)據(jù)還沒被用到。同時，預(yù)訓(xùn)練和后訓(xùn)練乃至推理的邊界正在模糊，整合這些階段也有可能帶來提升。在學(xué)習(xí)方式上，除了離線訓(xùn)練，大家也都在探索在線學(xué)習(xí)、持續(xù)學(xué)習(xí)等。

所以，無論是看數(shù)據(jù)、訓(xùn)練方式還是學(xué)習(xí)機制，基座模型的能力都有提升空間。

“云和大模型有同樣的優(yōu)先級，要齊頭并進(jìn)”

晚點：你現(xiàn)在既是阿里云 CTO 也是通義實驗室負(fù)責(zé)人，要同時保證阿里云和通義千問大模型處于領(lǐng)先位置，兩件事的優(yōu)先級哪個更高？

周靖人：優(yōu)先級是一樣的，因為二者拆不開，模型是云服務(wù)的重要部分；模型要有高性價比，又需要云體系支持。兩方面要齊頭并進(jìn)。

晚點：如果通義千問大模型不能持續(xù)保持領(lǐng)先，對本來處于領(lǐng)先的阿里云業(yè)務(wù)是否也有不利影響？

周靖人：這是雙向影響的。如果模型不強，云的智能化服務(wù)就會打折；而如果模型足夠強、云能力跟不上，就沒法提供高性價比的服務(wù)。

在 AI 時代，客戶要的不是單一的模型或云的能力，而是強模型 + 低成本 + 高彈性的綜合體驗。

反映到技術(shù)上，過去訓(xùn)練和推理是分開考慮的，但現(xiàn)在訓(xùn)練時就要考慮推理效率，推理時也要想模型好不好訓(xùn)、能不能收斂。這是一個硬幣的兩面，要整體協(xié)同優(yōu)化。

晚點：DeepSeek 就是基于自己的 GPU 集群做了模型訓(xùn)練和推理的極致 Infra 優(yōu)化。它有可能成為第三方 AI 云玩家嗎？

周靖人：它看起來有算力、有 Infra 層、有模型，但它不構(gòu)成一個完整的云服務(wù)。

云服務(wù)要具備極致彈性并保證各種 SLA（Service Level Agreement，服務(wù)級別協(xié)議）——比如有些調(diào)用需要極低的延遲，另一些調(diào)用需要更高的吞吐和更低的成本，另外也需要穩(wěn)定安全——這才是真正的企業(yè)級云服務(wù)。不能用著用著就宕機了或突然延時很高，這樣企業(yè)無法把重要業(yè)務(wù)放上去。

晚點：當(dāng)你看到 DeepSeek Infra 開源周最后的總結(jié)，稱他們基于自己算力提供 API 服務(wù)的成本利潤率達(dá)到了 545%（換算成毛利為 85%），感受是什么？

周靖人：他們的系統(tǒng)優(yōu)化的確非常出色，但這是一種理想化的計算方式。不用把它當(dāng)成云的邏輯，因為真正提供云服務(wù)時，不能在系統(tǒng)繁忙時段選擇性地服務(wù)客戶，或降低繁忙時段的服務(wù)質(zhì)量。

完整的 MaaS 服務(wù)也不會只有一個模型，而是兼容多種模型，所以阿里云一開始就支持 DeepSeek。云的邏輯是對不同模型都做好性能優(yōu)化，把選擇權(quán)留給客戶。

晚點：在新的 AI 云機會中，阿里云的競爭對手實際是誰？

周靖人：國內(nèi)我們是引領(lǐng)者，國際上的對手很多，AWS、Azure、GCP（Google 云服務(wù)）都值得我們學(xué)習(xí)。

晚點：激進(jìn)投入 AI 云的字節(jié)火山引擎不是嗎？

周靖人：火山這幾年發(fā)展很快，我們歡迎大家一起來推動 AI 產(chǎn)業(yè)的發(fā)展。這個市場空間還很大。

晚點：阿里近期宣布了 3800 億的 AI 和云計算基礎(chǔ)設(shè)施投入計劃。不過從基礎(chǔ)層投入到應(yīng)用繁榮有一個周期，你們會擔(dān)心應(yīng)用到時對 AI 云沒這么大需求嗎？

周靖人：AI 應(yīng)用的指數(shù)級增長趨勢很明顯，過去一年阿里云 MaaS 服務(wù)增速很快，甚至到了供不應(yīng)求的狀態(tài)。

晚點：除了芯片數(shù)量、計算效率等，你覺得在 AI 基礎(chǔ)層的投入上，還有哪些被忽略的方面？

周靖人：未來供電會是一個挑戰(zhàn)。所以 energy-aware optimization（面向節(jié)能的優(yōu)化）也會成為一個技術(shù)方向，就是找到方法降低每個 token 的能耗。

晚點：阿里已經(jīng)有什么準(zhǔn)備了嗎？

周靖人：比如建設(shè)智算中心，除了根據(jù)用戶的業(yè)務(wù)需求綜合考慮建設(shè)成本和服務(wù)延時，也會考慮附近的自然能源供給、氣候條件等。這些都是云基礎(chǔ)體系的一部分，我們這么多年積累的這些 Know-How 在 AI 時代越發(fā)重要。

“科技研發(fā)沒有捷徑”

晚點：頭部大公司面對 AI 機會的共同選擇是從計算到模型層都做，從語言、推理到多模態(tài)，到更前沿的自主學(xué)習(xí)等技術(shù)方向都探索。但也有人認(rèn)為 DeepSeek 那樣更聚焦的方式更能明確團(tuán)隊重點——比如 DeepSeek 之前也做多模態(tài)，但去年下半年更收束到語言和推理上。對比這種更聚焦的方式，阿里多方向布局的過程中怎么解決內(nèi)部資源分配問題？

周靖人：科技創(chuàng)新本身就需要多嘗試，但也不是無厘頭地什么都試。我們會先做小規(guī)模實驗，驗證方向?qū)Σ粚?，再看是否加大投入?/p>

研發(fā)過程本身是一個 pipeline（流水線），有的方向是預(yù)研，有的在收尾，有不同節(jié)奏。今天的 AI 研發(fā)是一個從高效實驗到訓(xùn)練最后到產(chǎn)出的完整體系。

晚點：在眾多 pipeline 中，出現(xiàn)什么信號時，可以判斷這是一個有很大潛力的方向？

周靖人：你可能想聽一個大的 secret，但其實沒什么訣竅和捷徑。一般都是先有假設(shè)，再做小規(guī)模實驗，得到初步的證據(jù)，然后是更大規(guī)模的實驗。我們內(nèi)部有科學(xué)的評估方法和數(shù)據(jù)支持，幫助好的方向脫穎而出。這是能持續(xù)做出成績的組織的共性。

晚點：怎樣能有高質(zhì)量的假設(shè)？怎樣提升同時進(jìn)行多個實驗的效率？

周靖人：一是方向性的判斷，這來自優(yōu)秀人才的技術(shù)素質(zhì)；二是科學(xué)的驗證方法，要看實驗和數(shù)據(jù)支持，不是靠一個人拍腦袋。

晚點：假如我是一名阿里通義研究人員，我有一個想法需要用 100 張卡做實驗，我如何能及時、順暢地獲得想要的資源？

周靖人：我們有快速實驗的平臺，支持用少量資源試錯。一上來就想在超大規(guī)模模型上中大獎，這是不可能的。

晚點：你們的眾多 pipeline 里，最近有哪些已有較大進(jìn)展了嗎？

周靖人：最近大家最關(guān)注的還是語言和推理。我們在多模態(tài) VL（視覺語言模型）、音頻等模型等方向都有很多積累，都在 Qwen3 上有了明顯提升。

晚點：研發(fā)的本源是人才，阿里的部分技術(shù)骨干被字節(jié)等公司高薪聘請，你們怎么應(yīng)對？

周靖人：人才流動很正常。更重要的是團(tuán)隊能堅持一個初心，一起做出出色的工作，這是凝聚力的來源。

同時現(xiàn)在模型研發(fā)不僅是模型、算法層的創(chuàng)新，而是個長期系統(tǒng)工程，要有堅定投入的耐心，今天做、明天停，對團(tuán)隊影響很大。阿里在通義千問上的投入是非常堅定的。

晚點：我們了解到，2024 年，通義給所有研究員普漲了一級職級，并全面加薪。這是對人才市場變化的回應(yīng)嗎？

周靖人：我們一直有激勵團(tuán)隊。薪酬匹配是需要的，但高薪不是唯一手段。

晚點：你 2023 年曾告訴我們，AI 時代，科研、技術(shù)、產(chǎn)品要更緊密結(jié)合，沒法像以前那樣分那么開。為什么阿里去年下半年把大模型的 2C 產(chǎn)品從阿里云分到了吳嘉管理的阿里信息智能事業(yè)群？