打開網(wǎng)易新聞 查看精彩圖片

市場開始關(guān)注DeepSeek如何影響英偉達(dá)估值時,英國《金融時報》發(fā)表了一篇評論認(rèn)為,對于DeepSeek的成功,市場更應(yīng)該擔(dān)心的是:這意味著中國已經(jīng)掌握了“改善”的藝術(shù)。

什么是“改善”?

這是一個來源于日本的概念:Kaizen(改善的日文發(fā)音),大致涵蓋了模仿、優(yōu)化流程、生產(chǎn)物美價廉的產(chǎn)品。Kaizen被認(rèn)為是豐田生產(chǎn)方式的核心之一,在中國汽車行業(yè)也曾備受推崇,比如長城汽車的座右銘就是,每天進(jìn)步一點(diǎn)點(diǎn)。

在歐美研究者看來,Kaizen是日本在1970年代和80年代經(jīng)濟(jì)起飛,成為超級大國的主要原因之一。這是一個先發(fā)國家,或者說所有市場霸主很容易認(rèn)可的邏輯:后來者,可以通過在原有產(chǎn)品、技術(shù)的基礎(chǔ)上加以優(yōu)化改善,打敗先行者。

正是沿著這個路線,日本公司在汽車、消費(fèi)電子和半導(dǎo)體等行業(yè)從技術(shù)和質(zhì)量上擊敗了歐美傳統(tǒng)巨頭。

用這個詞來描述當(dāng)下的中國AI行業(yè),這背后代表了一種混雜的態(tài)度,既有對于DeepSeek“創(chuàng)新含量”的質(zhì)疑,也有對中國工程師團(tuán)隊能夠在最尖端行業(yè)平推工藝優(yōu)化迭代的驚嘆。但相較于美國人一驚一乍的“Sputnik”,《金融時報》多了一份旁觀者的冷靜。

或許在這一段DS熱潮稍息之際,我們可以有余??匆幌赂诵牡膯栴}:中國以什么體系、路徑,誕生了DeepSeek這樣的現(xiàn)象級創(chuàng)新。DeepSeek路徑,能否泛化為中國路徑?

01、一個典型的中國式“改善”

01、一個典型的中國式“改善”

兩周前,字節(jié)發(fā)布了視頻生成模型OmniHuman,用戶僅需輸入一張圖片和一段音頻,就可以生成一條AI視頻。

你可以讓愛因斯坦成為物理名師課堂的講師,讓泰勒·斯威夫特唱中文神曲。這比之前的做對口型視頻的流程更簡單,效果也非常真實(shí)。

打開網(wǎng)易新聞 查看精彩圖片

OmniHuman可以生成光線、質(zhì)感、細(xì)節(jié)相對應(yīng)的,任意圖像比例、任意人物比例的視頻。

一位國內(nèi)大模型廠商從業(yè)者認(rèn)為,OmniHuman屬于一種AI口播類產(chǎn)品,沒有什么創(chuàng)新之處,功能都不是全新的,但他也承認(rèn)是在AI口播這個垂直領(lǐng)域,OmniHuman還是非常實(shí)用。

“AI口播的核心功能是要素替換,而不是內(nèi)容創(chuàng)造”。這是一個很窄的領(lǐng)域,因此OmniHuman發(fā)布后,沒有像可靈那樣吸引來廣泛關(guān)注。

打開網(wǎng)易新聞 查看精彩圖片

OmniHuman可以適配不同畫風(fēng),生成以前做不出來的姿勢,來適配人物。

由于我們最近一直在找最簡單的數(shù)字人方案來做視頻,這個大模型還是一下就吸引了我的注意,因為它確實(shí)用戶友好,如果再搭配剪映加上字幕,就很容易實(shí)現(xiàn)讓AI替我們念稿子的想法。

本質(zhì)上,OmniHuman這個“傻瓜級”視頻生成模型,是一個垂直模型。把原本更垂直的面部動畫模型和姿勢調(diào)節(jié)模型,合并成了更有適用性的數(shù)字人動畫模型。

它的長處在于,給定一個基礎(chǔ)人像,讓它按照語音/視頻的指令一邊演講/唱歌,一邊身體自然律動,效果無比出色(參考演示視頻效果)。至于從無到有的內(nèi)容創(chuàng)造,對不起,不是我的專業(yè)。

而它之所以能做到小賽道的高分(據(jù)OmniHuman論文數(shù)據(jù)),答案其實(shí)并不復(fù)雜。那就是針對單一目標(biāo),做極致的工程學(xué)優(yōu)化。

據(jù)OmniHuman的論文,原本更垂直的數(shù)字人模型(如主播類),大多專注口型,為求精確,往往需要過濾裁剪大量與面部表情無關(guān)的訓(xùn)練數(shù)據(jù)。而OmniHuman,從原本被浪費(fèi)的數(shù)據(jù)中,提煉出有價值的運(yùn)動模式,驅(qū)動面部表情的同時,也驅(qū)動身體姿勢,使生成的形象更自然靈動。

這是一款中國AI產(chǎn)業(yè)“應(yīng)用”思維下誕生的典型產(chǎn)品。

如果在基礎(chǔ)研究上沒有足夠能力,或短時間內(nèi)大模型的能力無法顯著突破,又或大模型本身的商業(yè)化遙遙無期,那么用已有技術(shù)打磨出一個好用的應(yīng)用,是商業(yè)公司的最優(yōu)解。

事實(shí)上,字節(jié)的AI產(chǎn)品覆蓋相當(dāng)全面,在AI視頻生成這個方向上,我們甚至看到豆包和剪映兩個團(tuán)隊在賽馬,在OmniHuman發(fā)布前,豆包也發(fā)布了一款視頻生成產(chǎn)品。

這某種程度上而言,算是原本意義上的“Kaizen”的實(shí)踐。

Kaizen的核心,就是在原有產(chǎn)品基礎(chǔ)上去追求極致,無論是單點(diǎn)的優(yōu)化,還是整個系統(tǒng)的再降本增效。

但“Kaizen”的壁壘能維持多久,是一個問題。比如,過去幾周,一個經(jīng)常被拿來對比的產(chǎn)品是豆包:就在豆包好不容易有了近千萬的DAU,成了國內(nèi)排名第一的AI產(chǎn)品時,DeepSeek R1發(fā)布了,上線僅20天DAU超過2000萬。

這可能也是這一領(lǐng)域的獨(dú)特風(fēng)險。大模型的進(jìn)步曲線十分陡峭,不像互聯(lián)網(wǎng)產(chǎn)品或者是傳統(tǒng)制造業(yè)已經(jīng)平緩。雖然中國互聯(lián)網(wǎng)企業(yè)在AI應(yīng)用打造上更有優(yōu)勢,但AI技術(shù)目前仍在發(fā)展中。我們看到的產(chǎn)品仍然都是是階段性的,也就很難形成絕對壁壘,無論對于open AI還是豆包。

而DeepSeek,則是在最前沿的方向,把Kaizen做到了極致。

02、共同的秘訣

02、共同的秘訣

來自東方的神秘力量——“工程科學(xué)”,不僅出現(xiàn)在OmniHuman這個小模型中,更在整個AI產(chǎn)業(yè)中涌現(xiàn),產(chǎn)生效果。揭開今年科技圈春晚序幕的DeepSeek,是這方面的佼佼者。

DeepSeek最讓人矚目的要數(shù)兩點(diǎn),一是極致的性價比,二是優(yōu)越的模型表現(xiàn)。

而這兩點(diǎn)的實(shí)現(xiàn),來自DeepSeek高密度、一環(huán)扣一環(huán)的工程創(chuàng)新。

很多讀者可能已經(jīng)遺忘了,去年拉開大模型價格戰(zhàn)不是大廠,而是幻方。當(dāng)時它發(fā)布了DeepSeek-v2,帶來全方位的推理成本下降,能夠在盈利的基礎(chǔ)上進(jìn)行降價。而年末發(fā)布的DeepSeek-v3,進(jìn)一步進(jìn)行了工程上的創(chuàng)新優(yōu)化。

最值得稱道的工程創(chuàng)新,是模型架構(gòu)層面的。

新的混合專家系統(tǒng)(Mixure of Experts,MoE)架構(gòu),作為一個更精細(xì)的任務(wù)“分診臺”,只激活少量合適的專家,從而在推理過程中減少參數(shù)量,提升效率。

也有算法層面的,新的多頭潛在注意力機(jī)制(Multi-Head Latent Attention,MLA),把加載上下文的顯存占用,降到了常見架構(gòu)的5%-13%,顯著降低了推理成本。這來自于DeepSeek一個年輕研究員的個人靈感,最終被團(tuán)隊落地,實(shí)現(xiàn)了極其罕見、有魄力的Attention架構(gòu)創(chuàng)新。

此外,還有幾乎無人工干預(yù)的強(qiáng)化學(xué)習(xí)(RL)。尤其是DeepSeek-R1-Zero模型,僅靠簡單的獎懲信號來優(yōu)化模型行為,純RL。而這個過程中,R1-Zero自發(fā)獲得了優(yōu)化推理的能力,在推理過程中產(chǎn)生了令人激動的“頓悟時刻”(Aha Moment)。這是GPT-o1隱藏的秘密和壁壘,DeepSeek自己攻破了這個謎題。

打開網(wǎng)易新聞 查看精彩圖片

(論文記錄了一個案例,R1-Zero在數(shù)學(xué)推理的過程中,突然停下,"Wait, wait. Wait. That's an aha moment I can flag here",而后重新審視了自己的解題思路。研究團(tuán)隊也將這視為RL能力的彰顯。)

當(dāng)然還有一系列針對數(shù)據(jù)壓縮、數(shù)據(jù)處理流程、芯片帶寬通信調(diào)度等等的細(xì)節(jié)創(chuàng)新優(yōu)化。

(來自騰訊科技)
打開網(wǎng)易新聞 查看精彩圖片
(來自騰訊科技)

這就進(jìn)入到一些爭議環(huán)節(jié)了。

以FutureLabs首席專家胡延平為代表的一些人認(rèn)為,DeepSeek的亮點(diǎn),按實(shí)際價值其實(shí)依次是強(qiáng)化學(xué)習(xí)、混合專家模型MoE、知識與模型蒸餾、多頭注意力、多Token預(yù)測、混合精度訓(xùn)練和PTX等。盡管其中沒有一項是DeepSeek自己完全原創(chuàng)、獨(dú)創(chuàng)的,但是DeepSeek成功地進(jìn)行了非常系統(tǒng)的再創(chuàng)新。

那么,這實(shí)際上是最經(jīng)典的“改善”邏輯——博采眾長,從而實(shí)現(xiàn)效率最大化。

也有一些人,尤其是在閱讀了DeepSeek的多份論文后,發(fā)出了“低成本高效率”之外的另一種的感嘆——這不是單點(diǎn)的巧思,而是一整個系統(tǒng)的創(chuàng)新。

比如,在R1發(fā)布前,Perplexity CEO Aravind Srinivas對V3評價已經(jīng)非常高,他在接受CNBC專訪時稱,MoE非常難訓(xùn)練,有準(zhǔn)確度的8位浮點(diǎn)訓(xùn)練很難做到,在美國并不常見。

通常的認(rèn)知是中國人擅長復(fù)制,如果美國人停止發(fā)表論文,他們就趕不上?!暗F(xiàn)實(shí)是,DeepSeek-V3中一些細(xì)節(jié)非常出色,我甚至不會驚訝Meta會借鑒并應(yīng)用到Llama中。他們不是在復(fù)制,而是在創(chuàng)新?!?/strong>

VC機(jī)構(gòu)Benchmark合伙人Chetan Puttagunta讀了V3的論文,他認(rèn)為DeepSeek團(tuán)隊貢獻(xiàn)了一些在算法方面真正的創(chuàng)新,某種程度上是世界領(lǐng)先水平的創(chuàng)新。

打開網(wǎng)易新聞 查看精彩圖片

公允地說,DeepSeek沒有做出Transformer模型之外的底層創(chuàng)新——像楊立昆(Yann LeCun)所說的大語言模型之外的世界模型,但在Transformer領(lǐng)域內(nèi),DeepSeek做出了有突破價值的工程學(xué)創(chuàng)新,從而讓Transformer模型更強(qiáng)大了。

本質(zhì)上,它做的正是GPT3做的事。

在AI領(lǐng)域,工程創(chuàng)新,跟最前沿的理論創(chuàng)新,并不是孤立存在的。它們往往是并行的,互相驗證,互相啟發(fā)。規(guī)模效應(yīng)、工程本身會帶來意外的aha moment,從而推動理論、模型創(chuàng)新進(jìn)入新的階段。

在R1發(fā)布后,據(jù)DeepSeek團(tuán)隊研究員Daya Guo稱,R1-Zero的性能曲線還在“不斷上升”,真切感受到RL的威力。

梁文鋒最近又新發(fā)了署名論文,又提出了一個新的Attention模型——NSA(Native Sparse Attention),相較于其之前的MLA模型,提升推理效率的同時,能更好地模擬人類對長文本的理解方式。

打開網(wǎng)易新聞 查看精彩圖片

要求大算力的預(yù)訓(xùn)練階段比拼,競爭強(qiáng)度下降。而在RL這個想象空間巨大的領(lǐng)域,中國的AI企業(yè)正在迅速追趕Open AI。

03、“Kaizen”的極致階段,創(chuàng)新涌現(xiàn)

03、“Kaizen”的極致階段,創(chuàng)新涌現(xiàn)

一位大模型公司的人士在和我們討論Kaizen時認(rèn)為,持續(xù)改善說起來容易做起來很難,因為繞行和摸魚才更符合人性。

實(shí)際上DeepSeek所做的嘗試,很多公司都曾做過一項或者是幾項,但發(fā)現(xiàn)效果不佳后,就不再繼續(xù)。DeepSeek某種意義上的價值,在于掀開了中國從業(yè)者心中的天花板。

日本公司成功的核心在于恒心,豐田等日本公司將其發(fā)展成一種企業(yè)文化。將改善的權(quán)力交給了每一位員工,在生產(chǎn)線上,任何員工發(fā)現(xiàn)問題都有權(quán)舉手叫停。

這種改善帶來的進(jìn)步,看起來并不復(fù)雜,只是在原本的產(chǎn)品路徑上又跨越了一個難點(diǎn),或者是降低一點(diǎn)點(diǎn)成本、一點(diǎn)點(diǎn)使用門檻。

《金融時報》認(rèn)為,回顧豐田“Kaizen”式的成功,或許更能解釋中國企業(yè)的進(jìn)步,以及為什么這樣的進(jìn)步,有可能幫助這些公司獲得最大的市場成功。

豐田在上世紀(jì)80年代,通過更高效和低成本的生產(chǎn)方式,制造出了廉價但可靠的科羅拉,打敗了大眾的甲殼蟲,從而重塑了美國的汽車工業(yè)。

打開網(wǎng)易新聞 查看精彩圖片

比起美國公司所習(xí)慣的“大力出奇跡”來得到創(chuàng)新,豐田更專注于在作業(yè)過程中,杜絕資源浪費(fèi)和自發(fā)實(shí)現(xiàn)漸進(jìn)式的進(jìn)步,這樣的方法被總結(jié)為“改善”。

豐田能夠在美國市場迎頭趕上,做到了以下三點(diǎn):

1、大量模仿,小幅提升。最后,技術(shù)落后的豐田,靠逆向工程雪佛蘭的發(fā)動機(jī),研發(fā)出了自己的引擎,馬力比之前提高了10%。

2、認(rèn)真調(diào)研市場需求。當(dāng)時的美國處于石油危機(jī)下,消費(fèi)者特別需要油耗低的小型車。豐田的小型車的拋錨率遠(yuǎn)低于當(dāng)時大熱的大眾甲殼蟲,還便宜。

3、改善生產(chǎn)流程,去掉無用的環(huán)節(jié),實(shí)現(xiàn)全局細(xì)節(jié)優(yōu)化,從而做到成本和質(zhì)量上的雙優(yōu)化。

這樣的路線,在今天中國的很多行業(yè)也在被不斷執(zhí)行且發(fā)揚(yáng)光大。

比如在電動車行業(yè),最早的阻礙是電池。比亞迪找用磷酸鐵鋰迭代了此前主流的三元鋰。但最初的方案續(xù)航旅程很短,比亞迪又在2020年推出了“刀片電池”,基本彌補(bǔ)了在續(xù)航上和三元鋰電池的差距,且成本極低。

同時,在實(shí)現(xiàn)大部分零件自產(chǎn)的前提下,比亞迪造出了性價比最高的車輛,從而成為新能源“銷冠”。

但到如今,中國的新能源汽車,早已經(jīng)超出了原本的“改善”范疇。

作為全球最大的電動車生產(chǎn)與消費(fèi)國,中國的電動車行業(yè)是一個有機(jī)整體,在電池、壓鑄技術(shù)、空氣懸掛、汽車芯片、智能座椅、智能駕駛、軟件等多個方面都在內(nèi)卷式創(chuàng)新。它們的對手,也從特斯拉變成了彼此。

一年前,中國還沒有能提供全場景L2輔助駕駛能力的頭部供應(yīng)商,但沒有意外的話,到今年底,L2+就會成為所有主力車型的標(biāo)配。

用深入觀察中國電動車的Reddit用戶singularity的觀點(diǎn),這是整個生態(tài)系統(tǒng)整體發(fā)展的故事,推動快速應(yīng)用,優(yōu)化產(chǎn)業(yè)鏈,構(gòu)建特定專業(yè)領(lǐng)域的龐大集群——飛輪開始加速。而在AI領(lǐng)域最近發(fā)生的事情,讓他想起了汽車領(lǐng)域發(fā)生過的事。

在人工智能領(lǐng)域,這個軌跡目前為止確實(shí)是相似的。

Open AI目前最強(qiáng)大的o3固然驚艷,但僅部分向公眾開放,且價格高昂。能夠?qū)崿F(xiàn)相似智能水平的DeepSeek-R1-Zero橫空出世,將其在RL階段實(shí)現(xiàn)深度思考的秘訣開源,追趕Open AI的路徑似乎已被解密。

和DeepSeek R1幾乎同時發(fā)布的月之暗面的Kimi k1.5,也英雄所見略同地推出了稀疏注意力機(jī)制,名為MoBA(混合塊注意力機(jī)制),同樣對標(biāo)o1正式版。

而k1.5的推理能力也相當(dāng)不錯。Open AI的論文表示,R1和k1.5兩者的獨(dú)立研究都證明,利用思維鏈能夠提升大模型在數(shù)學(xué)與編程上的能力。

打開網(wǎng)易新聞 查看精彩圖片

字節(jié)隨后發(fā)布的豆包大模型1.5 Pro,也聲稱采用了稀疏MoE架構(gòu)。其稀疏模型架構(gòu)命名為UltraMem,稱推理速度相比MoE架構(gòu)提升2-6倍,推理成本最高可降低83%。

在scaling law告急后,行業(yè)轉(zhuǎn)向加碼RL,中國企業(yè)則還有一個突破Transformer算力桎梏的共同目標(biāo)——Attention架構(gòu)提高了模型智能程度,但卻需要占用大量內(nèi)存,且計算成本高昂。

在海量的AI人才努力下,大家都給出了相似的解題思路,只不過DeepSeek的創(chuàng)新更加密集,更系統(tǒng),給出了最高分答卷。

《金融時報》樂觀估計,相較于日本原版,中國式的 “改善” 能在更快節(jié)奏、更具顛覆性的時期發(fā)揮作用,且成果可能更為顯著。

首先是中國的人力資源和人才規(guī)模與以往完全不是一個量級,讓“改善”能夠在更大范圍內(nèi)進(jìn)行,改善再加上規(guī)?;耐Γ遣豢尚∮U的。

其次是,在數(shù)字化時代,消費(fèi)者反饋和公司調(diào)整會更快。

更重要的是,中國不論官方還是民間,依然有意愿和能力為快速規(guī)模化提供資金支持。

在大語言模型的scaling law被質(zhì)疑觸墻的過去一年,我時常想起古早美劇《疑犯追蹤》中的一個情節(jié)——引入了壓縮算法后,原本需要巨型數(shù)據(jù)庫容身的AI,可以被裝進(jìn)一個手提箱。

打開網(wǎng)易新聞 查看精彩圖片

科幻有時候會給出先驗的預(yù)言。人工智能一定要寄居在海量算力上嗎?能不能讓AI既聰明,又低能耗呢?

在最新近的現(xiàn)實(shí)中,中國的AI創(chuàng)業(yè)公司正在為這個使命做出最核心的貢獻(xiàn)。