如果認真讀完本文(90%以上普通讀者都可以理解清楚),您不僅是對人工智能,而且對整個信息技術(shù)的認知就達到這個領(lǐng)域全球一切博士生導(dǎo)師,甚至院士的層次。

DeepSeek沖擊波意味著的是全球信息技術(shù)即將實現(xiàn)的基本架構(gòu)革命,這場革命有兩大特征:

  • 硬件體系從算力依賴型轉(zhuǎn)向存儲依賴型。

  • 整體架構(gòu)從硬件依賴型轉(zhuǎn)向編程依賴型。

一、DeepSeek沖擊波

一個月前,整個美國軍事圈在密集地討論中國六代機。

半個月前,整個媒體圈在討論小紅書上中美大對賬。

現(xiàn)在,整個全球科技圈又在密集地討論DeepSeek。

順便提一下,DeepSeek V3的發(fā)布日期也是在2024年12月26日,教員的誕辰紀念日。在DeepSeek V3發(fā)布后短短的一個月左右,又連續(xù)兩個大動作。2025年1月20日發(fā)布了DeepSeek R1,這是真正引爆全球的版本,其達到與OpenAI o1版本性能基本相同的程度,但訓練成本僅為不到560萬美元,只是o1的3%-5%。

請注意,并不是說DeepSeek R1的技術(shù)性能遠超過了OpenAI o1,而是在性能基本相同或略好的情況下,其訓練成本、訓練時間卻呈現(xiàn)數(shù)量級的下降,這兩者帶來的結(jié)果都是顛覆性的。原因在于:

訓練成本極低的主要因素是對算力需求數(shù)量級的下降,這樣一來,英偉達人工智能算力卡市場需求就會受到極大的沖擊。

訓練時間從過去6個月下降到只有6天,這會使人工智能軟件的迭代速度發(fā)生質(zhì)的變化。6個月的訓練時間,簡直就是農(nóng)業(yè)領(lǐng)域種子大田實驗的周期長度了,一粒水稻種子從發(fā)芽、插秧、抽穗、收割的時間也不過如此。早熟型的水稻全部生長周期甚至也就3個月。任何軟件都是需要不斷迭代演進的,如果你的軟件需要6個月才能完整地運行一次,而我的只要6天,那么你的軟件做一次升級后要進行一下測試就得至少等6個月時間,而我的只要6天,那么即使我的軟件一開始比你的差很多,要不了幾個回合我已經(jīng)迭代10次了,你一次都還沒迭代完,那你還怎么玩?就算你有天大的編程本事也沒法和我競爭了。而且DeepSeek還完全開源,這么一搞,全世界所有公司的大模型軟件都不得不追隨這個技術(shù)路線,尤其是技術(shù)理念,否則就是農(nóng)業(yè)文明與工業(yè)文明相競爭了。

DeepSeek在美國的蘋果應(yīng)用商店上下載量瞬間排名第一。

2025年1月27日,Deepseek引發(fā)了美國納斯達克震動,尤其受沖擊最大的英偉達股價下跌16.97%,上一個交易日下跌3.12%。1月28日除夕,在美股重挫之后,DeepSeek又發(fā)布開源多模態(tài)模型Janus-Pro,其中70億參數(shù)版本的Janus-Pro-7B模型在使用文本提示的圖像生成排行榜中優(yōu)于OpenAI的 DALL-E 3和Stability AI的Stable Diffusion。

打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片

英偉達兩天內(nèi)蒸發(fā)7000多億美元,跌去了約五分之一的市值,27日一天跌去了約5900億美元,創(chuàng)下美國歷史上單日下跌幅度的歷史記錄。 也帶動納斯達克指數(shù)當日跳空暴跌3.07%。 當然,這種短期的波動不一定完全具有長期意義,1月28日英偉達反彈了8.93%,29日再次下跌4.10%。 但是,一個中國剛成立一年多、僅140人的小公司發(fā)布的產(chǎn)品,居然對整個美國納斯達克科技股板塊產(chǎn)生如此巨大的影響力,這是歷史上的第一次。

因為整個美國科技界產(chǎn)生的恐慌,來自美國的一些特定的IP地址針對DeepSeek服務(wù)器發(fā)起了空前的惡意攻擊。這種惡意攻擊一直持續(xù)到現(xiàn)在還在繼續(xù)并且不斷升級。

特朗普也在個人賬號上發(fā)出哀嘆:

打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片

請注意特朗普個人賬號發(fā)這個信息的合集分別是#美國優(yōu)先#中國正殺死美國#AI#MAGA!??!

做出DeepSeek的幻方量化創(chuàng)始人梁文鋒在總理召集的座談會上發(fā)言。
打開網(wǎng)易新聞 查看精彩圖片
做出DeepSeek的幻方量化創(chuàng)始人梁文鋒在總理召集的座談會上發(fā)言。

中國出現(xiàn)如此震撼性的科技進展,也令整個中國社會沸騰。很多網(wǎng)友留言希望我談一下這個問題,很多媒體也向我約稿談相關(guān)問題。對于如此專業(yè)的技術(shù)領(lǐng)域,一般媒體人,甚至一些專業(yè)人士都可能很難抓住要害。

人們可能非常疑惑的一個問題是:為什么DeepSeek居然能在美國看起來如此領(lǐng)先的AI領(lǐng)域做出讓人炫目的巨大改進?或者換個說法:為什么在看似美國領(lǐng)先的AI領(lǐng)域居然會存在如此巨大的改進空間?如果沒有這種改進空間存在,即使你有天大的本事也無濟于事。

其實,這種巨大的改進潛力不僅不是什么奇怪的事情,而且是整個信息技術(shù)領(lǐng)域存在的極為普遍的情況,只不過是DeepSeek把這層窗戶紙在全社會層面捅穿了而已。要清楚理解DeepSeek為什么能做到這一點,如果是專業(yè)的網(wǎng)友,可以直接去看以下這篇DeepSeek R1的論文,甚至直接去看開源的源代碼。

打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片

但對于絕大多數(shù)普通網(wǎng)友來說,如果完全陷到這些AI專業(yè)技術(shù)細節(jié)中去的話,肯定會頭大,即使想盡辦法進行科普,可能也還是很難理解。并且,即使專業(yè)的網(wǎng)友去直接看DeepSeek的論文,或者分析清楚DeepSeek的所有算法,也未必能完全理解為什么他可能做出這么大的改進。

所以,本文將盡可能采用90%以上的網(wǎng)友都能聽得懂的語言或科普知識,來讓人們理解為什么美國式的信息技術(shù)會存在如此巨大的提升空間,并且是幻方量化的創(chuàng)始人梁文峰的團隊成功做到了。事實上,這種潛在改進空間的存在是我窮其一生系統(tǒng)研究過,一直努力去進行改進,并且獲得過不少成果的。所以,本文不僅是要讓普通網(wǎng)友聽明白,而且希望成為一篇信息技術(shù)領(lǐng)域的“討美檄文”,借此機會號召所有專業(yè)的網(wǎng)友、政府機構(gòu)相關(guān)人員和投資人看明白之后,從效率最優(yōu)化角度發(fā)起一場系統(tǒng)的中國式信息技術(shù)革命,徹底顛覆美國式的信息架構(gòu)和體系。我會在本文中枚舉出大量可以做出巨大改進的重多技術(shù)細節(jié),但整個信息技術(shù)領(lǐng)域事實上可以改進的地方太多了,本文最后會給出初步的總體建議。

二、認識世界的兩種路徑

為了理解本文,我們不是像一般人那樣一上來就先鉆到技術(shù)細節(jié)中去,而是脫離出來,先站在盡可能最高層面的、科學認識世界的兩種基本路徑的簡要比較上。一個是經(jīng)驗的方法,另一個是理論的方法。這兩種方法大家都是比較熟悉的。

經(jīng)驗的方法是什么呢?用信息技術(shù)的語言來說,就是存儲的歷史知識依賴型的方法。當遇到一個新問題時,經(jīng)驗的方法可能不是去深入系統(tǒng)地理解問題本身,而是瞬間就能給出答案,它是直接對比問題與存儲的歷史知識,找出差別最小的一個,只要對存在差別的地方進行一下簡單的處理,就能給出結(jié)果。所以,這種方法也是算力依賴度相對最小的。它本質(zhì)上主要就是一種以經(jīng)驗知識查詢和調(diào)用為主的算法。

另一種方法是理論的方法,發(fā)展到極致就是科學的理論,牛頓力學用極簡的四個定律的數(shù)學公式,就能描述世間所有的運動規(guī)律。麥克斯韋方程也只是幾個極簡的數(shù)學公式,就能描述所有電磁學的規(guī)律。理論的方法存儲的知識量可以達到極小化,這是它的經(jīng)濟性體現(xiàn)。但是,當用這種理論的方法去解決實際問題時,要用這些數(shù)學公式進行大量的計算才能給出結(jié)果。所以,這種方法是算力依賴型的。

以上兩種方法是各有優(yōu)劣的,并不能絕對說哪一個就更好。

經(jīng)驗的方法算力依賴度最小,速度極快,但不一定完備、準確和深入,它也有可能搞不清因果關(guān)系。在計算機編程的時候可能通用性不是最好,要針對特定問題進行定制。

理論的方法知識存儲量最小,完備,因果關(guān)系清晰,精確,編程相對簡單且通用性較強,但實際解決問題時需要精確獲得所有邊界條件,必須要大量的計算。

現(xiàn)實生活中并不一定絕對分得清采用的是理論的方法還是經(jīng)驗的方法,很多都是兩種方法的混合。例如很多經(jīng)驗公式看起來是一個理論,也的確可能存在一定的因果關(guān)系成分,但事實上是界于理論和經(jīng)驗之間的、不完備、也就是不完全清楚因果關(guān)系的數(shù)字統(tǒng)計結(jié)果。

現(xiàn)在的人工智能很大程度上也是界于理論和經(jīng)驗之間的一種形態(tài)。

如果舉一些具體的例子來說明一下以上兩種方法在信息技術(shù)中的體現(xiàn),可能大家會更清晰一些。我在北郵上研究生期間的導(dǎo)師蔡學勛,他主要的一個貢獻是最早實現(xiàn)了將原來只能用巨型機處理的氣象衛(wèi)星數(shù)據(jù),轉(zhuǎn)換成在個人電腦上進行處理。這個團隊研究的成果之一是最先從衛(wèi)星云圖中發(fā)現(xiàn)了著名的1987年大興安嶺火災(zāi),就是那個當年春晚小品節(jié)目中戲稱為被費翔“冬天里的一把火”點燃的森林大火。要將衛(wèi)星云圖數(shù)據(jù)在算力很低的個人電腦上進行處理,遇到的最大挑戰(zhàn)就是如何降低相關(guān)數(shù)據(jù)處理的算力需求。其中最大的運算量之一,就是將原始衛(wèi)星云圖數(shù)據(jù)投影到平面圖上時,要進行數(shù)據(jù)的投影轉(zhuǎn)換。它的原理并不復(fù)雜,也就是初中幾何知識就能明白的,這里不去討論,只是要說明這種投影轉(zhuǎn)換每一個像素點處理都要進行三角函數(shù)的計算。

三角函數(shù)的公式書寫起來非常簡單,可是要在計算機中進行計算的話就很麻煩。因為現(xiàn)代的電子計算機CPU事實上只能進行二進制的加法運算。所以,一切數(shù)學計算事實上都是把它們通過一定的算法轉(zhuǎn)換成一系列加法運算的累加。一般的方法是先將任何數(shù)學函數(shù)展開成只含有加減乘除的冪級數(shù)展開式,然后再把其中的乘、除、減法轉(zhuǎn)換成加法運算。

打開網(wǎng)易新聞 查看精彩圖片

上面就是一個初中生都可以理解的正弦函數(shù)的冪級數(shù)展開式案例。從純理論上說,上面這個展開式的運算量是無限大的。但在不同的精度要求中,可以選擇一個有限的最大n取值就可以了,以此進行可以保證一定精度的有限運算量。最大的n取值不同,當然運算量就不一樣。

但這樣一轉(zhuǎn)換,表面看起來一個很簡單的數(shù)學函數(shù),在計算機中需要進行的最基本二進制加法運算量就可能會擴張到成千上萬次二進制加法運算。好在計算機過去按摩爾定律可以不斷地翻倍增長,所以計算量大點用計算機來算就不是問題。這就是算力依賴型的解決思路。

因為每一個像素點都要進行這樣的處理,如果直接采用這種理論的算力依賴型的方法,在上個世紀80年代根本不可能在個人電腦上實現(xiàn)哪怕最簡單的衛(wèi)星圖像數(shù)據(jù)的平面投影處理。所以解決的方法就是:先計算出一個實際應(yīng)用中會用到的相對完整的三角函數(shù)表,并且存儲起來。下面是一個常用的三角函數(shù)表。

打開網(wǎng)易新聞 查看精彩圖片

當用到哪個角度的三角函數(shù)計算時,直接到這個表里面查就可以了。這就把前面那種算力依賴型的方法運算量成千上萬倍地降低了。如果要計算的角度不能直接查到,是在表中的兩個角度之間,那就用相鄰的兩個表中的角度三角函數(shù)值進行簡單的插值處理就可以得出結(jié)果了。這種方法就是存儲的歷史知識依賴型的方法。

原來我們聽說過中國兩彈一星的科學家們是用算盤算出了原子彈的模型,很多人感覺不可思議。事實上,他們肯定不會用和計算機完全一樣的算法來進行計算,肯定是會尋求算力依賴度最小的方法。主要也是基于各種已經(jīng)算出來的函數(shù)表,諸如對數(shù)表、根號表、三角函數(shù)表等,在計算過程中盡可能依賴查表和插值處理,以此來盡最大可能地減少計算量,再用算盤來算,否則是不可能完成這個工作的。當年祖沖之用算盤算一個圓周率都花了幾十年的時間,如果真的用算盤直接進行各種函數(shù)的計算,肯定是不可能在有限時間內(nèi)算出原子彈相關(guān)模型的。

初中生實用的根號表

打開網(wǎng)易新聞 查看精彩圖片

為什么我們要先談這些最基本的科學認識方法論問題,因為只要理解了這些,就會很容易理解DeepSeek為什么如此高效的最基本的算法:以“先期預(yù)訓練為基礎(chǔ)”的純強化學習(Pure Reinforcement Learning)算法。雖然單純從強化學習算法本身來說可以從任何基礎(chǔ)開始,但前面有一個預(yù)訓練的基礎(chǔ)還是非常重要的,簡單點說就是已經(jīng)訓練過的內(nèi)容就不要再重復(fù)訓練了。就像已經(jīng)計算過的三角函數(shù)就不要在每一個像素處理時重復(fù)計算。這就是節(jié)省大量算力的奧秘之一。強化學習算法主要以原來的訓練結(jié)果為基礎(chǔ),只是不斷調(diào)整新的處理結(jié)果與目標問題(強化學習算法本身的專業(yè)術(shù)語叫“環(huán)境”)之間的偏差(專業(yè)術(shù)語叫“獎勵”)。

我之所以盡量不用專業(yè)術(shù)語,而用一般人能理解的自然語言,不僅是理解起來會更為容易,還有更重要的一點是:很多專業(yè)術(shù)語事實上可能存在不一定完全合適的問題,很容易讓人產(chǎn)生誤解,后面會談到。

所以,簡單地說最新的DeepSeek版本訓練成本只有560萬美元是不完全準確的,DeepSeek過去投入的17億不能說在最新的版本中沒有任何體現(xiàn)。但在此基礎(chǔ)上,完全新的訓練真的可以做到新增的成本就非常低了。所以,說它最新的訓練成本只有560萬美元當然是有道理的。

那其他很多大模型難道是每次新版本都是一次又一次重復(fù)去訓練嗎?客觀地說,利用已經(jīng)有的訓練結(jié)果這種經(jīng)驗知識依賴的方法在其他大模型中也有體現(xiàn),但總體上說他們的確是存在大量一遍又一遍進行重復(fù)訓練的問題。這當然對算力的消耗就數(shù)量級地增大了。

所以,信息技術(shù)雖然變化很快,但如果理解了最一般的科學認識方法,就會發(fā)現(xiàn)幾乎沒什么新技術(shù)。一切所謂的創(chuàng)新技術(shù)都是原來已經(jīng)有的技術(shù)原理在新的技術(shù)條件下的再現(xiàn),別被那些所謂的“尖端技術(shù)”包裝唬住了。中國是如此,美國同樣是如此。

三、提升信息處理效率的最一般方法

1.去掉冗余

無論是理論的還是經(jīng)驗的方法,要提升信息處理效率,其最基本的原則其實是一樣的,就是盡可能減少“重復(fù)” —— 或者用信息技術(shù)的語言叫減少“冗余”。

如果是在存儲中,已經(jīng)存了一份信息,完全相同的信息不用再重復(fù)地存儲,這就是存儲信息的壓縮。一切文本、圖像、視頻的壓縮技術(shù)和存儲器的壓縮技術(shù),都是通過各種途徑減少重復(fù)的信息,這就可以節(jié)省存儲空間。

如果是已經(jīng)計算過一遍的模型,就不要再重復(fù)地進行計算了,這就是算法上運算量的壓縮。

2.適當降低精度

精度要求越高,一般來說對算力的需求就更大。尤其是一些關(guān)系不大的細節(jié),簡單地去掉,就可以節(jié)省大量的算力以及存儲量。例如,圖像處理中,因為人對顏色的細節(jié)敏感度遠遠低于亮度,所以一般是在相鄰的四個像素的色度信息中,只保留一個就可以了。這樣本來是每個像素一個亮度兩個色度共三個信息,四個像素3*4=12個信息,直接可以去掉6個(三個像素中的兩個色度信息),這樣就可以直接將圖像信息量減少一半。這種圖像格式就叫4:2:0,原始圖像格式是4:4:4。在圖像的有損壓縮中,也是將部分不重要的細節(jié)信息(信息量會更大)直接丟掉,從而極大減少存儲所需要的信息量。

在人工智能中,也存在這種適當降低精度的方法,叫“量化”。我個人認為這個術(shù)語起的名字很不好,尤其一般人可能不太好理解。所以,如果你是普通人,看不懂一些專業(yè)術(shù)語,不要自卑,可能不是你理解力不行,而是這個術(shù)語名字起得真是太差了,這種情況其實是非常普遍的。量化這個詞用得場合太多,大多都不太合適。例如DeepSeek這家公司最初所從事的行業(yè)就叫“量化交易”。這個“量化交易”中的量化一詞起得名字也不是太好。最好的詞是普通人第一眼看到的理解就是準確的,并且與術(shù)語本身字面的意義最好一致。所謂“量化”是把原來不是“數(shù)量的”變化成“數(shù)量的”。例如模數(shù)轉(zhuǎn)換(A/D)電路中把原來的模擬量轉(zhuǎn)化成數(shù)字量,這個過程就叫“量化”。這也是“量化”這個專業(yè)術(shù)語最原始的正宗含義,其他領(lǐng)域的“量化”叫法都是借用的。我就是在大學里學電路專業(yè)出身的。所以這種術(shù)語唬別人可以,想唬住我行不通。

人工智能中所謂的“量化”是簡單地降低數(shù)據(jù)的精度,例如把4個字節(jié)的浮點數(shù)據(jù)減少成2個字節(jié)的浮點數(shù)據(jù),存儲量就簡單地降低了一半。原來的數(shù)據(jù)就是數(shù)量化的,只是精度減少了,這怎么能稱為“量化”呢?它是“粗略化”“低精度化”。但如果這么按真實含義來起名字,就顯得自己這個技術(shù)很Low。所以就起個“量化”這種聽起來高大上又讓人云里霧里的名字。

量化交易中的“量化”這個詞也是不太合適的。因為原來的投資交易也是依據(jù)大量數(shù)學模型和數(shù)據(jù)為基礎(chǔ)的。量化交易的關(guān)鍵,是把選股和買賣決策判斷,通過設(shè)定相應(yīng)的交易策略后,交給計算機程序自動實現(xiàn)了。所以,稱“計算機自動化交易”可能更容易理解一些。當然,也可能最初搞這個交易的人就是不希望普通人搞明白,才起這種聽起來高大上又含糊不清的術(shù)語。既然最初的人起了名字,后面的人只好延續(xù)這個術(shù)語,好顯得自己是專業(yè)的。所以,不要以為你能講專業(yè)術(shù)語就能唬住人。

與量化交易相對應(yīng)的還有“高頻交易”。中國證監(jiān)會2024年5月11日發(fā)布的《證券市場程序化交易管理規(guī)定(試行)》第二十一條的規(guī)定,高頻交易是指具備以下特征的程序化交易:(一)短時間內(nèi)申報、撤單的筆數(shù)、頻率較高;(二)日內(nèi)申報、撤單的筆數(shù)較高;(三)證券交易所認定的其他特征。其實,這些定義都沒抓住要害,也是這個名稱中的“高頻”這個用詞不完全恰當造成的。這種交易的關(guān)鍵要害是利用比一般交易所更低延時的通訊技術(shù)手段,因為其延時更低,這樣就可以在一個極短的時間內(nèi),相當于提前可以獲知股價的變動,從而提前下單買進和賣出,這就鐵定可以賺錢了,雖然一次賺得不一定很多。因此,這種交易的本質(zhì)是“短時提前交易”,而不一定絕對的頻度很高。當然,因為其短時,股票的差價就不一定會大到那里去,為了獲得更多收益,它一般的確會進行更多次的交易。多次可能“高頻”也可能不一定是“高頻”,而只是在相當長的一個時間內(nèi)“多次”,頻度倒不一定很高。但無論如何,如果你不具備低時延的光纖通訊系統(tǒng)作支撐,比他人提前獲取股票價格和買賣雙方的下單信息,單純的程序化高頻只會死得很慘。

回到本節(jié)主題的降低精度減少硬件需求的方法,需要注意的是,簡單的降低精度也有可能導(dǎo)致最終效果不一定滿足要求。所以這里面也是有技巧的。

3.適當簡化、降低問題復(fù)雜度

如果要計算的參數(shù)越多,當然計算量就越大。如果對模型進行適當?shù)睾喕?,減少參數(shù)和復(fù)雜度,計算量一般就會相應(yīng)地下降。100億參數(shù)模型進行數(shù)據(jù)訓練,與1000億參數(shù)相比,簡單地來評估,在其他方面都一樣的情況下,計算量就會下降一到兩個數(shù)量級。但復(fù)雜度或參數(shù)減少了,可能其性能表現(xiàn)等也會有所降低。如果能夠很好地選擇參數(shù)和調(diào)整好各項系數(shù),有可能做到性能表現(xiàn)上差異極小。這種方法在人工智能中叫“蒸餾”(Distillation)。我同樣認為這個術(shù)語很不好甚至非常糟糕。因為它顯然是引用化學中的蒸餾法這個術(shù)語。但化學中的蒸餾法是什么呢?

比如我們喝的蒸餾水,是通過把含有極少量雜質(zhì)的水加熱成蒸汽,然后在另一個冷凝器重新變成水。從中可知蒸餾法的特點:目的是去除水中極少量的雜質(zhì),因此,蒸餾以后的水與之前的可能體積和重量變化都極小。一公斤含雜質(zhì)的水,蒸餾以后可能還是非常接近一公斤的純凈的水。

但人工智能中的蒸餾法想表達的過程,與化學中的蒸餾法顯然有比較大的差異。事實上它與“提純”更為接近:

  • 提純后體積重量一般會極大地變小。

  • 提純后的物質(zhì)可能還是有極少量雜質(zhì)。

  • 被提純過程丟棄的部分也可能含有少量未提純出來的有效物質(zhì)。

或者,也可以叫“裁減”等更準確并更容易理解的術(shù)語表達。

但是,如果采用這些更通俗并更準確和容易理解的術(shù)語的話,那就顯不出是尖端技術(shù)了。所以,叫“蒸餾”這種有點莫名其妙的術(shù)語,就會顯得比較牛掰。在技術(shù)甚至很多科學領(lǐng)域,其實都存在類似情況。我過去曾專門寫文章討論過分子生物學領(lǐng)域起的學術(shù)名字非常糟糕的大量案例。一旦搞清楚這些,讀者理解他們就不會那么困難了。

所以,本文為什么一開始就強調(diào)要站在更高的層面來看問題,因為只有這樣“看扁”那些專業(yè)術(shù)語,你才能很容易地真正理解它們的準確含義。

OpenAI現(xiàn)在指責DeepSeek是對其對應(yīng)版本軟件的蒸餾。事實是否如此我們不去評論,但就算存在相應(yīng)的過程又能怎么的?這本身就是人工智能中通用的合理方法。況且,DeepSeek也未必只針對OpenAI為藍本去進行優(yōu)化。還可以有更多自我優(yōu)化的過程。他也未必只是從OpenAI模型的參數(shù)中簡化出來的。

你可以去指責DeepSeek抄襲,但我可以告訴你,這個世界上幾乎就沒有幾個技術(shù)是絕對原創(chuàng)的。可以說美國幾乎所有的技術(shù)全是在新的基礎(chǔ)條件下,對完全相同技術(shù)原理的不同實現(xiàn)和綜合,只不過給了個不同的技術(shù)概念名稱,就以為是全新的頂尖科技了。整個現(xiàn)代的計算技術(shù)就是對中國算盤的抄襲和新技術(shù)條件下的細節(jié)改變,所有信息存儲技術(shù)全都是對中國造紙術(shù)在新技術(shù)條件下的發(fā)展,所有現(xiàn)代的數(shù)字編碼技術(shù)全是對周易八卦的抄襲和新技術(shù)條件下的發(fā)展。

有人指責鴻蒙系統(tǒng)中有Android的代碼,那你以為Android是谷歌原創(chuàng)的嗎?不是。并且,創(chuàng)立Android的安迪·魯賓在之前有在蘋果和微軟公司的工作經(jīng)歷。Android是在Linux、蘋果、微軟公司的大量技術(shù)資源基礎(chǔ)上發(fā)展起來的。谷歌不僅不是Android的原創(chuàng)者,而且它是把安迪·魯賓與其他人在2003年10月創(chuàng)立的Android公司,在2005年通過收購并入谷歌的。

微軟最初的DOS系統(tǒng),就是抄襲基爾·代爾的CP/M操作系統(tǒng),而且還不是微軟自己抄襲,是直接買的另一家抄襲的小公司產(chǎn)品,連其中基爾·代爾最初的語法錯誤“1 file(s) copied”都原封不動地抄襲過來,一直到微軟的DOS操作系統(tǒng)被視窗系統(tǒng)替代完了,這個語法錯誤都沒完全改過來。

只要法律上不違反專利,“抄襲”換個名字就叫“學習”。

所以,那些指責DeepSeek抄襲的人早點閉嘴吧,這唯一證明的只是你們壓根就不是這個圈子里的人。除了中國的算盤、造紙和周易是真正0到1的原創(chuàng)技術(shù)以外,此后的信息技術(shù)發(fā)展從始至終就全都是“抄襲”的。

四、DeepSeek的特色技術(shù)

1. 三個重要的特色技術(shù)

要理解DeepSeek為什么效率這么高,僅僅說它采用了蒸餾技術(shù)是差太遠的。需要認識到它的確有很多自己特色性的技術(shù)。從這些特色性的技術(shù)中可以看到,他們的出發(fā)點都是盡最大努力去減少人工智能中的各項成本。例如:

  • 不依賴于對用于訓練的數(shù)據(jù)進行人工打標簽。

  • 混合專家架構(gòu)(Mixture of Experts:MoE)。

  • 多頭潛在注意力(Multi-Head Latent Attention,MLA)

2. 打標簽是怎么回事

要理解DeepSeek不依賴于人工打標簽,首先得理解打標簽是怎么回事。人工智能軟件為什么能理解人類的文本和圖像等數(shù)據(jù)?這個如果不理解對數(shù)據(jù)打標簽的話可能會感覺很神奇,但理解了這個后可能就沒有什么神秘感了。如果從一開始就是把互聯(lián)網(wǎng)上的數(shù)據(jù)直接輸入人工智能軟件里,要讓它準確理解是極為困難的。所以,原始的數(shù)據(jù)并不是直接輸給軟件,而是先由人去判斷并打上標簽。簡單來說,比如“美國”和“美圖”這兩個詞,前一個要理解成一個國家“美國”,后一個要理解成“美麗的圖片”簡稱。這類理解是首先由人工智能的工程師制定好一些規(guī)則,然后交由專門進行打標簽的人去干的活。所以,別以為大模型的人工智能真的那么神奇,真的有智能,其實還是人類智能的計算機化。但是,這么干的話有一個問題,就是人工打標簽是一個成本很高,效率也比較低,而且工作量很大的事情。美國Scale AI公司就是專業(yè)給其他大模型公司做人工打標簽的工作的。所以現(xiàn)在這個公司的創(chuàng)始人亞歷山大·王就馬上跑出來公開指責DeepSeek。原因很簡單,你DeepSeek要是這么搞,會讓Scale AI壓力山大,沒活干了。

那DeepSeek為什么可以不依賴于人工打標簽?zāi)兀孔畛醯哪P瓦€是需要人工打標簽的,但是我們前面說了,提升效率的方法就是去掉冗余——已經(jīng)打過標簽的應(yīng)該就不用重復(fù)再打了呀!另外,采用強化學習的方法,事實上不是在事先對數(shù)據(jù)進行人工理解的判斷并打標簽,而是可以在模型運行之后做出人工的判斷來調(diào)整之前訓練的數(shù)據(jù),也起到與人工打標簽類似的作用。如果整體上是在之前已經(jīng)采用人工打標簽的方法訓練過的基礎(chǔ)數(shù)據(jù)之上進行強化學習,就基本不需要再人工打標簽了。

理解了我們前面鋪墊的基礎(chǔ)方法論層面的知識,這個奧秘是不是就可以一語道破了。

3. 混合專家架構(gòu)MoE

我在本文中盡量不深入技術(shù)細節(jié),尤其不深入DeepSeek具體是怎么實現(xiàn)的,原因在于對絕大多數(shù)人來說,不需要去了解那些細節(jié)。對其他專業(yè)的技術(shù)人員來說,如果你理解了最基本的原理,你也可以用不同的技術(shù)路線去實現(xiàn),甚至獲得更好的技術(shù)實現(xiàn)。對DeepSeek來說,他們本身就在天天修改代碼進行各種改進,所以其他人太過于深入地追實現(xiàn)的細節(jié)永遠也追不上的。

我個人事實上從了解通用人工智能技術(shù)的一開始就很推崇混合專家模型這個技術(shù)路線。那還是十多年前,連OpenAI都還沒有成立的時候,我就作為投資人在硅谷接觸到一些當時頂尖的通用人工智能創(chuàng)業(yè)公司。我當時就對“通用人工智能”這個概念非常有疑問,或者說非常不贊同。各種專業(yè)的人工智能技術(shù)早就有了,為什么不通過整合不同專家系統(tǒng)來實現(xiàn)通用的人工智能呢?當時那些創(chuàng)業(yè)者的技術(shù)團隊給我的回復(fù)是:這種思路業(yè)界不是沒人提,但要提前進行數(shù)據(jù)的專業(yè)分類會非常麻煩,而且不同人的理解會不一樣。

“通用人工智能”這個概念本身也不是太合適的,誤導(dǎo)了社會大眾。事實上這個技術(shù)最初的Transformer最大貢獻是實現(xiàn)了一種比較通用的生成式人工智能算法。所以重點在“生成式”,而不是“通用”。目前人工智能熱點向混合專家架構(gòu)轉(zhuǎn)化,可以說與我最初的判斷是相符合的。當年的神經(jīng)網(wǎng)絡(luò)技術(shù)也是有很大通用性的???為什么不說神經(jīng)網(wǎng)絡(luò)和深度學習算法也是通用人工智能呢?當然,中間走一個大而全的通用人工智能過程也是有意義的,就是先摸索出一些新的模式出來。而且,不同專家模型的形成也是在這個過程中自然形成,這樣就不用提前去做專業(yè)數(shù)據(jù)分類的工作。這種提前進行的分類可能也不一定合適。

人類也是分成各個領(lǐng)域?qū)<业?,要解通用的問題也是不同專家合在一起來實現(xiàn)。人工智能當然也會走向這個模式。

混合專家架構(gòu)的好處是什么呢?這個需要結(jié)合前面所說的強化學習。因為已經(jīng)訓練出來的數(shù)據(jù)需要在新的與環(huán)境的交流中不斷地進化。設(shè)想一下,我們就以量化這個詞為例,因為它在不同的專業(yè)領(lǐng)域含義是不一樣的。如果不加任何區(qū)別,它就會在不同專業(yè)領(lǐng)域跳來跳去,差別較大。如果出現(xiàn)一個新的領(lǐng)域采用量化這個詞,產(chǎn)生的差異就更大了。這就會給已經(jīng)訓練好的人工智能數(shù)據(jù)產(chǎn)生比較大的干擾。但是,如果分成各個不同的專業(yè)領(lǐng)域,那么它們相互之間就不會產(chǎn)生干擾了。新的環(huán)境變化越小,對模型產(chǎn)生的干擾就越小,也越容易趨于穩(wěn)定、計算量也越小。

通用人工智能的技術(shù)路線,所有的數(shù)據(jù)與其他數(shù)據(jù)都可能有相關(guān)性(被稱為“稠密模型”),這個計算量就太龐大了。但通過混合專家系統(tǒng)的專業(yè)分類(被稱為“稀疏模型”),大多數(shù)的相關(guān)性計算可以只與自己專家模型內(nèi)的數(shù)據(jù)進行,這就極大地降低了總體的計算量。很多會議為什么要分組討論,其實也是同樣的原理,沒多大關(guān)系的就不要在一起浪費時間。

多個專業(yè)模型合在一起,表現(xiàn)得像是一個什么都懂的通用人工智能,就需要在一開始先分清楚新的輸入屬于哪個專家模型的,從而好交給它來處理。這就需要一個“門控”的判斷機制。但凡是學過編程的人是不是馬上會想起Switch(英文含義是轉(zhuǎn)換、開關(guān)等)這個幾乎所有編程語言都常用的語句?它就是一個門控機制。最簡化的只有兩個選擇的門控編程語句是if。所以,真正的技術(shù)原理其實都是差不多的,只是不同條件下不同的實現(xiàn)而已。Switch這個語句就是會提供一個判斷的條件,當判斷出不同結(jié)果時,就交給不同條件下的子程序去處理。它就像是一個大公司的前臺,來的客人說明自己的來意,前臺就會判斷他要找的是哪個部門的人,然后就會給你引導(dǎo)到這個部門去具體處理。

混合專家架構(gòu)MoE可以看成是一個高度放大版的Switch編程語句。

4.多頭潛在注意力MLA

我同樣再強調(diào)一下別被表面深奧的技術(shù)概念搞暈頭了。簡單來說,當很多人去用人工智能軟件如DeepSeek或豆包等進行查詢的時候,輸入的查詢要變成計算機的語言,它叫鍵(Key)和相應(yīng)的值(Value)。記住我們前面說的基本原理,你馬上就可以想到,那么多查詢肯定有大量重復(fù)的。如果所有查詢?nèi)仟毩⒌卦趦?nèi)存中存儲,當然會占用大量寶貴的內(nèi)存。那么,如果把那些重復(fù)的查詢整合在一起,實現(xiàn)壓縮,那內(nèi)存占用是不是就非常小了?MLA其實就這么簡單。實際進行查詢的時候解壓縮出來就和原來是一樣處理過程了。

這個就如同我們在網(wǎng)上看直播的時候,視頻最初是經(jīng)過壓縮后才在網(wǎng)上傳的,等傳到用戶處再解壓縮后重現(xiàn)出來。

如果有人直接將原始視頻在網(wǎng)上傳,當然占用的資源就大多了?!?美國的人工智能就是這么干的。所以不是DeepSeek效率太高,而是美國的技術(shù)路線實在是太 Low了。

五、為什么美國的信息技術(shù)會存在這么大的改進空間?

美國引領(lǐng)了整個信息技術(shù)的進程。這使得美國建立的信息架構(gòu)成了全世界的標準。其他國家的技術(shù)人員往往是不問為什么標準會這么建立,直接拿過來就用。即使發(fā)現(xiàn)一些看似很不合理的地方,也會認為這里面肯定有什么我們不知道的原因才如此,人家美國肯定都想清楚了。事實上完全不是這樣的。

其實也可以說DeepSeek采用的技術(shù)沒有任何是真正原創(chuàng),美國全都有。信息技術(shù)實在是太多了,實現(xiàn)相同目標的技術(shù)路徑和方案可以有非常非常多選擇。選擇不同的方案和技術(shù)路線不同,可能會體現(xiàn)出不同的文化。

1. 各種資源的成本平衡問題

第一個問題是:軟件的實現(xiàn)涉及到很多方面資源成本的平衡:

  • 計算能力成本。

  • 存儲能力成本。

  • 網(wǎng)絡(luò)帶寬成本。

  • 編程的人工成本。

  • 其他。

實際的產(chǎn)品實現(xiàn)中,需要根據(jù)不同資源的成本差異,設(shè)計不同的實現(xiàn)方案。

(1) 如果計算能力獲得很容易,存儲成本很高,那么在算法上就會傾向于算力依賴型,這樣更為經(jīng)濟。

(2) 反之,如果存儲成本很低,計算成本很高,就可以傾向于采用算力極小化,歷史經(jīng)驗知識依賴型算法。

(3) 如果編程的人工成本和管理成本很高,計算和存儲能力的獲得都很容易且成本較低,就會傾向于用最簡單的編程算法去實現(xiàn),而不用太關(guān)注產(chǎn)品計算和存儲的成本消耗和效率。這就是一種硬件依賴型的算法。

(4) 如果硬件成本相對極高,就得通過更為復(fù)雜的編程去盡可能節(jié)省計算和存儲的硬件資源。

(5) 如果網(wǎng)絡(luò)帶寬成本很高,就會追求需要傳輸?shù)男畔⒏邏嚎s率。

所以,如果沒有以上各個方面成本的綜合平衡,是不能簡單地說哪種算法或策略更好的。

但是,美國在引領(lǐng)信息技術(shù)發(fā)展的過程中,逐步地形成了他們自己特定的文化。因為芯片的摩爾定律,計算和存儲能力是可以很容易獲得并迅速增長的,而美國的人工比較貴。所以,美國就形成不太關(guān)注計算和存儲效率的最優(yōu)化,而主要關(guān)注編程的方便性、簡潔性、可讀性等。這個雖然不那么絕對,但總體上是這樣。

20世紀90年代初,我在北郵上研究生期間有過很深的體會,我的課題是要做一個叫作潮涌填充的算法軟件。這個是被用作諸如衛(wèi)星云圖中任意不規(guī)則的如湖泊等水面確定以及面積計算。所謂潮涌填充算法是先由軟件操作人員從一個很明顯是湖面上的一點開始,然后計算機自己從這個像素點開始,通過判斷與其相鄰的像素是否有相同的顏色。如果是相同的,就打上標簽,如果不是就放棄這個方向的繼續(xù)判斷。這樣到最后會把所有相鄰的(相互連通的)湖面像素全都找出來。這種潮涌填充最原始的算法是非常簡單的,就是一個像素點的處理是判斷其上、下、左、右四個像素,如果是相同的,就以這個新的像素為基礎(chǔ)進行相同的處理過程。這種自己調(diào)用自己的方法被稱為“遞歸”方法。

這種最簡單像素判斷的“遞歸”算法帶來的一個問題是,它不去記住已經(jīng)判斷過的像素,每次遞歸調(diào)用都是上下左右四個像素都進行判斷,這樣每個湖面的像素點很可能會被重復(fù)判斷四次。這種算法就是純粹算力依賴型的。我當時就建立了一種“有向潮涌填充算法”,可以使湖面的每個像素點只要被判斷一次就可以了。其原理也就是歷史經(jīng)驗知識依賴型的方法,把已經(jīng)判斷過的像素記?。▽嶋H實現(xiàn)中是采用記信相同顏色的線段兩個端點),這樣就可以使所有湖面的像素基本上作一次判斷就可以了,這就使計算效率達到了最理想的程度。實現(xiàn)這個軟件后,我與美國當時最先進的同類軟件進行了對比測試,的確效率成倍提高,與理論分析是一致的,達到了當時世界上最高的計算效率。這個給我非常大的觸動 —— 啊,我怎么這么容易就搞出一個世界第一呢?而且改進的幅度居然這么大?在此過程中,我對軟件系統(tǒng)的效率問題專門作過大量的研究。例如,將最常用到的變量(如計數(shù)器變量等)設(shè)置成CPU中的寄存器變量的話,因為寄存器訪問速度最快,所以即使其他部分不作變動,軟件所需要的計算時間也會顯著縮短。

研究生畢業(yè)后我作為王碼電腦惠州有限公司的總工程師,進行過大量電腦硬件和軟件開發(fā)工作。在此期間我刻意研究過軟件系統(tǒng)的效率問題。例如,我曾將一個數(shù)據(jù)庫系統(tǒng)整個軟件和數(shù)據(jù)通過當時的一個“虛擬硬盤”的軟件全部裝進內(nèi)存里,就這么一個簡單的措施,居然讓運算效率提升了一個數(shù)量級。

這些研究經(jīng)歷使我明白一個道理:美國因為是CPU芯片等計算能力生產(chǎn)的核心,它的產(chǎn)品研發(fā)理念是不缺計算能力,但軟件編程的工程師很貴。所以采用編程盡可能簡單、好管理,而不用太關(guān)注計算效率的信息技術(shù)文化。

2.商業(yè)因素

形成這種文化還有第二個方面的商業(yè)原因。因為CPU是INTEL等公司生產(chǎn)的,他們嚴格按照摩爾定律不斷地成倍升級芯片性能。如果拋棄計算依賴型的算法,過多地提升計算效率,新的CPU就不會有那么強烈的需求了。在整個信息技術(shù)的硬件產(chǎn)品中,掌握CPU的公司無疑具有整個信息技術(shù)架構(gòu)最基本的標準控制能力。所以,在所有硬件中,掌握CPU的公司相比于存儲產(chǎn)品的公司,擁有更大的話語權(quán)。外設(shè)類的公司話語權(quán)就更弱了。

所謂的WINTEL聯(lián)盟,就是這兩家公司形成一種默契,INTEL會說服微軟根本不用過于關(guān)注軟件的計算效率,這個問題交給INTEL來解決就可以了。微軟也樂得將更多精力關(guān)注于編程的簡單性和用戶界面的更加友好。因此,這種文化長期演變下來,就會在計算效率上形成巨大的改進空間。

這種計算效率非常低下的改進空間,在人工智能時代也延續(xù)到英偉達與OpenAI等形成的軟硬件體系上。

事實上,所有那些技術(shù)改進,提升計算效率的方法美國人都知道,甚至大多數(shù)都是他們最先提出來的。但因為這種文化的形成他們,甚至因為商業(yè)的人為因素,他們不會去充分利用這些技術(shù),在一定條件下還會人為地故意降低硬件的使用效率,甚至會使這種效率的人為降低達到令人感到匪夷所思的荒唐地步,僅此而已。

這就是為什么DeepSeek可以將人工智能的計算效率提升這么大的技術(shù)可能性所在。

六、中國式的“編程依賴型、硬件資源極小化”文化

1.中國歷史形成的硬件資源極小化的文化

中國共產(chǎn)黨從最初創(chuàng)立之始,就是在極度缺乏各種硬件資源的條件下發(fā)展起來的。所以,中國早就形成了“編程依賴型的、硬件資源極小化”的文化。這種文化體現(xiàn)在非常多的領(lǐng)域,例如抗美援朝戰(zhàn)場上,志愿軍能將武器裝備的資源利用效率,通過各種途徑發(fā)揮到極致,利用的是“人的主觀能動性”。但美國卻是一種簡單投入更多硬件資源的所謂“范弗里特彈藥量”文化。

硬件資源極小化,對應(yīng)的就是硬件資源利用率的極大化。

在信息技術(shù)領(lǐng)域,中國并不是從一開始就形成硬件資源極小化文化的。因為美國最初掌握了幾乎所有硬件,給其他人留下的主要是應(yīng)用層的編程。如何去調(diào)用最底層硬件資源的算法,是通過各種“函數(shù)庫”、高級編程語言等給封裝起來的。單純應(yīng)用層的編程人員只知道程序在干什么,一般并不知道它具體在CPU、寄存器、內(nèi)存、緩存、硬盤、總線中是怎么存儲、傳輸和計算的。在這種情況下就很難去提升硬件效率。

但是,隨著中國產(chǎn)業(yè)鏈不斷地深入到底層的硬件,中國的工程師們也逐步了解了最底層的技術(shù)細節(jié)。要想充分地發(fā)揮硬件的能力,就需要在編程時采用更為底層的編程方法。采用匯編語言一般來說就很容易實現(xiàn)比高級語言的硬件效率更高。尤其中國公司做了更多軟硬件集成的系統(tǒng)工作,對充分發(fā)揮硬件能力的技術(shù)積累有很多的條件和機會。

DeepSeek主要采用的編程語言是PTX(Parallel Thread Execution)語言,接近于比較底層的匯編語言,它可以更好地在大算力需求的程序上直接調(diào)度硬件資源,從而實現(xiàn)更高的硬件效率。而一般常用的人工智能高級語言Python,主要被用于模型的建構(gòu)、訓練和部署等硬件執(zhí)行效率不是那么高的部分。

因此,DeepSeek就是采用的抗美援朝戰(zhàn)場上志愿軍的打法,用遠低于對手的硬件需求,超高的硬件使用效率,從而能將對手殺得丟盔卸甲。

2.后摩爾定律時代的大趨勢

現(xiàn)在社會很多對人工智能的觀念理解都是錯誤的。例如認為發(fā)展人工智能一定要很大的電力消耗。如果真是這樣的話,人工智能是發(fā)展不下去的。

在過去摩爾定律正常有效的時代,用相同的電力消耗可以持續(xù)獲得成倍增加的算力。但是現(xiàn)在隨著摩爾定律越來越失效,要獲得成倍增加的算力,就得接近于成倍增加電力消耗。如果還是延續(xù)過去摩爾定律有效時代的算力依賴型編程文化,即使中國這樣電力發(fā)展非常好的國家也是承受不了的。

因此,算力提升的困難并不僅僅是中國會遇到,美國也會遇到的。只是中國因為美國對高端芯片的制裁而提前認清了算力不足將在未來成為長期的客觀事實。也造成了中國工程師和企業(yè)提前轉(zhuǎn)向算力極小化的策略。

因此,這一次DeepSeek的沖擊并不僅僅是一次特定產(chǎn)品技術(shù)的沖擊,而是一次兩種信息技術(shù)發(fā)展文化和理念的大對撞。

七、中國的戰(zhàn)略選擇

2024年8月份,DeepSeek的部分投資人和一些人工智能相關(guān)領(lǐng)域的專業(yè)人士,邀請我和華為負責戰(zhàn)略的一位朋友一起進行非正式的餐敘,討論人工智能大模型的相關(guān)問題。雖然說是非正式的討論,但作為投資人當然還是想尋求大模型、尤其DeepSeek的大模型是否可以找到某種商業(yè)模式賺錢。席間剛開始我是不太敢說話的,因為我對人工智能的觀點向來比較保守。華為的朋友一直很坦率地持否定的態(tài)度,認為很難有什么成功的商業(yè)模式。我是在華為的朋友說了很多以后才敢說出自己基本認同他的個人想法的。但是,這個餐敘談得大家都很郁悶和心情沉重,到后來我又不敢再說話了。作為DeepSeek的投資人甚至有些直白地表達出:汪老師,別再這么說了,如果再這么講下去,那就等同于完全否定掉這個項目了。席間我也試圖積極地提出各種商業(yè)模式的可能性,例如模仿Scale AI的打標簽外包等,也提到既然沒有商業(yè)效益,不如完全開源獲得社會效益。

今天DeepSeek的社會效益的確達到了那天我們曾設(shè)想和討論過的所有局面。

這也是幻方量化這家公司可以干成這件事的原因所在,因為他不完全是指望這個掙錢的。

我不能說那次非正式討論對今天的DeepSeek開源起到什么作用,但很欣慰在DeepSeek今天被公眾知道之前,就有機會深入研究過這家公司。

從中國目前特定階段的情況來看,我們已經(jīng)突破了隨機存儲(合肥長鑫等)與閃存(長江存儲等)硬件技術(shù)。從芯片技術(shù)本身來說,存儲的集成度天然地就高于計算,因為在隨機存儲器芯片中,存一個比特信息只需要一個晶體管;在閃存中,一個晶體管甚至可以存2個(MLC閃存芯片)、3個(TLC閃存芯片)、4個(QLC閃存芯片)比特的信息。而在CPU中,一個比特的信息單元至少需要四個晶體管實現(xiàn)。在人工智能算力的芯片領(lǐng)域,中國目前還稍微落后。所以:

在整個硬件的成本平衡中,中國應(yīng)當采用算力極小化,存儲依賴型的策略。以往的計算體系,尤其在PC時代形成的計算體系架構(gòu)中,是以“內(nèi)存稀缺”為前提建立的。例如最初設(shè)計的“虛擬內(nèi)存”技術(shù),就是為解決內(nèi)存非常稀缺的問題而提出的。這種情況在內(nèi)存成本已經(jīng)大幅度降底,并且可以實現(xiàn)海量內(nèi)存以后依然延續(xù)。我曾在1998年就提出過“海量內(nèi)存計算機”的概念,并且相關(guān)文章作為專題分三期發(fā)表在當時的《計算機世界報》上。十年之后SAP公司才提出“內(nèi)存計算”的概念,但“內(nèi)存計算”這個概念是不準確的,因為所有計算都需要內(nèi)存,只有海量內(nèi)存才是本質(zhì)所在。因此,建立“計算稀缺,海量內(nèi)存”為前提的信息技術(shù)架構(gòu),是未來必然的方向。

在整體成本的平衡中,中國則應(yīng)當采用編程依賴型,硬件資源極小化的策略。我在業(yè)界最先提出的SDN(軟件定義網(wǎng)絡(luò)),在數(shù)碼視訊工作時提出的EMR架構(gòu),都是硬件資源需求最小化的解決思路。當時在荷蘭阿姆斯特丹參加IBC展會時,中國廣電系統(tǒng)的領(lǐng)導(dǎo)看了EMR之后興奮的說:太好了,這個和國外相比差距還剩多少啊。我回答說:國外公司和我們相比嘛,那差距還是有的。不好意思,這個體系架構(gòu)的創(chuàng)始人就在你眼前。他們聽后:啊?啊!好呀,好呀!這個體系架構(gòu)引領(lǐng)了當時全球廣電系統(tǒng)的硬件平臺,包括美國的CISCO、德國的Blankom等眾多公司以及中國公司都沿用了這個平臺架構(gòu),成為了全球的事實標準。過去這些技術(shù)策略只是在部分領(lǐng)域采用,而在未來需要成為一種具有普遍性的文化和發(fā)展戰(zhàn)略全面超越美國的基本戰(zhàn)略策略,也是中國的優(yōu)勢所在。如果只是補上EUV光刻機與英偉達同級別的人工智能算力芯片,那最多只是與對手打平。只有采用完全不同的賽道,不同的信息技術(shù)文化,才能全面實現(xiàn)超越。

以此戰(zhàn)略策略為指南,動員了全國的工程技術(shù)人員、相關(guān)企業(yè)、政府人員和投資者,就造成了陷敵于滅頂之災(zāi)的汪洋大海,造成了彌補算力芯片、EUV光刻機等等暫時不足的補救條件,造成了克服一切困難并引領(lǐng)未來人類信息技術(shù)架構(gòu)和標準的前提。