
?無(wú)盡的算力戰(zhàn)爭(zhēng)
1965年6月的一個(gè)深夜,決定成為一名偉大的小說(shuō)家的史努比,在一臺(tái)沉重的老式打印機(jī)上,敲下了引人入勝的名著開(kāi)頭:
在一個(gè)漆黑的、風(fēng)雨交加的夜晚…
據(jù)說(shuō),史努比構(gòu)思的一切精彩小說(shuō),都是從這個(gè)艮古不變的開(kāi)頭寫起的。
也就在這一年,史努比戰(zhàn)勝了肯尼迪、赫魯曉夫、披頭士等強(qiáng)大對(duì)手,登上了《時(shí)代》雜志的封面。它覺(jué)得它當(dāng)之無(wú)愧。

然鵝,一個(gè)美麗童話的終結(jié),總是意味著另一個(gè)天方夜譚的開(kāi)始。
2022年12月,年僅8歲的伊薩克·亞當(dāng)斯命令一個(gè)冰冷的程序,寫一個(gè)類似于史努比的小說(shuō)開(kāi)頭。很快,他得到了它:
那是一個(gè)凄涼的大霧之夜,是那種讓最勇敢的人也感到戰(zhàn)栗的夜晚…
看到這個(gè)遠(yuǎn)超史努比的小說(shuō)開(kāi)頭,亞當(dāng)斯睜大了眼睛,怯生生地縮回手指,以為看到了神跡。
事實(shí)上,為人們寫詩(shī)、寫小說(shuō),僅僅是這個(gè)軟件最粗陋的應(yīng)用。而一切故事的開(kāi)始,都發(fā)生于2022年11月30日。
這一天,OpenAI倉(cāng)促發(fā)布了該公司落后一代的大型語(yǔ)音AI模型,用于垂直打擊市場(chǎng)上同類聊天AI產(chǎn)品,這就是在GPT-3基礎(chǔ)上微調(diào)而成的:
ChatGPT。
市面上的同類營(yíng)銷產(chǎn)品應(yīng)聲倒地,整個(gè)世界為之徹底改變。
北密歇根大學(xué)的學(xué)術(shù)委員會(huì)激烈地抨擊了ChatGPT,因?yàn)樗珜懙恼撐耐ㄟ^(guò)了盲審第一輪;硅谷高科技公司的HR叫苦不迭,因?yàn)橛兄袑W(xué)生通過(guò)ChatGPT答題,順利通過(guò)了年薪50萬(wàn)美元的工程師筆試。
ChatGPT不僅能夠以自然語(yǔ)言與人類進(jìn)行互動(dòng)問(wèn)答、撰寫小說(shuō)劇本,還能生成可用的編程代碼、學(xué)術(shù)論文…它似乎無(wú)所不能。
那么古爾丹,代價(jià)是什么呢?

答案就矗立在距離美國(guó)首都華盛頓僅有數(shù)十英里的微軟云數(shù)據(jù)中心。
被稱之為北弗吉尼亞州數(shù)據(jù)中心的大樓里層層疊疊地堆滿了服務(wù)器,粗壯的同軸電纜把來(lái)自世界各地的指令導(dǎo)入其中,代碼總量達(dá)350G的ChatGPT通過(guò)高性能的GPU處理數(shù)據(jù),在輸出結(jié)果的同時(shí),也消耗了天量的電力,產(chǎn)生了大量的熱能。
國(guó)際能源署(IEA)發(fā)布的白皮書指出:
ChatGPT每響應(yīng)一個(gè)請(qǐng)求需要消耗2.9瓦時(shí),這相當(dāng)于一個(gè)5瓦的LED燈泡亮35分鐘。
盡管北弗吉尼亞州數(shù)據(jù)中心擁有275個(gè)數(shù)據(jù)中心和超過(guò)2600兆瓦的配套電力,盡管在這里電價(jià)已經(jīng)低至0.07美元/千瓦時(shí),但這依然是一個(gè)沉重的負(fù)擔(dān):
ChatGPT每天都需要響應(yīng)90億次問(wèn)題指令,每年消耗的電力是9太瓦時(shí)(1太瓦時(shí)=10^9千瓦時(shí),1千瓦時(shí)即為1度電),接近一個(gè)中等核電站的全年滿負(fù)荷發(fā)電量。

AI大模型能源消耗的瘋狂飆升,源于支持AI運(yùn)行的芯片組,后者被廣泛應(yīng)用于“更高、更快、更強(qiáng)”的算力戰(zhàn)爭(zhēng)。
一方面,高算力要求高性能的芯片集成,對(duì)應(yīng)著功耗的增加;另一方面,高功耗又會(huì)增加芯片的發(fā)熱量。
IEA報(bào)告指出,數(shù)據(jù)中心的電力需求主要來(lái)自計(jì)算和冷卻兩個(gè)方面,兩者各占總電力需求的40%。而它們又反過(guò)來(lái)推高了ChatGPT的運(yùn)營(yíng)成本。
目前,ChatGPT API的價(jià)格是0.002美元/千token。相當(dāng)于每輸出100萬(wàn)個(gè)英文單詞支付2.7美元,也相當(dāng)于輸出50萬(wàn)個(gè)中文需支付18元人民幣。
IEA報(bào)告估算,如果全球60%的AI算力需求可以經(jīng)算法優(yōu)化后由中端芯片承載,由此節(jié)約的成本將以萬(wàn)億美元計(jì)。
但事實(shí)上,算力戰(zhàn)爭(zhēng)從未停止,高性能芯片的需求一再被拉升——近年來(lái),英偉達(dá)昇騰芯片的出貨量,每年增速都接近300%,還供不應(yīng)求。
對(duì)此,硅谷的高科技公司似乎并不在乎。在投資人的慷慨解囊下,它們不用在乎“燒錢”,也不用在乎被諷刺為“大力出奇跡”,只要成為最終活下來(lái)的勝利者,這些都不是事。
只是,AI應(yīng)用必然要因?yàn)樽分鹚懔Γ豢ㄔ诟叱杀镜墓秩χ袉幔?/p>
一家來(lái)自中國(guó)的初創(chuàng)公司決定說(shuō)“不”。
2025年1月20日,一家名為DeepSeek的中國(guó)人工智能公司發(fā)布了DeepSeek-R1 模型,其性能可比肩OpenAI o1正式版,但由于采用強(qiáng)化學(xué)習(xí),其成本已經(jīng)降到了不可思議的地步。
綜合36氪等媒體報(bào)道,GPT-4o模型訓(xùn)練成本約為1億美元,而DeepSeek僅用了2048塊GPU,訓(xùn)練了不到2個(gè)月,共花費(fèi)550多萬(wàn)美元。其成本只有GPT-4o的1/20。
低廉的成本成為DeepSeek“免費(fèi)商用、完全開(kāi)源”策略的底氣所在,由此形成的沖擊,超乎了幾乎所有人的想象。
最先被震驚的是華爾街的投資人,他們驚呼DeepSeek是“來(lái)自神秘東方的魔法”。無(wú)數(shù)投資人忙著訂飛往杭州的機(jī)票,哪怕是所謂的紅眼航班也不要緊,哪怕大洋彼岸正忙著過(guò)年…也不要緊。
投資嗎,就要拿出三顧茅廬的誠(chéng)意來(lái)啊,混蛋!
然后感受到威脅的是硅谷的科技精英。畢竟550萬(wàn)美元的訓(xùn)練成本過(guò)于寒磣,它甚至于不及一名資深A(yù)I工程師的年薪。
現(xiàn)在,這么低成本的AI模型登陸應(yīng)用商店,硅谷的AI工程師能怎么辦?他們也很絕望啊,難不成要自愿降薪到1/20?
而美國(guó)網(wǎng)友則樂(lè)瘋了。1月27日,DeepSeek應(yīng)用登頂蘋果美國(guó)地區(qū)應(yīng)用商店免費(fèi)APP下載排行榜,在美區(qū)下載榜上超越了ChatGPT。
一時(shí)間,從太平洋西岸的洛杉磯到太平洋東岸的上海,DeepSeek的名字無(wú)人不知無(wú)人不曉,而從寂寂無(wú)聞的發(fā)布到席卷全球的追捧,它僅用了不到一周的時(shí)間。
?DeepSeek強(qiáng)在哪里?
美國(guó)著名財(cái)經(jīng)頻道CNBC在最新訪談節(jié)目中表示,DeepSeek 的出現(xiàn),對(duì)以 OpenAI 為代表的主流AI巨頭構(gòu)成了實(shí)質(zhì)性威脅。

但我們都知道,人們都已經(jīng)習(xí)慣于夸大競(jìng)爭(zhēng)對(duì)手的強(qiáng)大,以此索要更高的投入。
那么,DeepSeek究竟好在哪里?
讓我們從一篇16頁(yè)的論文談起。
2025年1月22日,DeepSeek AI在GitHub公開(kāi)了一篇學(xué)術(shù)論文,介紹了DeepSeek系列模型的技術(shù)邏輯,從中說(shuō)明了如何在Open AI的基礎(chǔ)上進(jìn)行蒸餾優(yōu)化。

在論文的引言部分中,作者指出一個(gè)反直覺(jué)的結(jié)論:
Open AI的o1模型之所以取得成功,是因?yàn)樗鼪](méi)有像傳統(tǒng)大模型一樣,把算力集中在模型的預(yù)訓(xùn)練上,而是把更多資源分配給模型的推理,賦予后者更多的算力,以實(shí)現(xiàn)性能的大幅提升。
打個(gè)比方,一個(gè)好的教師,好就好在沒(méi)有讓參加考試的小朋友把時(shí)間和精力集中在“刷題”之上,而是讓他們集中思考怎么把問(wèn)題分解,轉(zhuǎn)化為已知問(wèn)題。

(傳統(tǒng)的AI大數(shù)據(jù)模型中,預(yù)訓(xùn)練是很重要的一環(huán),它限定了AI“學(xué)什么”)
不過(guò),因?yàn)镺pen AI的o1模型沒(méi)有開(kāi)源,DeepSeek的開(kāi)發(fā)者也不知道具體的邏輯原理,相當(dāng)于試卷中只有標(biāo)準(zhǔn)答案,但沒(méi)有解題過(guò)程。
因此,開(kāi)發(fā)者就通過(guò)“大范圍強(qiáng)化學(xué)習(xí)”( large-scale reinforcement learning)的策略,讓模型在缺少“外部監(jiān)管”的環(huán)境中,自己根據(jù)標(biāo)準(zhǔn)答案,在試卷上進(jìn)行反復(fù)推理,做錯(cuò)了修改,做對(duì)了予以價(jià)值評(píng)判,給予正反饋。這就是DeepSeek R1-zero模型的基本原理。
當(dāng)然,除了強(qiáng)化學(xué)習(xí)的技術(shù),開(kāi)發(fā)者還加入了GRPO優(yōu)化和正則化獎(jiǎng)勵(lì)。
GRPO優(yōu)化(Group Relative Policy Optimization)是采用分組,對(duì)同一個(gè)問(wèn)題生成多條候選輸出,并以組內(nèi)相互比較的方式來(lái)估計(jì)相對(duì)獎(jiǎng)勵(lì)的方法。
打個(gè)比方,GRPO更接近于“小組競(jìng)爭(zhēng)學(xué)習(xí)法”,也就是把全班同學(xué)分為若干個(gè)小組,組員合作完成解答成果,然后做好PPT,派代表上臺(tái)講解解題過(guò)程,而授課教師全程評(píng)判,選取“最符合答案”的解題思路,然后把它作為下一輪的標(biāo)尺(benchmark),發(fā)放給所有的小組,讓各小組繼續(xù)學(xué)習(xí),開(kāi)始第二輪的答題…如此反復(fù),逼近最滿意解。
采用GRPO的AI模型,計(jì)算資源的消耗量下降了約40%,訓(xùn)練速度提升了兩倍以上。

所謂正則化獎(jiǎng)勵(lì)(Regularizer Reward),是指在得出的完整答案中,根據(jù)經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化的原則,加上一個(gè)規(guī)則化項(xiàng)(regularizer)或罰項(xiàng)(penalty term),調(diào)整答案的權(quán)重。
這就相當(dāng)于小朋友完成答題后,除了要求答案正確,還要求解題過(guò)程必須完整(程式化)、字跡清晰(標(biāo)準(zhǔn)化),絕不能和數(shù)學(xué)大神一樣思維跳脫,動(dòng)不動(dòng)就寫出“由上易得”、“顯然有”…之類的虎狼之詞。
正則化獎(jiǎng)勵(lì)的優(yōu)勢(shì),不僅僅是便于溯源,而且還能遏制機(jī)器學(xué)習(xí)過(guò)程中拼湊答案的不良苗頭——畢竟問(wèn)題是已知的,結(jié)論也是已知的,中間蒙一下瞎寫一個(gè)答題過(guò)程,也是人/機(jī)器之常情。
經(jīng)由正則化獎(jiǎng)勵(lì)獲得的實(shí)驗(yàn)結(jié)果,可以讓GRPO的迭代學(xué)習(xí)更有效率,更加優(yōu)化。

總之,感謝即使翻譯工具,讓我這個(gè)門外漢也能囫圇吞棗地了解DeepSeek的基本學(xué)習(xí)策略。
而這三大策略的“組合技”威力也是巨大的。
例如強(qiáng)化學(xué)習(xí)策略減少了監(jiān)督微調(diào)過(guò)程;獎(jiǎng)勵(lì)機(jī)制便于篩選出更優(yōu)質(zhì)的語(yǔ)料,指導(dǎo)模型改進(jìn)推理;GRPO則提高了訓(xùn)練效率,減少了功耗。更重要的是,在沒(méi)有預(yù)設(shè)代碼的背景下,DeepSeek在迭代強(qiáng)化學(xué)習(xí)的過(guò)程中擁有了“頓悟”的感覺(jué),非常接近“一力降十會(huì)”的Open AI模型。
此外,DeepSeek R1的蒸餾技術(shù)也非常出彩。所謂蒸餾技術(shù),就是把大模型的推理能力遷移到小模型中,從而實(shí)現(xiàn)計(jì)算效率與性能結(jié)果的動(dòng)態(tài)平衡。
打個(gè)比方,就是先用R1大模型生成數(shù)十萬(wàn)條高質(zhì)量的推理樣本,然后以這些樣本作為監(jiān)督微調(diào)的范式,去訓(xùn)練小模型,從而讓小模型在某些方面達(dá)到接近于大模型的性能。
論文中列舉了一個(gè)有趣的例子,在解答一道國(guó)際數(shù)學(xué)奧賽題的過(guò)程中,經(jīng)過(guò)蒸餾技術(shù)訓(xùn)練的千問(wèn)模型(擁有7B的參數(shù),也就是70億個(gè)參數(shù)),在性能上已經(jīng)接近了此前的32B模型(擁有320億個(gè)參數(shù))。

(論文發(fā)布后,有研究人員經(jīng)過(guò)測(cè)試,基本復(fù)現(xiàn)了圖表中的統(tǒng)計(jì)結(jié)論,由此引發(fā)業(yè)界轟動(dòng))
但這并不意味著DeepSeek甫一出世,就能取代其他AI產(chǎn)品,就能終結(jié)AI行業(yè)對(duì)算力的依賴(例如有人狂言,DeepSeek R1發(fā)布后,英偉達(dá)的芯片滯銷,穿皮衣的黃教主趕緊來(lái)訪問(wèn)中國(guó)了…)
Open AI的前代教父卡帕西一再表示:
(DeepSeek R1的成功)并不意味著大模型不再需要GPU的大規(guī)模集成,因?yàn)槲覀儽仨毚_保模型不浪費(fèi)現(xiàn)有資源。
作為圈內(nèi)大佬,卡帕西的話比較含蓄。他其實(shí)是說(shuō):
DeepSeek R1模型很可能是把ChatGPT的模型的知識(shí)蒸餾到了新模型之中,以之前存在的海量高質(zhì)量模型提取出少量的高質(zhì)量數(shù)據(jù),以此作為新模型的訓(xùn)練數(shù)據(jù),進(jìn)而得到接近于原始數(shù)據(jù)的訓(xùn)練效果。
也就是說(shuō),Deepseek是一個(gè)善于從知識(shí)的汪洋里采摘明珠的孩子,這當(dāng)然是極好的。但不能因此認(rèn)為,為知識(shí)的海洋添加活水的其他孩子就不重要了——傳統(tǒng)的大數(shù)據(jù)模型(例如Open AI)就是“其他的孩子”,而它們使用的工具,就是GPU集群。
你不能因?yàn)閷W(xué)生模型有著出色表現(xiàn),就否認(rèn)教師模型的作用。
這里我需要強(qiáng)調(diào)一點(diǎn),DeepSeek并不是Open AI的換皮產(chǎn)品,但它在應(yīng)用部署過(guò)程中使用了蒸餾技術(shù),并將ChatGPT作為教師模型,這一點(diǎn)是大概率的事。
例如某媒體報(bào)道。一位科技圈知名評(píng)測(cè)研究員曾報(bào)告一個(gè)早期DeepSeek版本的bug:當(dāng)你問(wèn)“你是什么模型”的時(shí)候,DeepSeek說(shuō)它是:
ChatGPT。

所以O(shè)pen AI的CEO山姆·奧特曼在近期發(fā)文稱:
復(fù)制你知道有效的東西是相對(duì)容易的,而嘗試一些新的、有風(fēng)險(xiǎn)且你不知道效果如何的事情,是極其困難的,但那也是最酷的事…

(凹凸曼教主的發(fā)言,沒(méi)有一個(gè)字提及DeepSeek,但沒(méi)有一句話不在暗示DeepSeek,其中糾結(jié),用心良苦)
但我們并不能因此否認(rèn)DeepSeek R1的偉大。
在某種程度上,高質(zhì)量的蒸餾才是DeepSeek R1模型的最突出貢獻(xiàn)。這意味著“分布式AI”成為一種可能。換而言之,我們可以把算力較低的機(jī)器(例如家用計(jì)算機(jī),小型服務(wù)器,甚至手機(jī))接入大模型,經(jīng)過(guò)蒸餾訓(xùn)練后,得到與大模型接近的性能。
而如果把眼界放得更長(zhǎng)遠(yuǎn)一點(diǎn),高質(zhì)量的蒸餾技術(shù),可以緩解算力緊張的危機(jī)。對(duì)于GPU進(jìn)口大門被限制、相關(guān)資源有限的國(guó)家來(lái)說(shuō),更是具有重大的工程意義。
因此,像Deepseek這樣的AI是藏不住的。
就算它有諸多不如意之處,它的口碑也會(huì)從每一次免費(fèi)對(duì)話中流出來(lái),攔不住,也斷不掉。
哪怕很少有人能夠說(shuō)出它的原理,但也已經(jīng)不重要了。
?那些開(kāi)發(fā)了DeepSeek的年輕人
掌聲如潮水般涌起,涌向僅有140名員工的DeepSeek公司。
美國(guó)硅谷的同行稱之為“神秘的東方力量”,誠(chéng)邀團(tuán)隊(duì)人員參加最前沿的會(huì)議;而在國(guó)內(nèi),各路同行公司揮舞支票,盼望著DeepSeek開(kāi)發(fā)團(tuán)隊(duì)人員的加盟。
最新的消息是,雷軍成功地以千萬(wàn)年薪挖角“天才AI少女”羅福莉。對(duì)此,DeepSeek稱,研究員羅福莉確實(shí)已經(jīng)離職,但不清楚是否加入了其他公司。
如彗星般崛起的羅福莉,其實(shí)是一名“95后”。她在攻讀北京大學(xué)計(jì)算語(yǔ)言學(xué)碩士期間,因在國(guó)際計(jì)算語(yǔ)言學(xué)協(xié)會(huì)(ACL)上發(fā)表多篇論文而聲名鵲起,然后畢業(yè)后加入阿里巴巴達(dá)摩院,再在2022年進(jìn)入幻方量化,參與DeepSeek大模型項(xiàng)目。

(作為一名自信的95后,羅福莉在社交媒體上回答了網(wǎng)友的提問(wèn),并公布了自己的照片)
而整個(gè)DeepSeek團(tuán)隊(duì),甚至它的母公司幻方量化,基本由年輕人構(gòu)成。
例如在2023年5月,DeepSeek發(fā)布V2模型時(shí),在主頁(yè)上重點(diǎn)介紹了作出卓著貢獻(xiàn),但又最為年輕的兩位成員。
第一位是2013年被保送到北京大學(xué)物理系的廣東人高華佐,第二位是2017年考入北京郵電大學(xué)的湖南新化人曾旺丁。
他們是那么的年輕,但在二十多歲的年紀(jì)時(shí),就已經(jīng)為改變這個(gè)世界盡了一份自己的努力。
而幾乎每一個(gè)DeepSeek團(tuán)隊(duì)的成員,都對(duì)公司創(chuàng)始人梁文鋒表達(dá)了敬意。
在接受騰訊“暗涌”的專訪時(shí),梁文鋒表達(dá)了他選人、用人的標(biāo)準(zhǔn)。他說(shuō),過(guò)去很多年,中國(guó)公司習(xí)慣了別人做技術(shù)創(chuàng)新,我們拿過(guò)來(lái)做應(yīng)用變現(xiàn),但這并非是一種理所當(dāng)然。這一波浪潮里,我們的出發(fā)點(diǎn),就不是趁機(jī)賺一筆,而是走到技術(shù)的前沿,去推動(dòng)整個(gè)生態(tài)發(fā)展。
隨著經(jīng)濟(jì)發(fā)展,中國(guó)也要逐步成為貢獻(xiàn)者,而不是一直搭便車。例如過(guò)去三十多年 IT 浪潮里,我們基本沒(méi)有參與到真正的技術(shù)創(chuàng)新里。我們已經(jīng)習(xí)慣摩爾定律從天而降,躺在家里 18 個(gè)月就會(huì)出來(lái)更好的硬件和軟件。
因此,梁文鋒選人的第一個(gè)原則,就是好奇心和創(chuàng)造欲。
例如他說(shuō),團(tuán)隊(duì)成員在午歇期間聊天,聊起人工智能的本質(zhì)是不是語(yǔ)言。因?yàn)槿祟惖乃季S最終是以語(yǔ)言表達(dá)出來(lái)的,你以為你在思考,其實(shí)是在腦子中組織語(yǔ)言,它們看上去是一回事。
梁文鋒認(rèn)為這個(gè)想法很有意思,愿意提供資源,鼓勵(lì)成員去了解語(yǔ)言學(xué)相關(guān)知識(shí),去驗(yàn)證這個(gè)猜想——這個(gè)猜想的答案也許無(wú)用,也許會(huì)成為催生人工智能的關(guān)鍵。
除此以外,梁文鋒喜歡從國(guó)內(nèi)的TOP高校招募應(yīng)屆生。
他認(rèn)為,也許行業(yè)中前50名頂尖人才可能不在中國(guó),但我們能利用本土人才打造這樣的人。因?yàn)楸就链髮W(xué)的應(yīng)屆生,往往有著敢愛(ài)敢做的創(chuàng)新精神。
梁文鋒說(shuō),應(yīng)屆生有一個(gè)好,就是認(rèn)為所有的套路都是上一代的產(chǎn)物,未來(lái)不一定成立,這對(duì)創(chuàng)新是非常重要的。
因?yàn)槿绻非蠖唐谀繕?biāo),找現(xiàn)成有經(jīng)驗(yàn)的人是對(duì)的。但如果看長(zhǎng)遠(yuǎn),經(jīng)驗(yàn)就沒(méi)那么重要了。例如做一件事,有經(jīng)驗(yàn)的人會(huì)不假思索告訴你,應(yīng)該這樣做,但沒(méi)有經(jīng)驗(yàn)的人,會(huì)反復(fù)摸索、很認(rèn)真去想應(yīng)該怎么做,然后找到一個(gè)符合當(dāng)前實(shí)際情況的解決辦法。
因此幻方量化有個(gè)招人的原則,就是核心技術(shù)崗位,基本以應(yīng)屆和畢業(yè)一兩年的人為主。
其實(shí),就連梁文鋒創(chuàng)立幻方量化時(shí),他本人都沒(méi)有任何量化經(jīng)驗(yàn)。
2002年,梁文鋒以廣東省吳川市第一中學(xué)“高考狀元”的成績(jī)考上浙江大學(xué)電子信息工程專業(yè),后來(lái)又攻讀該校碩士,因?yàn)樽稣n題才積累了市場(chǎng)行情數(shù)據(jù)和探索全自動(dòng)量化交易。
2010年,碩士畢業(yè)后的梁文鋒與同校好友徐進(jìn)一起創(chuàng)業(yè),并在2015年共同創(chuàng)辦了幻方量化?;梅胶芸炀统蔀閲?guó)內(nèi)四大量化公司之一,2021年管理的基金規(guī)模炒股了千億元大關(guān),并獲得基金界的最高榮譽(yù)金牛獎(jiǎng)。
2019年,為了解決算力瓶頸,梁文鋒創(chuàng)辦了幻方AI公司,投資2億元研發(fā)深度學(xué)習(xí)訓(xùn)練平臺(tái)“螢火一號(hào)”,為此搭載了1100塊GPU顯卡。
在GPU卡脖子事件匯總,梁文鋒成為幸運(yùn)加成的幸運(yùn)兒。對(duì)此,他謙虛地表示:
并不是我在2021年有了什么先見(jiàn)之明,也沒(méi)有一個(gè)不為人知的商業(yè)邏輯,因?yàn)槿绻麊渭冎蛔隽炕顿Y,很少的卡也能達(dá)到目的…我主要就是好奇心驅(qū)動(dòng)。
同樣是因?yàn)榕d趣,梁文鋒在2023年創(chuàng)辦DeepSeek公司,宣布要做通用人工智能(AGI)。他說(shuō):
一件激動(dòng)人心的事,或許不能單純用錢衡量。就像家里買鋼琴,一來(lái)買得起,二來(lái)是因?yàn)橛幸蝗杭庇谠谏厦鎻椬鄻?lè)曲的人。
2022年,幻方量化的一位員工以“一只平凡的小豬”的名義,向慈善機(jī)構(gòu)捐款1.38億元,其中的扶持項(xiàng)目涵蓋白血病救助、鄉(xiāng)村工匠、中學(xué)生資助、聽(tīng)障兒童支持、關(guān)愛(ài)老兵等。有人說(shuō),這位員工就是梁文鋒。
2024年10月,梁文鋒的幻方量化發(fā)布一份“告投資者公告”,稱未來(lái)會(huì)逐步將對(duì)沖產(chǎn)品投資倉(cāng)位降低至零。
2025年1月,國(guó)務(wù)院總理主持召開(kāi)專家、企業(yè)家和教科文衛(wèi)體等領(lǐng)域代表座談會(huì),梁文鋒在會(huì)上發(fā)言。

在農(nóng)歷2024年的最后一天,我們看過(guò)了太多灰敗的塌房事件,但AI圈被DeepSeek這條鯰魚攪了個(gè)天翻地覆,顯然是一個(gè)難得的、振奮人心的好消息。
有人說(shuō),當(dāng)經(jīng)濟(jì)開(kāi)始進(jìn)入下行期,資本也進(jìn)入了冷周期,這可能對(duì)生活、工作、創(chuàng)新產(chǎn)生不利。
但我們欣喜地看到,在中國(guó),有這么一批年輕人認(rèn)為,中國(guó)產(chǎn)業(yè)結(jié)構(gòu)的調(diào)整,讓人們發(fā)現(xiàn)過(guò)去靠時(shí)代紅利賺快錢的機(jī)會(huì)消失了,而更愿意俯身去做真正的創(chuàng)新。
中國(guó)的希望,就在于有這樣的年輕人。
王爾德說(shuō):
We are all in the gutter,but some of us are looking at the stars.
(我們都在溝里,但仍有人仰望星空)
——(全文完)——
寫在后面的話:
如果說(shuō),像梁文鋒這樣的年輕人,讓我們看到了中國(guó)的未來(lái),那么萬(wàn)科在昨天的驚天劇變,則貢獻(xiàn)了農(nóng)歷2024年最精彩的冷笑話。
話說(shuō),昨天下午,萬(wàn)科公布預(yù)虧450億元、管理層“被退出”的新聞時(shí),我一點(diǎn)兒都不吃驚。畢竟前些天關(guān)于祝九哥“進(jìn)去又出來(lái)”的新聞,已經(jīng)讓人感慨良多了。
但我顯然低估了這個(gè)突發(fā)事件的戲劇性。
例如,萬(wàn)科原管理層被勸退后,新接盤的深圳地鐵董事長(zhǎng)辛先生擔(dān)任萬(wàn)科新一任董事長(zhǎng),而深圳國(guó)資委某負(fù)責(zé)人稱:
截至2024年底,深圳市市屬國(guó)資國(guó)企資產(chǎn)超過(guò)了5萬(wàn)億元,規(guī)模大、實(shí)力強(qiáng)、有能力、有實(shí)力,也有足夠的“子彈”,支持地鐵集團(tuán)通過(guò)一切可能的市場(chǎng)化、法治化手段,推動(dòng)萬(wàn)科穩(wěn)健發(fā)展。
嗯,這就是改革開(kāi)放的橋頭堡、市場(chǎng)化最徹底的深圳的答復(fù)。
而更秀的是,在萬(wàn)科發(fā)布重磅新聞后僅兩個(gè)小時(shí),王石在朋友圈發(fā)文稱:
國(guó)家隊(duì)出手相助!
我愿稱之為2024年中國(guó)房地產(chǎn)為人民群眾貢獻(xiàn)的最好笑的笑話,沒(méi)有之一。
Anyway,祝讀者胖友們新年玉快~

覺(jué)得有趣,請(qǐng)關(guān)注公眾號(hào):將軍箭
28 Jan 2025
點(diǎn)擊“分享”和“贊”,感謝你的支持
熱門跟貼