2025年伊始,大模型已經(jīng)站在新周期的起點上。

幻方量化旗下AI初創(chuàng)公司DeepSeek成功“破圈”,憑借基于深度學習的量化交易模型“掀翻”了全球人工智能市場的牌桌。這也成為美國、日本進一步加緊對中國半導(dǎo)體產(chǎn)業(yè)實施出口管制的誘因之一。

如果以O(shè)penAI為代表的大語言模型進一步催化了具身智能的發(fā)展,那么DeepSeek的出現(xiàn),證明了在“大力出奇跡”的規(guī)模定律(Scaling Law)之外,AI大模型還有另一條制勝之道:調(diào)整大模型的基礎(chǔ)結(jié)構(gòu)+有效利用有限資源。

我們清晰地看到,以往靠堆算力和一味追求擴大模型尺寸的迭代路徑已經(jīng)被打破。大模型正在從“唯規(guī)模論”轉(zhuǎn)向“性價比”,用更低的能耗和資源實現(xiàn)更高的效能;從海量數(shù)據(jù)轉(zhuǎn)向高質(zhì)量數(shù)據(jù),提高大模型解決垂直行業(yè)問題的能力。

過去一年,AI智能體、AIGC、多模態(tài)塑造了大模型的應(yīng)用場景;新一年,由DeepSeek 引發(fā)的技術(shù)拐點將變得更加明顯,全球大模型市場競爭格局有望被改寫。

打開網(wǎng)易新聞 查看精彩圖片

站在AI門口的“圈外人”

站在AI門口的“圈外人”

作為一家成立不到兩年的大模型公司,無論在融資、技術(shù)進展還是輿論層面,DeepSeek一向都名不見經(jīng)傳。而它背后的母公司幻方量化,在此之前也僅在私募圈出名。

出人意料的是,一家私募和一家大模型初創(chuàng)公司,這樣少見的組合演繹了“DeepSeek神話”,原本用于量化投資的大模型,沒想到卻震動了全球科技行業(yè)。

對于身處人工智能行業(yè)的公司而言,“圈外人”DeepSeek的破門而入,真應(yīng)了那句話:“即將消滅你的那個人,迄今還沒有出現(xiàn)在你的敵人名單上?!?/p>

2023年,梁文鋒宣布正式進軍通用人工智能(AGI)領(lǐng)域,創(chuàng)辦深度求索(DeepSeek),僅有139名工程師和研究人員。相比之下,OpenAI有1200名研究人員,開發(fā)Claude模型的Anthropic則有500多名研究人員。

打開網(wǎng)易新聞 查看精彩圖片

雖然團隊規(guī)模不大,DeepSeek在此后一年多里取得了令人矚目的成果。2024年5月,DeepSeek發(fā)布DeepSeek-V2模型,采用了注意力機制方面的MLA(多頭潛在注意力)、前饋網(wǎng)絡(luò)方面的DeepSeekMoE等創(chuàng)新的架構(gòu),以實現(xiàn)具有更高經(jīng)濟性的訓(xùn)練效果和更高效的推理。API定價為每百萬tokens輸入1元、輸出2元,價格僅為美國OpenAI GPT-4 Turbo的百分之一。

去年12月,DeepSeek-V3模型發(fā)布。官網(wǎng)信息顯示,DeepSeek-V3多項評測成績超越了Qwen2.5-72B和Llama-3.1-405B等其他開源模型,甚至可以與GPT-4o、Claude 3.5-Sonnet等頂級閉源模型一較高下。

值得關(guān)注的是,DeepSeek-V3依舊走了一條極高性價比的路徑,其僅使用2048顆算力稍弱的英偉達H800 GPU,成本約為557.6萬美元。相比之下,OpenAI的GPT-4o訓(xùn)練成本高達7800萬美元。這意味著,DeepSeek-V3以十分之一的成本實現(xiàn)了足以與GPT-4o較量的水平。

今年1月20日,DeepSeek進一步取得突破,正式發(fā)布DeepSeek-R1模型。該模型在數(shù)學、代碼、自然語言推理等任務(wù)上,性能比肩OpenAI o1正式版。該模型在后訓(xùn)練階段大規(guī)模使用強化學習(RL)技術(shù),在僅有極少標注數(shù)據(jù)的情況下,極大提升了模型推理能力。

對此,美國OpenAI創(chuàng)始成員之一的安德烈·卡帕西(Andrej Karpathy)表示:“DeepSeek在有限資源下展現(xiàn)了驚人的工程能力,它可能重新定義大模型研發(fā)的規(guī)則?!敝顿Y公司A16z創(chuàng)始人馬克·安德森(Marc Andreessen)稱贊這是“最令人驚嘆的突破之一,給世界的一份意義深遠的禮物”。

在DeepSeek爆火背后,“通專融合、邏輯推理、輕量化”三大技術(shù)拐點打亂了全球既有的AI市場牌局,動搖了英偉達的“算力信仰”,就像突然殺進牌局的一張王炸,讓人不得不重新審視整個AI市場的游戲規(guī)則。

通用與專家的融合

通用與專家的融合

過去兩年,以ChatGPT為代表的大模型引領(lǐng)了通用人工智能的高速發(fā)展。一方面,大模型的確在智能涌現(xiàn)能力上不斷提升,并從語言快速向多模態(tài)、具身智能發(fā)展;另一方面,大模型帶來了算力、數(shù)據(jù)、能耗的挑戰(zhàn),在應(yīng)用上泛化能力、幻覺問題仍然是很大的兩個瓶頸。

在2017年Transformer提出以后,大模型在泛化能力上“狂飆”,但此前擅長的專業(yè)能力進步緩慢。

OpenAI首席執(zhí)行官Sam Altman曾坦言,GPT-4的專業(yè)能力大概相當于10%-15%的專業(yè)人士,即使迭代到GPT-5,其專業(yè)能力預(yù)計也只會提高4-5個百分點。這意味著,OpenAI將用指數(shù)級的能源消耗增長換來緩慢的專業(yè)能力提升。

如果一直順著通用大模型這條路線往前走,基本上是沿著包括Meta、谷歌等企業(yè)的既有路徑,朝著幾十萬卡的規(guī)模去購買顯卡,那意味著中國企業(yè)要與這些企業(yè)進行資源競爭,這不見得是一條最合適的路。

至今,大模型本身存在的專業(yè)性、泛化性和經(jīng)濟性“不可能三角”問題依然未被有效解決,導(dǎo)致目前行業(yè)實際落地應(yīng)用進程并不快。

“通專融合”是通往AGI的戰(zhàn)略路徑,也被業(yè)界視為更適合未來大模型的發(fā)展之路,即構(gòu)建一個既具有泛化性又具備專業(yè)能力的人工智能系統(tǒng)。與目前的大模型相比,這種系統(tǒng)可以更高效、更好地適應(yīng)并解決現(xiàn)實世界中的復(fù)雜問題。

打開網(wǎng)易新聞 查看精彩圖片

DeepSeek-V3以6710億的總參數(shù)規(guī)模成為目前最大的開源模型,但其真正的創(chuàng)新之處在于,每個token僅激活370億參數(shù),這種靈活的資源管理顯著降低了計算成本,提升了資源的利用效率。

這種設(shè)計恰如其分地展示了深度學習領(lǐng)域的一種新趨勢——資源優(yōu)化與算法創(chuàng)新的完美結(jié)合。如何有效管理和調(diào)度計算資源,已經(jīng)成為提升AI模型性能的關(guān)鍵所在,而DeepSeek-V3的混合專家架構(gòu)(Mixture of Experts,MoE)則為此提供了一個極具參考價值的范例。

MoE架構(gòu)將復(fù)雜問題分解為多個子任務(wù),由不同的“專家”網(wǎng)絡(luò)處理。這些專家是針對特定領(lǐng)域或任務(wù)訓(xùn)練的小型神經(jīng)網(wǎng)絡(luò),例如語法、事實知識或創(chuàng)造性文本生成。

打開網(wǎng)易新聞 查看精彩圖片

與傳統(tǒng)模型對每個輸入激活所有參數(shù)不同,MoE僅激活與當前任務(wù)相關(guān)的專家。這種選擇性激活顯著降低了計算資源的需求,同時保持了高性能。通過“專家選擇”路由算法,DeepSeek-V3任務(wù)在各個專家間的負載均衡,避免某些專家過載或閑置。

這使得DeepSeek-V3的適用性大幅提升,不僅適合高性能計算環(huán)境,也能在資源有限的條件下實現(xiàn)出色的表現(xiàn)。

“通專融合”必須實現(xiàn)“通用泛化性”“高度專業(yè)性”“任務(wù)可持續(xù)性”三者兼得。

關(guān)于通專融合的目標,一方面,隨著合成數(shù)據(jù)飛輪效應(yīng)的加速,過去一年基礎(chǔ)模型獲取通用能力的難度顯著降低;另一方面,在世界知識的壓縮能力上,開源模型的性能已無限逼近閉源模型。

然而,不管是開源還是閉源模型,在專業(yè)化能力方面仍存在顯著瓶頸。例如,在實際的軟件工程環(huán)境中,GPT-4僅能解決GitHub中1.74%的人類提出的問題。即便通過引入大量工具、結(jié)合基礎(chǔ)模型與工具型Agent的方式,這一比例也僅提升至13.85%。

可以看到,目前對于世界知識進行壓縮的發(fā)展路徑正在自然演進,但這之上的專業(yè)能力,才是現(xiàn)階段AGI皇冠上的明珠。因此,“通專融合”將是一條必然的路徑。

從“快思考”到“慢思考”

從“快思考”到“慢思考”

在卡尼曼的《思考,快與慢》一書中,他對人類的兩種思維方式進行了精妙的剖析:快速直觀的感性思考與深入細致的理性思考。

快思考如同靈光一閃,迅如閃電,主導(dǎo)著我們的日常判斷與決策,猶如舞臺上的主角,使生活這部大戲得以流暢進行。然而,這種快速反應(yīng)有時卻像被霧氣籠罩的鏡子,容易受到情感和刻板印象的影響,導(dǎo)致決策失誤。

相比之下,慢思考則如同精雕細琢的匠人,需要我們投入更多的認知資源和努力。它如同沉穩(wěn)的智者,通過深入的、有意識的思考,能夠避免快思考中的偏見和誤判,使我們更有可能做出理性、周全的決策。

如今,大模型的發(fā)展也走到了思考“快”與“慢”的十字路口。當靠推數(shù)據(jù)、堆算力形成的快思考正在出現(xiàn)邊際遞減效應(yīng),依靠邏輯能力沉淀而成的慢思考能力將成為大模型的“第二增長曲線”。

2024年最重要的模型更新莫過于OpenAI的o1,以前稱為Q*,也稱為Strawberry。這是第一個具備真正通用推理能力的大模型,而實現(xiàn)這一點靠的是推理時間計算(推理時間計算是指在人工智能和機器學習中,通過增加額外的計算時間來優(yōu)化模型在解決特定問題時的表現(xiàn))。

以前,預(yù)訓(xùn)練模型是通過對大量數(shù)據(jù)的學習,進而實現(xiàn)后續(xù)內(nèi)容的預(yù)測。這背后依賴于大量的模型訓(xùn)練時間,但這種推理能力很有限。

現(xiàn)在,通過推理時間計算,模型會在給你答復(fù)之前停下來思考,這需要在推理時進行更多的計算?!巴O聛硭伎肌钡牟糠志褪峭评?。

這意味著,人工智能的發(fā)展方向發(fā)生了重大變化,即從預(yù)訓(xùn)練所帶來的“快速思考”,向基于強化學習的“慢速思考”發(fā)展,這一演變將解鎖更多新的AI代理應(yīng)用。對此有人預(yù)言,大模型的預(yù)訓(xùn)練時代即將終結(jié)。

當前,大模型的發(fā)展路徑遵循一個易于理解的擴展定律:在預(yù)訓(xùn)練模型上花費的計算和數(shù)據(jù)越多,模型性能就越好。o1則為擴展計算帶來了另一種可能:即給模型推理時間的越長,其推理效果就越好。

OpenAI的最新o1模型標志著使用諸如思維鏈和強化學習等技術(shù)向推理時間的邏輯推演轉(zhuǎn)變。o1模型通過試錯學習最優(yōu)路徑,就像人類解決問題時涉及大量的自我反思和錯誤糾正。這使得模型在復(fù)雜的推理任務(wù)中表現(xiàn)出色,例如數(shù)學、編程和科學查詢。

然而,這種能力是有代價的,o1的每token價格比GPT-4o高3-4倍。另一個類似的模型是DeepSeek的R1-lite-preview。與o1的簡明摘要不同,R1-Lite-Preview會實時向用戶展示其完整的鏈式思維過程。這種對推理時邏輯推演的日益重視可能會增加對低延遲計算的需求。

在提升模型推理能力方面,目前主要的難點是高密度監(jiān)督數(shù)據(jù),例如高難度的問題和更詳細的思維鏈,這些數(shù)據(jù)在自然文本中占比很小,需要研究有效的構(gòu)造方法。

此外,推理能力目前的提升路徑依賴有效的強化學習,在強化學習中如何提升模型的搜索效率,如何訓(xùn)練泛化且可靠的獎勵模型以便于獲取反饋也是難點。

傳統(tǒng)上,監(jiān)督微調(diào)(Supervised Fine-Tuning,SFT)作為大模型訓(xùn)練的核心環(huán)節(jié),需要先通過人工標注數(shù)據(jù)進行監(jiān)督訓(xùn)練,再結(jié)合強化學習進行優(yōu)化,這一范式曾被認為是ChatGPT成功的關(guān)鍵技術(shù)路徑。

但是,DeepSeek-R1-Zero是首個完全摒棄了監(jiān)督微調(diào)環(huán)節(jié)、而完全依賴強化學習訓(xùn)練的大語言模型,證明了無監(jiān)督或弱監(jiān)督學習方法在提升模型推理能力方面的巨大潛力。

打開網(wǎng)易新聞 查看精彩圖片

DeepSeek極低的訓(xùn)練成本預(yù)示著AI大模型的算力需求會加速從預(yù)訓(xùn)練向推理側(cè)傾斜,推理有望接力訓(xùn)練,成為下一階段算力需求的主要驅(qū)動力。

作為一種新的人工智能發(fā)展范式,“快慢結(jié)合”的背后是模擬人腦的系統(tǒng)1與系統(tǒng)2——系統(tǒng)1是人腦的快速決策,反映的是長期訓(xùn)練下的專業(yè)能力;系統(tǒng)2是慢系統(tǒng),體現(xiàn)的是深度思考下的泛化能力。

從“快思考”到“慢思考”,為大模型Scaling Law帶來了新的范式轉(zhuǎn)換。過去大模型的路徑是Next Token Prediction(這是一種自監(jiān)督學習技術(shù),模型被給予一系列token,并預(yù)測下一個。這種方法通過訓(xùn)練模型來學習語言中的統(tǒng)計規(guī)律,從而生成或理解自然語言文本),但預(yù)測下一個詞有局限性,是一個靜態(tài)的數(shù)據(jù)集,沒辦法探索更難的任務(wù),接下來大模型的目標是通過強化學習讓人工智能具備更強的思考能力。

大模型“瘦身”進行時

大模型“瘦身”進行時

OpenAI的火爆來自“大力出奇跡”路線,以規(guī)模作為大模型的制勝法寶可謂屢試不爽。但這也讓AI大模型的發(fā)展陷入了一個怪圈:為追求更高的性能,模型體積不斷膨脹,參數(shù)規(guī)模呈現(xiàn)指數(shù)級增長,算力和成本消耗驚人。

受大模型訓(xùn)練的高昂成本拖累,OpenAI在2024年的虧損額可能達到50億美元,業(yè)內(nèi)專家預(yù)計到2026年其虧損將進一步攀升至140億美元。

而中國人工智能公司運用剪枝、量化、知識蒸餾等一系列創(chuàng)新技術(shù),降低大模型的實際運算負擔,開啟了大模型“瘦身”之路。

然而,這樣的策略也帶來了一個悖論:若大幅度削減大模型的參數(shù)量以適應(yīng)有限的計算資源,那么其原有的規(guī)模優(yōu)勢和豐富的表達能力將會削弱,從嚴格定義上可能就不再符合大模型的標準。

因此,如何在保持大模型強大功能的同時,有效平衡算力需求與效率之間的關(guān)系,成為了該領(lǐng)域未來發(fā)展的重要課題。

以DeepSeek為例,R1在多個基準測試中與美國OpenAI公司的o1持平,但成本僅為o1的三十分之一。模型性能的追趕速度也很快,OpenAI推出正式版o1模型是在2024年12月,僅僅1個多月后,DeepSeek就發(fā)布了性能相當?shù)腞1模型。

打開網(wǎng)易新聞 查看精彩圖片

在訓(xùn)練過程中,DeepSeek采用了推理數(shù)據(jù)集,進一步篩選和提升了數(shù)據(jù)質(zhì)量,為模型提供了可靠的推理基礎(chǔ)。訓(xùn)練后期,通過蒸餾技術(shù)對模型進行輕量化處理,使得模型更適合在消費級顯卡上進行本地部署,降低了對高端算力的需求,同時保留了較強的推理能力。

DeepSeek的成功證明,大模型創(chuàng)新不一定要依賴最先進的硬件,而是可以通過聰明的工程設(shè)計和高效的訓(xùn)練方法實現(xiàn)。

與傳統(tǒng)的預(yù)訓(xùn)練不同,“知識蒸餾技術(shù)”是使用一個大型的“教師模型”來指導(dǎo)一個小型的“學生模型”的訓(xùn)練。用“蒸餾”方式訓(xùn)練小模型,不再直接從訓(xùn)練大模型時會用到的那些巨量數(shù)據(jù)中學習,而只是在模仿。

通俗來講,就像上課的時候老師講了一道爆難的題目,全班除了學霸以外,其他人因為腦子的軟硬件配置不足,都沒搞懂。之后學霸在老師思路的基礎(chǔ)上,簡化了若干個參數(shù)和步驟,使其對大腦軟硬件配置的要求下降,成功教會了全班大部分人。學霸做的這件事,就叫做蒸餾。

打開網(wǎng)易新聞 查看精彩圖片

不過,蒸餾技術(shù)存在一個巨大缺陷,就是被訓(xùn)練的“學生模型”沒法真正超越“教師模型”。因為簡化會損失部分信息,如果損失的是關(guān)鍵信息那整個系統(tǒng)就崩塌了。實際上,全球幾乎所有大模型都試圖在做蒸餾,但效果都不太好,而DeepSeek可能是第一個效果良好接近原版的。

從信息技術(shù)發(fā)展歷史看,“輕量化”進程也是大勢所趨。計算機曾是占據(jù)整個房間的大型機,后來發(fā)展成可作為桌面設(shè)備的電腦,又進化為便攜式筆記本。手機從早期的磚頭式“大哥大”,改進為小巧的功能機,又進化至如今的智能終端。

大模型正在經(jīng)歷類似的進化過程。事實上,模型并非越大越好,而是越精越妙,把一些劣質(zhì)的數(shù)據(jù)從數(shù)據(jù)集中拿掉,模型性能可能會表現(xiàn)更好。

為了在減少參數(shù)的同時保持甚至提升模型性能,研究人員不得不深入挖掘模型架構(gòu)的優(yōu)化空間,探索更高效的算法和訓(xùn)練方法。這一過程推動了人工智能基礎(chǔ)理論的發(fā)展,也為相關(guān)技術(shù)的跨領(lǐng)域應(yīng)用開創(chuàng)了新局面。

如今,大模型的架構(gòu)正從大型單體系統(tǒng)演變?yōu)檩p量化、專業(yè)化的模型組成的分布式網(wǎng)絡(luò),這涉及到一個主模型協(xié)調(diào)這些專用模型之間的任務(wù)。而更好的壓縮技術(shù)和高質(zhì)量合成數(shù)據(jù)的使用,將有助于未來模型的輕量化和AI的普惠化。

Meta最近的研究表也表明,平行使用多個較小的模型可以持續(xù)超越單一的大型模型。這種方法類似于人腦,人腦不是一個單一的均勻結(jié)構(gòu),而是由海馬體(記憶)、額葉(邏輯)和枕葉(視覺)等專業(yè)化區(qū)域組成。

DeepSeek事件標志著中美科技戰(zhàn)進入“深水區(qū)”,這場博弈的終局或?qū)Q定未來數(shù)十年全球科技權(quán)力的格局。

在這樣的現(xiàn)象級產(chǎn)品出現(xiàn)之前,過去兩年多時間,由于AI業(yè)界對高性能顯卡的追逐,英偉達被一路推上王座。無論在資本市場還是產(chǎn)業(yè)鏈,這個邏輯似乎已經(jīng)確立,沒人料到DeepSeek橫空出世,硬生生攪了局。

這場沖擊波能持續(xù)多久,還是個未知數(shù)。DeepSeek的勢頭固然很猛,但能否彌合國產(chǎn)大模型與國際先進水平之間的技術(shù)代差,仍然值得商榷。另外,DeepSeek通過算法優(yōu)化提升效率,是否就意味著對算力需求的明顯減弱,下結(jié)論也還太早。

不過,DeepSeek的抗爭,無疑是一個打破技術(shù)壟斷、重建數(shù)字秩序、重塑科技自信的重要機會窗口。我們既要肯定其取得的成就,但也要在狂熱中保持一份清醒。

誠如DeepSeek創(chuàng)始人梁文鋒所言,中美真實的差距是“原創(chuàng)”和“模仿”之差。如果這個不改變,中國永遠只能是追隨者,有些必要的探索和創(chuàng)新的成本是逃不掉的。英偉達的領(lǐng)先,不只是一個公司的努力,而是整個西方技術(shù)社區(qū)和產(chǎn)業(yè)共同努力的結(jié)果。

在任何一個領(lǐng)域里,但凡有所成就者,都是長期主義者,因為他們敢進窄門,愿走遠路。只有突破“拿來主義”的慣性束縛、摒棄“先模仿再創(chuàng)新”的抄近路心態(tài),不再沉醉于短期泡沫帶來的快感,將技術(shù)原創(chuàng)奉為圭臬,才是中國人工智能企業(yè)需要走好的“華山一條路”。