“源神”DeepSeek 又有新的開(kāi)源動(dòng)作了。4 月 14 日,DeepSeek 悄悄在其 GitHub 的 open-infra-index 庫(kù)中公布了其自研推理引擎的開(kāi)源計(jì)劃。在公告中,DeepSeek 表示,他們并不會(huì)選擇直接開(kāi)其內(nèi)部完整且高度優(yōu)化的代碼庫(kù),而是將采取一種更側(cè)重協(xié)作、更具可持續(xù)性的策略,將其核心優(yōu)化成果貢獻(xiàn)給現(xiàn)有的開(kāi)源項(xiàng)目,尤其是作為其技術(shù)基礎(chǔ)的 vLLM。
DeepSeek 在其公告中首先對(duì)開(kāi)源生態(tài)系統(tǒng)表達(dá)了誠(chéng)摯的感謝,承認(rèn)其在模型訓(xùn)練(依賴 PyTorch 等框架)和推理引擎構(gòu)建(早期基于 vLLM)方面都深受開(kāi)源社區(qū)的裨益。隨著自研的 DeepSeek-V3、DeepSeek-R1 等模型展現(xiàn)出強(qiáng)大的能力,市場(chǎng)對(duì)其高效部署方案的需求與日俱增,促使 DeepSeek 思考如何將自身的進(jìn)展回饋給社區(qū)。

然而,在評(píng)估了直接開(kāi)源內(nèi)部完整推理引擎的可行性后,DeepSeek 認(rèn)為存在幾個(gè)關(guān)鍵障礙。首先是顯著的代碼庫(kù)分歧。其內(nèi)部引擎源自一年多前的 vLLM 早期分支,經(jīng)過(guò)長(zhǎng)期針對(duì) DeepSeek 模型的深度定制優(yōu)化,已與 vLLM 主線或其他通用推理框架產(chǎn)生巨大差異。直接開(kāi)源此版本不僅難以被社區(qū)廣泛應(yīng)用和擴(kuò)展,維護(hù)成本也極高。
其次是基礎(chǔ)設(shè)施強(qiáng)依賴。該引擎與 DeepSeek 內(nèi)部的集群管理系統(tǒng)、特定的硬件配置和運(yùn)維流程緊密耦合,外部用戶幾乎無(wú)法在標(biāo)準(zhǔn)環(huán)境下直接部署,需要進(jìn)行大規(guī)模重構(gòu)才能剝離這些依賴,這違背了開(kāi)源項(xiàng)目通常追求的易用性原則。
最后是有限的維護(hù)帶寬。DeepSeek 坦言,作為一家以模型研發(fā)為核心的團(tuán)隊(duì),他們?nèi)狈ψ銐虻馁Y源來(lái)長(zhǎng)期維護(hù)一個(gè)需要持續(xù)投入、支持廣泛用例的大型開(kāi)源項(xiàng)目。貿(mào)然發(fā)布可能導(dǎo)致項(xiàng)目后續(xù)支持不足,損害用戶體驗(yàn)。
面對(duì)這些現(xiàn)實(shí)制約,DeepSeek 選擇了與現(xiàn)有開(kāi)源項(xiàng)目(特別是 vLLM)緊密合作的路徑,以更靈活、更易于集成的方式分享其技術(shù)積累。具體策略包括提取可復(fù)用的獨(dú)立特性,將其模塊化后作為獨(dú)立的庫(kù)貢獻(xiàn)出來(lái);以及直接分享優(yōu)化細(xì)節(jié),向 vLLM 等項(xiàng)目貢獻(xiàn)設(shè)計(jì)思想、實(shí)現(xiàn)方法甚至具體的代碼補(bǔ)丁。
這一合作策略獲得了社區(qū)的普遍理解和積極響應(yīng)。vLLM 項(xiàng)目官方賬號(hào)在社交平臺(tái) X 上明確表示支持,認(rèn)為 DeepSeek“以正確的方式開(kāi)源引擎”,即將改進(jìn)帶回社區(qū)使人人受益,而非創(chuàng)建一個(gè)獨(dú)立的倉(cāng)庫(kù)。技術(shù)社區(qū)的討論也傾向于認(rèn)為,這種分享“know-how”和可集成模塊的方式,比發(fā)布一個(gè)難以維護(hù)的代碼“僵尸”更有價(jià)值。

社區(qū)對(duì) DeepSeek 貢獻(xiàn)內(nèi)容的期待值很高。此前已有分析指出,vLLM 在吸收 DeepSeek 2 月的“開(kāi)源周”所公布論文中的部分優(yōu)化后,處理 DeepSeek 模型的性能已有顯著提升(約 3 倍)。

而根據(jù) DeepSeek 此前公布的推理系統(tǒng)內(nèi)部測(cè)試結(jié)果,每個(gè) H800 節(jié)點(diǎn)在預(yù)填充期間平均吞吐量達(dá)到 73.7k tokens/s 輸入(包括緩存命中),或在解碼期間達(dá)到 14.8k tokens/s 輸出。相比之下,有開(kāi)發(fā)者使用 vLLM 在高并發(fā)下,使用 sharegpt 數(shù)據(jù)集時(shí)基準(zhǔn)測(cè)試約為 5K total tokens/s,隨機(jī) 2000/100 測(cè)試達(dá)到 12K total token/s 的吞吐量。這表明推理性能優(yōu)化領(lǐng)域仍有巨大提升空間。
值得注意的是,DeepSeek 在公告中特別澄清,本次宣布的開(kāi)源路徑僅針對(duì)其推理引擎代碼庫(kù)。對(duì)于未來(lái)模型發(fā)布,公司將繼續(xù)秉持開(kāi)放協(xié)作的態(tài)度,致力于在新模型推出前與社區(qū)及硬件伙伴同步推理優(yōu)化工作,確保社區(qū)能在模型發(fā)布首日(Day-0)獲得最先進(jìn)(SOTA)的推理支持(或許這項(xiàng)工作也是為不久后到來(lái)的 R2 做鋪墊)。其最終目標(biāo)是構(gòu)建一個(gè)同步生態(tài),讓前沿 AI 能力能在多樣化硬件平臺(tái)上無(wú)縫落地。
參考資料:
1.https://github.com/deepseek-ai/open-infra-index/blob/main/OpenSourcing_DeepSeek_Inference_Engine/README.md
2.https://developers.redhat.com/articles/2025/03/19/how-we-optimized-vllm-deepseek-r1#mla__multi_token_prediction__and_parallelism_optimizations
3.https://x.com/vllm_project/status/1911669255428542913?ref_src=twsrc%5Etfw%7Ctwcamp%5Etweetembed%7Ctwterm%5E1911669255428542913%7Ctwgr%5E2c28928084e90824cea080020bfca45fcf9e9ccb%7Ctwcon%5Es1_&ref_url=https%3A%2F%2Fanalyticsindiamag.com%2Fai-news-updates%2Fdeepseek-to-open-source-its-inference-engine%2F
運(yùn)營(yíng)/排版:何晨龍
熱門(mén)跟貼