
新智元報(bào)道
編輯:編輯部 HYNZ
【新智元導(dǎo)讀】最近,一款由清華90后團(tuán)隊(duì)打造的AI利器,首次實(shí)現(xiàn)了只用14.9萬元就能流暢運(yùn)行滿血版DeepSeek,并且還支持頂配的128K上下文,堪稱媲美百萬級(jí)方案。
DeepSeek-R1從開源到現(xiàn)在,已過去4個(gè)多月。
然而,高昂的硬件成本、復(fù)雜的私有化部署方案,長(zhǎng)期以來如同天塹,隔斷了一些企業(yè)、開發(fā)者們擁抱AI的步伐。
但如今,人手一個(gè)滿血版DeepSeek-R1/V3 671B的時(shí)代來了!
說出來你可能不信,行云褐蟻一體機(jī)把曾經(jīng)上百萬才能擁有的體驗(yàn),直接打到了14.9萬元。

不僅如此,它的速度和精度更是堪比官方版本——能以超過20 token/s的速度,運(yùn)行沒有經(jīng)過量化的「FP8原版」DeepSeek模型。
這是什么概念?請(qǐng)看對(duì)比。
畫面右側(cè)就是DeepSeek官網(wǎng)的輸出速度。而左側(cè),便是我們部署在一體機(jī)上的滿血版DeepSeek-R1了。
原視頻加速2倍
值得一提的是,剛剛發(fā)布的Qwen3超大杯MoE——235B-A22B,現(xiàn)在也可以用上了!
打造出性價(jià)比如此驚人產(chǎn)品的公司,是什么來頭?
原來,這家的CEO正是前華為天才少年、清華90后博士季宇。
10萬價(jià)位,單機(jī)可跑滿血DeepSeek
接下來,我們?cè)谡鏅C(jī)上實(shí)際測(cè)試一下,這個(gè)「原版」DeepSeek-R1到底怎么樣。
先讓它推理出一個(gè)笑話的笑點(diǎn)在哪里。
可以看出這個(gè)速度刷刷的,等待時(shí)間也很短,幾乎可以忽略不計(jì)。
稍微長(zhǎng)點(diǎn)的提示詞,對(duì)速度也有明顯的影響。
這道題只給出了一些疑似有規(guī)律的符號(hào),而滿血DeepSeek-R1則展示出了強(qiáng)大的推理能力,猜出這是詞牌格式《菩薩蠻》,甚至猜出了是哪些符號(hào)分別對(duì)應(yīng)的平、仄。
來一個(gè)甘蔗過門這種極易迷惑模型的問題。
DeepSeek-R1順利給出了正確答案,速度也無可挑剔。
甚至,它非常順利地做出了一道AIME 2025數(shù)學(xué)競(jìng)賽題。
即使是這種級(jí)別的推理,輸出速度也能保持在20 token/s。
外星人來到地球上,可能會(huì)選擇四件事中的一件來完成,求地球上最終沒有外星人的概率。這種復(fù)雜的數(shù)學(xué)推理題,DeepSeek-R1也順利做了出來。
因?yàn)榭梢栽贒ify工作流中使用,這臺(tái)一體機(jī)甚至能完成DeepResearch的功能。
由于模型部署在本地,所以可以基于內(nèi)部的私域數(shù)據(jù)進(jìn)行深度挖掘和研究服務(wù),保障信息隱私及安全。
廣泛適用于文檔摘要、數(shù)據(jù)分析、代碼生成等高精度復(fù)雜任務(wù)。
完整工作流如下:

極致性價(jià)比
為什么褐蟻一體機(jī),能用10萬元的水平,達(dá)到以上驚人的水準(zhǔn)?
背后原因,除了得益于自研的高效推理引擎外,還有極致的硬件選型。
褐蟻系列一體機(jī)有三種型號(hào)可選,理論上參數(shù)在1.5T以內(nèi)的模型都能支持。
甚至,即將推出的DeepSeek-R2,預(yù)計(jì)也可以實(shí)現(xiàn)支持。

其中HY90負(fù)責(zé)提供極致的性能,671B參數(shù)的滿血DeepSeek-R1/V3在最高精度FP8下,速度能達(dá)到21.5+ token/s;在FP4精度下,速度能達(dá)到28+ token/s。
FP8
INT4
HY70提供極致的性價(jià)比,同樣是滿血FP8精度的DeepSeek-R1/V3,速度也能達(dá)到20+ token/s,在FP4精度下,速度能達(dá)到24+ token/s,相當(dāng)炸裂。
最后,HY50還提供了極致低價(jià)。支持671B參數(shù)的滿血DeepSeek-R1/V3,在INT4精度下可實(shí)現(xiàn)20+ token/s的輸出速度,相當(dāng)實(shí)用。
不僅如此,褐蟻系列一體機(jī)支持多種AI推理引擎,支持API調(diào)用、知識(shí)庫(kù)、AI Agent部署,還支持全部的開源大模型。
一次購(gòu)買,永久使用。

在技術(shù)實(shí)現(xiàn)上,行云團(tuán)隊(duì)盡可能提高了大模型推理時(shí)有效使用的帶寬上限(理論帶寬1200 GB/s,物理實(shí)測(cè)1050 GB/s)。
而在實(shí)際使用中,這套系統(tǒng)的等效帶寬可以達(dá)到800 GB/s,完全滿足740 GB/s的需求。
算力層面,團(tuán)隊(duì)則通過一套獨(dú)家定制的軟件協(xié)同優(yōu)化方案,極大地提升了系統(tǒng)的運(yùn)行效率。
輸出方面,上下文長(zhǎng)度對(duì)速度的影響被控制得很好。只有當(dāng)長(zhǎng)度達(dá)到32K以上時(shí),才有一些明顯的下降。

prefill方面,16k以內(nèi)可以保持在180~200 token/s左右,上下文首字延遲則在80秒以內(nèi)。
具體來說,首字延遲在1k下是5秒,4k是20秒,8k是40秒,16k是80秒。不過,在128K極限上下文長(zhǎng)度下,會(huì)達(dá)到30分鐘。

LLM端側(cè)部署,CPU了解一下
說到模型的本地化部署,通常的第一反應(yīng)就是GPU服務(wù)器。
的確,在大模型訓(xùn)練時(shí),GPU的優(yōu)勢(shì)可謂是獨(dú)步天下——吞吐量可以達(dá)到CPU的數(shù)十倍甚至上百倍。
然而,在利用模型進(jìn)行推理的應(yīng)用階段,一個(gè)缺點(diǎn)就足以把眾多企業(yè)擋在門外——太貴!
以FP8精度為例:
671B的參數(shù)量,意味著需要671GB以上的內(nèi)存
37B的激活參數(shù),對(duì)應(yīng)的是37GB x 20 token/s = 740GB/s以上的內(nèi)存帶寬
也就是差不多一套6卡H20 141GB,或者10卡A100/A800 80GB服務(wù)器才能跑起來。
即使按照目前市場(chǎng)上比較便宜的報(bào)價(jià),這套系統(tǒng)的最低也要百萬元以上。
為了降低成本,一些企業(yè)會(huì)采用模型量化,甚至是犧牲對(duì)話速度,來降低LLM對(duì)硬件的需求。
然而,量化會(huì)顯著降低模型精度,尤其是在法律、醫(yī)療等需要高質(zhì)量輸出的場(chǎng)景中,可能會(huì)造成生成的結(jié)果不可靠。
而降低對(duì)話速度,則會(huì)破壞實(shí)時(shí)交互體驗(yàn),客戶可能因響應(yīng)過慢而逐漸流失。
這種體驗(yàn)與成本的權(quán)衡困境,使得許多企業(yè)陷入兩難——要么投入巨資追求高質(zhì)量部署,要么選擇低成本方案但犧牲應(yīng)用效果。
結(jié)果是,LLM應(yīng)用場(chǎng)景被局限在少數(shù)高預(yù)算領(lǐng)域,難以在更廣泛行業(yè)中實(shí)現(xiàn)落地規(guī)?;?。
以上,這些痛點(diǎn)共同構(gòu)成了LLM端側(cè)部署的「不可能三角」:成本、性能、體驗(yàn)三者難以兼得。
既然傳統(tǒng)的GPU解決方案無法做到,為什么不考慮換個(gè)思路呢?
相比于用大量GPU去堆疊顯存,CPU的性價(jià)比就高得多了。
中高端服務(wù)器中CPU的單顆價(jià)格,通常只在數(shù)千美元,這就落在了很多企業(yè)的可承受范圍之內(nèi)。
而且,CPU一直以來最大的短板——內(nèi)存帶寬,如今也有了解決方案。
比如行云的褐蟻一體機(jī),就通過雙路AMD EPYC 9355 CPU,在24條頻率高達(dá)6400MT/s的64GB內(nèi)存加持下,實(shí)現(xiàn)1.5TB的容量和1.2TB/s的帶寬。
不僅完美滿足要求,甚至還有冗余。
值得注意的是,為了改善CPU在推理過程中存在的算力不足情況,此時(shí)還需加入一張中高端GPU作為補(bǔ)充。

更令人驚喜的是,10萬的價(jià)位還可以壓得更低!如果降低對(duì)TPS體驗(yàn)的需求或原版精度的需求,甚至可以壓縮到5萬。
清華90后創(chuàng)業(yè),明星資本加持
在這款產(chǎn)品背后,是一支由清華90后領(lǐng)銜,兼具學(xué)術(shù)深度與行業(yè)實(shí)戰(zhàn)經(jīng)驗(yàn)的創(chuàng)始團(tuán)隊(duì)。
靈魂人物,便是創(chuàng)始人兼CEO季宇,是一位妥妥的「天才少年」。
他本科就讀于清華物理系,隨后轉(zhuǎn)向計(jì)算機(jī)系,并獲得了計(jì)算機(jī)體系結(jié)構(gòu)(AI芯片方向)的博士學(xué)位。
博士畢業(yè)后,季宇入選了華為天才少年計(jì)劃。

在學(xué)術(shù)方面,季宇的成就同樣令人矚目。
他長(zhǎng)期專注于AI編譯器優(yōu)化和處理器微架構(gòu)等前沿難題,積累了深厚的AI芯片經(jīng)驗(yàn)。
而且,作為共同一作在頂刊Nature發(fā)表了計(jì)算機(jī)體系結(jié)構(gòu)論文,榮獲了計(jì)算機(jī)學(xué)會(huì)CCF優(yōu)博獎(jiǎng)。
這些經(jīng)歷,為他日后創(chuàng)立行云,打造低成本、高性能褐蟻一體機(jī)奠定了堅(jiān)實(shí)基礎(chǔ)。
CTO余洪敏則有著深厚的學(xué)術(shù)背景,以及豐富的行業(yè)經(jīng)驗(yàn)。他畢業(yè)于華科大,后在中國(guó)科學(xué)院半導(dǎo)體研究所獲得博士學(xué)位。

余洪敏同樣有著堪稱豪華的職業(yè)履歷。
他不僅出任過多款頂尖國(guó)產(chǎn)芯片的負(fù)責(zé)人和研發(fā)總監(jiān),而且還長(zhǎng)期領(lǐng)導(dǎo)和管理超100人研發(fā)團(tuán)隊(duì),精通芯片研發(fā)設(shè)計(jì)全流程,成功知道了10+款芯片流片與量產(chǎn)。
他多次推動(dòng)先進(jìn)工藝數(shù)據(jù)中心芯片的架構(gòu)設(shè)計(jì)、工程實(shí)現(xiàn),以及大規(guī)模商用,積累了無可比擬的實(shí)戰(zhàn)經(jīng)驗(yàn)。
行云集成電路的吸引力,不僅體現(xiàn)在技術(shù)和團(tuán)隊(duì)上,還得到了資本市場(chǎng)的廣泛認(rèn)可。
去年11月,行云完成了新一輪數(shù)億元融資,投資方包括智譜AI、中科創(chuàng)星、奇績(jī)創(chuàng)壇、水木清華校友基金、嘉御資本、春華資本等一眾明星資本。
從成立到融資,行云僅用了一年多的時(shí)間,就在AI芯片領(lǐng)域站穩(wěn)了腳跟。
行云的崛起,正是「中國(guó)初創(chuàng)」加速趕超的縮影。
從模型競(jìng)賽,到應(yīng)用為王
行云褐蟻一體機(jī)的橫空出世,如同一記重拳,擊碎了大模型部署高成本的壁壘。
它的推出,不僅是技術(shù)層面的突破,更是順應(yīng)了端側(cè)部署的三大趨勢(shì)。
首先,是成本門檻的指數(shù)級(jí)下降。
過去私有化部署的成本以百萬計(jì),行云直接將其拉低至10萬,未來甚至可能降至5萬。
這種成本的驟降,讓中小企業(yè),初創(chuàng)公司乃至個(gè)人開發(fā)者,都能負(fù)擔(dān)起高性能AI解決方案,極大地拓展了AI應(yīng)用的邊界。
其次,CPU方案的崛起,讓硬件架構(gòu)更加多元化。
GPU因顯存容量和互聯(lián)成本的限制,在LLM部署中逐漸顯露瓶頸。行云的CPU內(nèi)存方案證明,服務(wù)器CPU高帶寬和超大容量?jī)?nèi)存,能夠以更低成本滿足需求。
未來,更多芯片廠可能轉(zhuǎn)向類似CPU主導(dǎo)或混合的架構(gòu),推動(dòng)硬件方案的多元化。
最后,應(yīng)用爆發(fā),會(huì)推動(dòng)AI普惠化的進(jìn)程。顯而易見的是,AI行業(yè)已從單純的模型參數(shù)競(jìng)賽,轉(zhuǎn)向應(yīng)用落地的比拼。
行云低成本、高性能解決方案,為教育、醫(yī)療、零售等行業(yè)的AI應(yīng)用打開了大門。
這不僅是一款產(chǎn)品的勝利,更是一個(gè)時(shí)代的開端——大模型正從少數(shù)巨頭實(shí)驗(yàn)室珍寶,轉(zhuǎn)變?yōu)榍邪贅I(yè)的標(biāo)配引擎。
普惠AI的時(shí)代,已然啟幕!
目前,行云褐蟻一體機(jī)已開放預(yù)約體驗(yàn),詳情可進(jìn)入官方公眾號(hào)咨詢。
熱門跟貼