五月將至,中美科技巨頭或?qū)⒂瓉硇乱惠啂p峰對決。
先是在4月中旬,OpenAI一口氣發(fā)布了GPT-4.1 o3、o4 mini系列模型;谷歌則拿出了Gemini 2.5 Flash Preview,一個(gè)混合推理模型;與谷歌同一天,豆包在杭州巡展中正式發(fā)布了1.5·深度思考模型,在多模態(tài)上展現(xiàn)出了更強(qiáng)的實(shí)力。鳳凰網(wǎng)科技從行業(yè)人士處了解到,阿里的下一代大模型Qwen3也將于本月內(nèi)發(fā)布。
混戰(zhàn)之下,那股“神秘的東方力量”似乎也在悄悄準(zhǔn)備著新的發(fā)布。
敏感的神經(jīng)之下,一點(diǎn)蛛絲馬跡都會被放大。昨日,全球最大AI開源社區(qū)Hugging Face首席執(zhí)行官Clément Delangue在社交平臺發(fā)布了一條耐人尋味的動態(tài)。這條動態(tài)僅由三個(gè)眼睛的表情符號構(gòu)成,并附上了DeepSeek團(tuán)隊(duì)在Hugging Face平臺的官方資源庫入口。

這組充滿懸念的組合引發(fā)科技圈熱議,業(yè)內(nèi)普遍推測DeepSeek R2模型已進(jìn)入發(fā)布倒計(jì)時(shí)。
DeepSeek R2發(fā)布已進(jìn)入倒計(jì)時(shí)?
近半個(gè)月來,有關(guān)“DeepSeek全新模型R2即將問世”的傳聞持續(xù)發(fā)酵。除HuggingFace首席執(zhí)行官Clément Delangue發(fā)布動態(tài)外,玩家@deedydas也在社交平臺貼出了所謂DeepSeek-R2大模型的詳細(xì)技術(shù)參數(shù)。

1、擁有 1.2萬億參數(shù),活躍參數(shù)為 780億,采用混合 MoE架構(gòu)
2、成本比 GPT-4o便宜 97.3%(輸入每百萬次 0.07美元,輸出每百萬次 0.27美元)
3、使用了 5.2PB的訓(xùn)練數(shù)據(jù),在 C-Eval2.0測試中取得了 89.7%的得分
4、視覺能力更強(qiáng),在 COCO測試集上達(dá)到了 92.4%

鳳凰網(wǎng)科技就以上消息向DeepSeek方面發(fā)去詢問,對方表示不予回應(yīng)。有接近DeepSeek的知情人士對鳳凰網(wǎng)科技表示,目前網(wǎng)上盛傳的消息,真實(shí)性含量非常低。
但結(jié)合DeepSeek的產(chǎn)品迭代規(guī)律與產(chǎn)業(yè)鏈動態(tài),其五月有望發(fā)布新品的傳聞卻并非空穴來風(fēng)。
據(jù)《中國企業(yè)家》報(bào)道,過去DeepSeek創(chuàng)始人梁文鋒率領(lǐng)的AI團(tuán)隊(duì)始終保持著與國際巨頭同頻的產(chǎn)品迭代節(jié)奏——2024年9月推出V2.5版本,12月發(fā)布V3基礎(chǔ)架構(gòu),次年3月即升級至V3-0324版本,形成每季度重大更新的開發(fā)范式。這種緊扣行業(yè)脈搏的研發(fā)策略,使得業(yè)界普遍預(yù)測其下一代主力模型R2或?qū)⒀永m(xù)“五一檔”發(fā)布傳統(tǒng)。
路透社此前披露的研發(fā)動向印證了這種猜測:DeepSeek正在加快R1模型的后續(xù)產(chǎn)品R2的研發(fā)和發(fā)布進(jìn)程,原計(jì)劃在5月初發(fā)布,但公司現(xiàn)在希望能夠盡早推出 。
更值得關(guān)注的是技術(shù)演進(jìn)方向,此前也有業(yè)內(nèi)人士推測,DeepSeek-R2模型預(yù)計(jì)將在代碼生成和除英語外的更多語種推理能力方面有不小的提升。
這一預(yù)期并非無中生有——今年三月發(fā)布的V3-0324版本已展現(xiàn)驚人實(shí)力,根據(jù)Artificial Analysis Intelligence Index最新評測,該模型已經(jīng)成為得分最高的非推理模型。在基準(zhǔn)測試中力壓Google Gemini 2.0 Pro、Anthropic Claude 3.7Sonnet及Meta Llama 3.3 70B等頂尖模型。
這種技術(shù)積淀與迭代速度,使得R2尚未發(fā)布便已承載全球AI界的較高期待。無論前述傳聞最終是否成真,可以預(yù)見的是,當(dāng)這款新模型正式亮相時(shí),或?qū)⒏膶懶乱惠喨?a class="keyword-search" >算法與算力生態(tài)格局。
該梁文鋒出場了
在國產(chǎn)AI大模型賽道暗流涌動的當(dāng)下,DeepSeek創(chuàng)始人梁文鋒的每一步都走得很穩(wěn)。他曾說過:“中國也要逐步成為創(chuàng)新貢獻(xiàn)者,而不是一直搭便車。”
盡管近期DeepSeek在公眾視野中保持低調(diào),但梁文鋒一直在向著DeepSeek的核心使命努力,那就是探索通用人工智能的本質(zhì)。
多位接觸過DeepSeek團(tuán)隊(duì)的人士都認(rèn)為,梁文鋒的志向不在服務(wù)好用戶和做好產(chǎn)品,而是直指終極AGI。這讓他在早年間試探性接觸資方時(shí),優(yōu)先排除了有退出顧慮的絕大多數(shù)機(jī)構(gòu),甚至主要依托于自有資金,“梁文鋒也有這個(gè)資本實(shí)力”。
一位在早期就接觸過DeepSeek的機(jī)構(gòu)對鳳凰網(wǎng)科技表示,梁文峰很早就發(fā)現(xiàn)Chatbot產(chǎn)品的可替代性很強(qiáng),“現(xiàn)在的產(chǎn)品都沒有黏性,所以只要技術(shù)強(qiáng)隨時(shí)可以把用戶搶過來”。DeepSeek R1的發(fā)布也的確證實(shí)了這一觀點(diǎn)。
DeepSeek的最后一次模型更新發(fā)布是在今年3月,發(fā)布了V3-0324版本,也被看作是R2的基礎(chǔ)模型,已針對性能、用戶體驗(yàn)和實(shí)用性進(jìn)行了優(yōu)化,通過6850億參數(shù)的MoE架構(gòu)升級,代碼能力顯著增強(qiáng),又一次深度影響了全球市場。
因而5月或?qū)l(fā)布的旗艦?zāi)P蚏2,也被視為影響全球AI格局的關(guān)鍵落子。
特別需要說明的是,這一技術(shù)攻堅(jiān)的窗口期,恰逢國產(chǎn)芯片產(chǎn)業(yè)劇變。美國對英偉達(dá)H20芯片的出口禁令,直接斬?cái)嘀袊鳤I企業(yè)獲取高端GPU的主渠道,倒逼華為昇騰910C、寒武紀(jì)MLUarch04等國產(chǎn)芯片加速填補(bǔ)市場空白。
清程極智的CEO湯雄超曾經(jīng)告訴鳳凰網(wǎng)科技,作為當(dāng)前開源市場所能用到的最好模型,DeepSeek和最難獲取的芯片一度是深度捆綁的。如此前DeepSeek開源周所呈現(xiàn)的,其推出了一系列針對英偉達(dá)H卡的算力優(yōu)化方案。
這讓梁文鋒在早年間曾表達(dá):“我們真正的挑戰(zhàn)從來不是資金,而是高端芯片的出口禁令?!?/p>
但禁令也從未真正束縛其技術(shù)野心,“英偉達(dá)的GPU沒有什么神秘之處,但要趕上他們,就必須重建團(tuán)隊(duì)、付出時(shí)間和成本,追趕下一代技術(shù)——這才是真正的護(hù)城河。”梁文鋒表示。
多位國產(chǎn)算力產(chǎn)業(yè)從業(yè)人士也對鳳凰網(wǎng)科技表示,當(dāng)前國產(chǎn)生態(tài)已在加速迭代中。
本次DeepSeek新一代旗艦?zāi)P桶l(fā)布,也或?qū)⒋嬖诹硪蛔兞?,即在推理?cè)深度適配國產(chǎn)算力。
當(dāng)前,千行百業(yè)都展現(xiàn)出了旺盛的大模型部署需求,但正如李彥宏所言,DeepSeek最大的問題就是又慢又不穩(wěn)定,如何才能獲取到穩(wěn)定的、便宜的滿血版DeepSeek,這不僅僅是行業(yè)需要解決的問題,更需要DeepSeek官方加入其中。
值得一提的是,鳳凰網(wǎng)科技從行業(yè)人士處了解到,DeepSeek已經(jīng)正在和一些國產(chǎn)芯片合作,“國產(chǎn)芯片中有些頭部的,實(shí)際上已經(jīng)在和DeepSeek合作了”。
但對于合作的進(jìn)展,以及R2可能滿足的情況,目前尚不能得知更多細(xì)節(jié)。
本文源自:鳳凰網(wǎng)科技
熱門跟貼