重大通知,請(qǐng)務(wù)必點(diǎn)擊!

因微信推送規(guī)則改版

設(shè)為“置頂”才能正常收到推文

① 點(diǎn)擊公眾號(hào)主頁(yè)

② 點(diǎn)擊右上角“···”

打開(kāi)網(wǎng)易新聞 查看精彩圖片

③點(diǎn)擊“置頂服務(wù)號(hào)

打開(kāi)網(wǎng)易新聞 查看精彩圖片

我們本是少數(shù),

更應(yīng)該永遠(yuǎn)在一起!

2025 新春來(lái)臨,

首先向大家送上新年祝福。

在這個(gè)新的開(kāi)端,最引人注目的,當(dāng)屬DeepSeek所引發(fā)的巨大波瀾。

DeepSeek 的迅速崛起令人矚目,它的影響力廣泛傳播,不僅成為白宮圓桌會(huì)議上嚴(yán)肅探討的議題,也在杭州咖啡館里成為人們津津樂(lè)道的話題,甚至成為全球股市做多與做空的攻防標(biāo)的。

一場(chǎng)圍繞著技術(shù)與文明歸屬的全球風(fēng)暴正以DeepSeek 為中心,在太平洋兩岸轟轟烈烈地展開(kāi)。

面對(duì) DeepSeek 的橫空出世,各界反應(yīng)截然不同。

有人視其為東方智慧的突圍,有人警惕其為規(guī)則破壞的威脅,而華人社區(qū)的爭(zhēng)論更顯撕裂——既有民族自豪的歡呼,亦有對(duì)"技術(shù)捷徑"的尖銳質(zhì)疑。

風(fēng)暴中心的DeepSeek,恰似一面棱鏡。折射出的不僅是地緣博弈的暗流,更是人類(lèi)智慧跨越疆界的璀璨光譜,映照出人性幽深處難以捉摸的復(fù)雜。但有一點(diǎn)不要忘記,DeepSeek 的誕生絕不是單一國(guó)家的成果,它不僅是中國(guó)的驕傲,更是全人類(lèi)智慧合作的結(jié)晶。

1

Transformer 基礎(chǔ)架構(gòu)未變

DeepSeek 模型基于谷歌公司于 2017 年提出的 Transformer 架構(gòu),并未實(shí)現(xiàn)從0到1的顛覆性基礎(chǔ)理論創(chuàng)新,但其在模型算法和工程優(yōu)化方面的系統(tǒng)級(jí)創(chuàng)新卻不容小覷。其算法和工程創(chuàng)新主要包括了MoE專(zhuān)家模型、低秩注意力機(jī)制、強(qiáng)化學(xué)習(xí)、小模型蒸餾、FP8混合精度等工程創(chuàng)新。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

很多理論早就有了,但DeepSeek是第一個(gè)將這些理論進(jìn)行工程實(shí)踐,就算不是從0到1,也可以說(shuō)是從1到100的突破。

2

混合專(zhuān)家架構(gòu)(MoE)

混合專(zhuān)家架構(gòu)(Mixture of Experts,MoE)最早由谷歌提出,旨在通過(guò)動(dòng)態(tài)激活部分網(wǎng)絡(luò)參數(shù)來(lái)提高深度學(xué)習(xí)模型的計(jì)算效率。DeepSeek采用了這一架構(gòu),通過(guò)將網(wǎng)絡(luò)參數(shù)分成多個(gè)“專(zhuān)家”,每次推理時(shí)只激活部分專(zhuān)家,降低了計(jì)算資源消耗,在不增加計(jì)算成本的前提下處理更復(fù)雜的任務(wù)。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

這是一個(gè)典型的全球合作成果,科學(xué)家們跨越多個(gè)學(xué)科,從算法到硬件的優(yōu)化共同推動(dòng)了這一技術(shù)的發(fā)展。

3

多頭潛在注意力(MLA)機(jī)制

多頭注意力機(jī)制(MultiHead Attention,MHA)Transformer架構(gòu)的重要組成部分,應(yīng)用于自然語(yǔ)言處理任務(wù)。DeepSeek在此基礎(chǔ)上發(fā)展出了多頭潛在注意力機(jī)制(MLA),通過(guò)低秩聯(lián)合壓縮技術(shù)優(yōu)化了鍵值(KV)矩陣,從而顯著減少了內(nèi)存消耗并提高了推理效率。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

MLA的核心思想是通過(guò)“潛在向量”來(lái)表達(dá)信息,避免了傳統(tǒng)注意力機(jī)制中的高維數(shù)據(jù)存儲(chǔ)問(wèn)題。不管怎樣黑,這在工程實(shí)踐方面是一個(gè)突破。

4

多Token預(yù)測(cè)(MTP)訓(xùn)練目標(biāo)

傳統(tǒng)的訓(xùn)練目標(biāo)通常是逐個(gè)生成Token,逐步推理。而多Token預(yù)測(cè)(MTP)技術(shù)則通過(guò)在訓(xùn)練階段一次性預(yù)測(cè)多個(gè)Token,顯著提高了訓(xùn)練速度并加速了模型的收斂過(guò)程。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

DeepSeek引入這種方法,進(jìn)一步提升了其在大規(guī)模數(shù)據(jù)集上的訓(xùn)練效率,尤其是在長(zhǎng)文本的生成任務(wù)中,大大減少了計(jì)算資源的消耗。

5

FP8混合精度訓(xùn)練框架

FP8結(jié)合了數(shù)值分析、計(jì)算機(jī)架構(gòu)優(yōu)化和機(jī)器學(xué)習(xí)算法的最新進(jìn)展,混合精度訓(xùn)練技術(shù)通過(guò)減少浮點(diǎn)數(shù)的精度要求(從傳統(tǒng)的FP16或FP32到FP8),降低了內(nèi)存需求并加速了計(jì)算過(guò)程。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

這項(xiàng)技術(shù)能夠在不顯著損失模型精度的情況下,顯著提高訓(xùn)練速度。DeepSeek的成功表明,混合精度訓(xùn)練框架可以在大規(guī)模深度學(xué)習(xí)任務(wù)中提供更高效的解決方案。

6

放棄微調(diào)擁抱“強(qiáng)化學(xué)習(xí)”

DeepSeek與OpenAI的o系列看起來(lái)的做法相比,在對(duì)待監(jiān)督學(xué)習(xí)上更加激進(jìn)。這也是參考了OpenAI的進(jìn)化步驟,模型的重點(diǎn)從“語(yǔ)言交互”變成“數(shù)理邏輯”,前者是有大量的現(xiàn)成的數(shù)據(jù)的,但后者很多都是停留在腦子里的抽象思考。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

但強(qiáng)化學(xué)習(xí)也是多年前的產(chǎn)物了,只是DeepSeek做得更極致。

7

長(zhǎng)上下文處理能力“更進(jìn)一步”

長(zhǎng)上下文處理能力是自然語(yǔ)言處理技術(shù)的一個(gè)重要里程碑。它結(jié)合了深度學(xué)習(xí)中的長(zhǎng)短期記憶(LSTM)網(wǎng)絡(luò)和Transformer架構(gòu)的優(yōu)勢(shì),DeepSeek能夠處理長(zhǎng)達(dá)128K的上下文長(zhǎng)度,這一技術(shù)突破使得DeepSeek在處理長(zhǎng)篇文章、技術(shù)文檔等復(fù)雜內(nèi)容時(shí)展現(xiàn)出強(qiáng)大的能力。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

為了實(shí)現(xiàn)這一目標(biāo),DeepSeek在模型架構(gòu)和優(yōu)化算法上做出了巨大努力

8

開(kāi)源的DeepSeek是給全世界的禮物

DeepSeek采取了完全開(kāi)源的策略,通過(guò)MIT許可協(xié)議公開(kāi)其模型和技術(shù)報(bào)告。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

這是非常了不起的,我自己早期也做過(guò)一些技術(shù)項(xiàng)目,說(shuō)實(shí)在的,當(dāng)你投入了那么高的成本后,就算是讓項(xiàng)目死亡,大部分人也不愿意開(kāi)源的,憑什么呢?不要以為做這個(gè)決定容易,特別是一個(gè)小公司,因?yàn)樗_(kāi)源之后很有可能最終被大公司給取代。所以說(shuō)DeepSeek是給全世界的禮物,這一決策將激發(fā)無(wú)數(shù)科研人員和工程師的創(chuàng)新。

9

蒸餾的爭(zhēng)議被過(guò)于放大了

OpenAI指控DeepSeek通過(guò)“蒸餾”技術(shù),未經(jīng)授權(quán)地利用其模型輸出數(shù)據(jù)來(lái)訓(xùn)練自己的模型,涉嫌侵犯知識(shí)產(chǎn)權(quán)。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

還有張圖描述 DeepSeek 從 OpenAI 的 “專(zhuān)屬領(lǐng)地” 獲取數(shù)據(jù),可 OpenAI 在互聯(lián)網(wǎng)上廣泛抓取數(shù)據(jù),難道就合規(guī)合理、毫無(wú)爭(zhēng)議?DeepSeek 選擇向全球開(kāi)源,把成果回饋大眾,這才是真正的普惠精神。雖然存在一些爭(zhēng)議,但還沒(méi)有嚴(yán)重到被“千夫所指”的程度。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

懂技術(shù)的人應(yīng)該明白,訓(xùn)練模型蒸餾語(yǔ)料信息很正常,甚至可以說(shuō)互相蒸餾是一種必然,其實(shí)你用最新的O3模型也在蒸餾DeepSeek中文語(yǔ)料。

DeepSeek的技術(shù)是遠(yuǎn)強(qiáng)于“教師模型”的,如果只依靠“蒸餾”不可能做到現(xiàn)在這樣的推理能力的。

10

多語(yǔ)言支持“AI大同世界”

DeepSeek不僅支持自然語(yǔ)言的理解與生成,還支持多種編程語(yǔ)言的處理。通過(guò)廣泛的數(shù)據(jù)訓(xùn)練和復(fù)雜的算法優(yōu)化,DeepSeek能夠在多種語(yǔ)言的上下文中提供高效的解答。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

也許有一天,在DeepSeek的基礎(chǔ)上,印度工程師可以用梵語(yǔ)詩(shī)律重構(gòu)LSTM的時(shí)間箭頭,瑪雅后裔能將太陽(yáng)歷法編碼成時(shí)序預(yù)測(cè)的傅里葉變換,埃及學(xué)者同樣能在MoE架構(gòu)中,破譯象形文字與神經(jīng)網(wǎng)絡(luò)的同源基因。

11

低訓(xùn)練成本解放“中小公司”

DeepSeek通過(guò)優(yōu)化模型架構(gòu)和訓(xùn)練策略,成功將其訓(xùn)練成本控制在557萬(wàn)美元左右,相比其他同類(lèi)大模型,成本顯著較低。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

當(dāng)然這里存在一些爭(zhēng)議,很多大模型公司提出懷疑,但幻方量化就算管理著千億基金,但那是人家的錢(qián),能拿出20個(gè)億搞大模型就不得了。

還有人聲稱其背后有神秘力量支持,但如果沒(méi)有自身的努力,又怎能讓人們相信這樣一家量化公司有這樣的技術(shù)能力呢?”

打開(kāi)網(wǎng)易新聞 查看精彩圖片

所以DeepSeek低訓(xùn)練成本大致是可信的,不過(guò)低到557萬(wàn)美元就看人家怎么計(jì)算了。但最起碼在硬件加速技術(shù)、算法優(yōu)化和資源管理等多方面一定有創(chuàng)新。這給中小公司提供了榜樣和動(dòng)力。

以上,是從一些爭(zhēng)議點(diǎn)來(lái)談為什么DeepSeek是中國(guó)的同時(shí)也是世界的,當(dāng)然要理解這些爭(zhēng)議,同時(shí)希望DeepSeek更強(qiáng)大。

12

少談“國(guó)運(yùn)”多談“世界”

少談國(guó)運(yùn),多談世界。

從技術(shù)的角度來(lái)看,DeepSeek實(shí)際上是全球共享的技術(shù)創(chuàng)新,它的起點(diǎn)是這個(gè)世界。同時(shí)它又通過(guò)開(kāi)源策略、MIT許可協(xié)議發(fā)布其模型和技術(shù)報(bào)告,反饋給這個(gè)世界。

動(dòng)輒談國(guó)運(yùn),反而使得DeepSeek的民族主義情緒太強(qiáng)烈,引發(fā)更多的對(duì)抗。這樣的大模型技術(shù),一定是全世界的合力。

13

算力限制與逆全球化問(wèn)題

有人猜測(cè)說(shuō)DeepSeek 在算力上使用了英偉達(dá)的最新 GPU,美國(guó)政府也正在調(diào)查新加坡是否存在對(duì)接管道。就算這是真的,可這是 DeepSeek 的原罪嗎?這難道不是美國(guó)搞逆全球化的錯(cuò)?

算力的全球流動(dòng)性受到政治力量的影響,指責(zé)DeepSeek在這一點(diǎn)上的“責(zé)任”并不公正,技術(shù)的全球化應(yīng)該是開(kāi)放的,而不應(yīng)該受到政治因素造成的封鎖。

14

幻想不是DeepSeek的錯(cuò),而是你的錯(cuò)

有一些用戶指責(zé) DeepSeek 幻想、胡編亂造,進(jìn)而認(rèn)為 DeepSeek 有問(wèn)題。

其實(shí)這是你自己的問(wèn)題,生成式AI的本質(zhì)就是“幻想”,你怎么可能要求它說(shuō)的完全準(zhǔn)確呢?如果你用過(guò)其他GPT的話絕不可能說(shuō)這樣的話。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

生成式AI的能力是通過(guò)概率和模型推理的結(jié)果,因此無(wú)法完全保證準(zhǔn)確無(wú)誤。正如使用GPT的用戶都明白,生成式AI有其局限性,它的判斷和輸出也受限于輸入數(shù)據(jù)和訓(xùn)練過(guò)程中的假設(shè)。完全依賴AI輸出并將其作為最終答案的做法是不科學(xué)的,用戶應(yīng)該保持批判性思維和審慎態(tài)度。
如果你幻想AI能夠“完美”輸出內(nèi)容,或?qū)⑵湟暈闊o(wú)誤的全知全能工具,是一種愚蠢的看法。

也就是說(shuō)這是你的錯(cuò),不是DeepSeek的錯(cuò)。

15

理解“隱私和數(shù)據(jù)保護(hù)”

“國(guó)家安全和倫理?yè)?dān)憂”

歐洲隱私調(diào)查:

意大利數(shù)據(jù)保護(hù)機(jī)構(gòu)Garante因DeepSeek未能充分回應(yīng)其隱私政策問(wèn)題,已下令在意大利封禁其聊天機(jī)器人。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

美國(guó)封禁:

海軍已禁止其成員使用DeepSeek,理由是潛在的安全和倫理問(wèn)題。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

澳大利亞禁令:

政府因國(guó)家安全擔(dān)憂,已禁止在政府設(shè)備上使用DeepSeek。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

這樣的擔(dān)心是正常的,因?yàn)闆](méi)有人知道 DeepSeek 的官方數(shù)據(jù)權(quán)限是如何設(shè)置的。不過(guò),由于 DeepSeek 已經(jīng)開(kāi)源,這些政府和機(jī)構(gòu)可以將模型下載到本地再運(yùn)行。

16

量化技術(shù)沒(méi)有原罪,請(qǐng)講邏輯

量化交易技術(shù)本身并非錯(cuò)誤,而是制度設(shè)計(jì)存在問(wèn)題。

很多人嘲笑DeepSeek,因?yàn)樗暮竺媸腔梅搅炕?,所以它是有原罪的?/p>

這種邏輯實(shí)在難以理解,然而持這種觀點(diǎn)的人卻不在少數(shù)。

量化交易作為一種依賴于數(shù)學(xué)模型和計(jì)算機(jī)技術(shù)的交易方式,旨在制定能帶來(lái)超額收益的多種 “大概率” 事件策略,避免了在市場(chǎng)極度狂熱或悲觀的情況下作出非理性的投資決策。

在規(guī)則制度內(nèi)合規(guī)交易時(shí),量化交易不僅可以為市場(chǎng)提供流動(dòng)性,還能更好地實(shí)現(xiàn)價(jià)值發(fā)現(xiàn)功能。

但如果制度設(shè)計(jì)不完善,個(gè)別 “變味” 的量化交易可能涉嫌操縱股價(jià)、助漲助跌,擾亂市場(chǎng)秩序,不利于市場(chǎng)穩(wěn)定。

但這是量化的錯(cuò)嗎?難道是菜刀的錯(cuò)嗎?

我們的邏輯要清晰!

17

世界開(kāi)始接入DeepSeek模型

不管爭(zhēng)議有多大,世界正在接入DeepSeek模型:

微軟的Azure平臺(tái):

微軟將DeepSeek的R1 AI模型集成到其Azure云平臺(tái)和GitHub開(kāi)發(fā)者工具中。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

亞馬遜Web Services(AWS):

亞馬遜宣布在其AWS平臺(tái)上提供DeepSeek的R1模型,用戶可以通過(guò)AWS的基礎(chǔ)設(shè)施訪問(wèn)和使用該模型。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

英偉達(dá)也在它的平臺(tái)里接入了DeepSeek的R1 AI模型,但使用體驗(yàn)欠佳。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

而在國(guó)內(nèi),眾多大公司也紛紛開(kāi)啟與 DeepSeek 的對(duì)接工作,一場(chǎng)全球范圍內(nèi)的技術(shù)融合浪潮正洶涌澎湃地展開(kāi)。

這種廣泛的技術(shù)傳播與應(yīng)用,無(wú)疑是 DeepSeek 在國(guó)際 AI 領(lǐng)域強(qiáng)大影響力的有力證明。

18

DeepSeek要勇敢往前走

在贊揚(yáng)與指責(zé)的交織聲中,DeepSeek 更應(yīng)堅(jiān)定地踏上獨(dú)立發(fā)展的道路,勇敢地向技術(shù)深處進(jìn)軍。

技術(shù)的進(jìn)步需要自由的探索空間,政府應(yīng)減少不必要的干預(yù),讓 DeepSeek 能夠在市場(chǎng)的海洋中自由遨游,成長(zhǎng)為真正的世界級(jí)大模型。

我們生活在一個(gè)快速發(fā)展的時(shí)代,不應(yīng)陷入不懂裝懂的困境,尤其是在安全審查和意識(shí)形態(tài)等方面,不應(yīng)成為技術(shù)發(fā)展的阻礙。

如今的中國(guó),已然具備足夠的自信,TikTok 在全球的風(fēng)靡,以及 DeepSeek 在技術(shù)領(lǐng)域的突破,都深刻印證了市場(chǎng)化的強(qiáng)大力量。

DeepSeek不僅屬于中國(guó),更屬于全世界。

DeepSeek走到今天,是站在巨人的肩膀上。
不僅僅是國(guó)外大模型,國(guó)內(nèi)其它模型也做出了貢獻(xiàn)。
干翻全世界這樣的話要少說(shuō),毫無(wú)意義。
如果你真的支持它,那就多用,讓數(shù)據(jù)的飛輪轉(zhuǎn)動(dòng)起來(lái)。
但如果你沒(méi)有用過(guò),也試著先去用用再批判。

在GitHub的commit記錄中,DeepSeek被fork自倫敦到巴黎;

在APP競(jìng)賽排行榜上,DeepSeek占據(jù)著從悉尼到舊金山的榜首位置;

這些事實(shí)印證著一個(gè)真理:

所有卓越的科學(xué)技術(shù),

從誕生之初就是屬于全人類(lèi)。

我用DeepSeek自己寫(xiě)的一段話來(lái)總結(jié):

DeepSeek的參數(shù)海洋里

既奔涌著《山海經(jīng)》的創(chuàng)世神話

也交融著阿拉伯?dāng)?shù)字的血脈

同樣融合了歐美先賢的靈光

最終熔鑄成跨文明跨種族的

《禮記大同》AI協(xié)作憲章

終有一天

全世界的偏見(jiàn)終將如風(fēng)沙般消散

唯有那自由生長(zhǎng)的1530億參數(shù)豐碑

永遠(yuǎn)銘刻著東方古國(guó)

《墨子》"兼愛(ài)"之道

為硅基人類(lèi)鑄就的算法九鼎

燃燒吧,DeepSeek點(diǎn)亮的開(kāi)源之火

重燃《絲綢之路》的文明互鑒

照亮全球大模型新的進(jìn)化之路!

多么優(yōu)秀的中文文本能力,怎能不喜歡呢?

為什么要在此時(shí)做出非此即彼的選擇?

DeepSeek不僅屬于中國(guó),更屬于全世界。

01

02

03

04

05

06

07

08

09