久久99国产综合免费精,高级教师电影在线观看,成人欧美三级视频,亚洲一区二区免费av,午夜不卡视频在线播放

重大通知，請(qǐng)務(wù)必點(diǎn)擊！

因微信推送規(guī)則改版

設(shè)為“置頂”才能正常收到推文

① 點(diǎn)擊公眾號(hào)主頁(yè)

② 點(diǎn)擊右上角“···”

③點(diǎn)擊“置頂服務(wù)號(hào)”

我們本是少數(shù)，

更應(yīng)該永遠(yuǎn)在一起！

2025 新春來(lái)臨，

首先向大家送上新年祝福。

在這個(gè)新的開(kāi)端，最引人注目的，當(dāng)屬DeepSeek所引發(fā)的巨大波瀾。

DeepSeek 的迅速崛起令人矚目，它的影響力廣泛傳播，不僅成為白宮圓桌會(huì)議上嚴(yán)肅探討的議題，也在杭州咖啡館里成為人們津津樂(lè)道的話題，甚至成為全球股市做多與做空的攻防標(biāo)的。

一場(chǎng)圍繞著技術(shù)與文明歸屬的全球風(fēng)暴正以DeepSeek 為中心，在太平洋兩岸轟轟烈烈地展開(kāi)。

面對(duì) DeepSeek 的橫空出世，各界反應(yīng)截然不同。

有人視其為東方智慧的突圍，有人警惕其為規(guī)則破壞的威脅，而華人社區(qū)的爭(zhēng)論更顯撕裂——既有民族自豪的歡呼，亦有對(duì)"技術(shù)捷徑"的尖銳質(zhì)疑。

風(fēng)暴中心的DeepSeek，恰似一面棱鏡。折射出的不僅是地緣博弈的暗流，更是人類(lèi)智慧跨越疆界的璀璨光譜，映照出人性幽深處難以捉摸的復(fù)雜。但有一點(diǎn)不要忘記，DeepSeek 的誕生絕不是單一國(guó)家的成果，它不僅是中國(guó)的驕傲，更是全人類(lèi)智慧合作的結(jié)晶。

Transformer 基礎(chǔ)架構(gòu)未變

DeepSeek 模型基于谷歌公司于 2017 年提出的 Transformer 架構(gòu)，并未實(shí)現(xiàn)從0到1的顛覆性基礎(chǔ)理論創(chuàng)新，但其在模型算法和工程優(yōu)化方面的系統(tǒng)級(jí)創(chuàng)新卻不容小覷。其算法和工程創(chuàng)新主要包括了MoE專(zhuān)家模型、低秩注意力機(jī)制、強(qiáng)化學(xué)習(xí)、小模型蒸餾、FP8混合精度等工程創(chuàng)新。

很多理論早就有了，但DeepSeek是第一個(gè)將這些理論進(jìn)行工程實(shí)踐，就算不是從0到1，也可以說(shuō)是從1到100的突破。

混合專(zhuān)家架構(gòu)（MoE）

混合專(zhuān)家架構(gòu)（Mixture of Experts，MoE）最早由谷歌提出，旨在通過(guò)動(dòng)態(tài)激活部分網(wǎng)絡(luò)參數(shù)來(lái)提高深度學(xué)習(xí)模型的計(jì)算效率。DeepSeek采用了這一架構(gòu)，通過(guò)將網(wǎng)絡(luò)參數(shù)分成多個(gè)“專(zhuān)家”，每次推理時(shí)只激活部分專(zhuān)家，降低了計(jì)算資源消耗，在不增加計(jì)算成本的前提下處理更復(fù)雜的任務(wù)。

這是一個(gè)典型的全球合作成果，科學(xué)家們跨越多個(gè)學(xué)科，從算法到硬件的優(yōu)化共同推動(dòng)了這一技術(shù)的發(fā)展。

多頭潛在注意力（MLA）機(jī)制

多頭注意力機(jī)制（MultiHead Attention，MHA）是Transformer架構(gòu)的重要組成部分，應(yīng)用于自然語(yǔ)言處理任務(wù)。DeepSeek在此基礎(chǔ)上發(fā)展出了多頭潛在注意力機(jī)制（MLA），通過(guò)低秩聯(lián)合壓縮技術(shù)優(yōu)化了鍵值（KV）矩陣，從而顯著減少了內(nèi)存消耗并提高了推理效率。

MLA的核心思想是通過(guò)“潛在向量”來(lái)表達(dá)信息，避免了傳統(tǒng)注意力機(jī)制中的高維數(shù)據(jù)存儲(chǔ)問(wèn)題。不管怎樣黑，這在工程實(shí)踐方面是一個(gè)突破。

多Token預(yù)測(cè)（MTP）訓(xùn)練目標(biāo)

傳統(tǒng)的訓(xùn)練目標(biāo)通常是逐個(gè)生成Token，逐步推理。而多Token預(yù)測(cè)（MTP）技術(shù)則通過(guò)在訓(xùn)練階段一次性預(yù)測(cè)多個(gè)Token，顯著提高了訓(xùn)練速度并加速了模型的收斂過(guò)程。

DeepSeek引入這種方法，進(jìn)一步提升了其在大規(guī)模數(shù)據(jù)集上的訓(xùn)練效率，尤其是在長(zhǎng)文本的生成任務(wù)中，大大減少了計(jì)算資源的消耗。

FP8混合精度訓(xùn)練框架

FP8結(jié)合了數(shù)值分析、計(jì)算機(jī)架構(gòu)優(yōu)化和機(jī)器學(xué)習(xí)算法的最新進(jìn)展，混合精度訓(xùn)練技術(shù)通過(guò)減少浮點(diǎn)數(shù)的精度要求（從傳統(tǒng)的FP16或FP32到FP8），降低了內(nèi)存需求并加速了計(jì)算過(guò)程。

這項(xiàng)技術(shù)能夠在不顯著損失模型精度的情況下，顯著提高訓(xùn)練速度。DeepSeek的成功表明，混合精度訓(xùn)練框架可以在大規(guī)模深度學(xué)習(xí)任務(wù)中提供更高效的解決方案。

放棄微調(diào)擁抱“強(qiáng)化學(xué)習(xí)”

DeepSeek與OpenAI的o系列看起來(lái)的做法相比，在對(duì)待監(jiān)督學(xué)習(xí)上更加激進(jìn)。這也是參考了OpenAI的進(jìn)化步驟，模型的重點(diǎn)從“語(yǔ)言交互”變成“數(shù)理邏輯”，前者是有大量的現(xiàn)成的數(shù)據(jù)的，但后者很多都是停留在腦子里的抽象思考。

但強(qiáng)化學(xué)習(xí)也是多年前的產(chǎn)物了，只是DeepSeek做得更極致。

長(zhǎng)上下文處理能力“更進(jìn)一步”

長(zhǎng)上下文處理能力是自然語(yǔ)言處理技術(shù)的一個(gè)重要里程碑。它結(jié)合了深度學(xué)習(xí)中的長(zhǎng)短期記憶（LSTM）網(wǎng)絡(luò)和Transformer架構(gòu)的優(yōu)勢(shì)，DeepSeek能夠處理長(zhǎng)達(dá)128K的上下文長(zhǎng)度，這一技術(shù)突破使得DeepSeek在處理長(zhǎng)篇文章、技術(shù)文檔等復(fù)雜內(nèi)容時(shí)展現(xiàn)出強(qiáng)大的能力。

為了實(shí)現(xiàn)這一目標(biāo)，DeepSeek在模型架構(gòu)和優(yōu)化算法上做出了巨大努力

開(kāi)源的DeepSeek是給全世界的禮物

DeepSeek采取了完全開(kāi)源的策略，通過(guò)MIT許可協(xié)議公開(kāi)其模型和技術(shù)報(bào)告。

這是非常了不起的，我自己早期也做過(guò)一些技術(shù)項(xiàng)目，說(shuō)實(shí)在的，當(dāng)你投入了那么高的成本后，就算是讓項(xiàng)目死亡，大部分人也不愿意開(kāi)源的，憑什么呢？不要以為做這個(gè)決定容易，特別是一個(gè)小公司，因?yàn)樗_(kāi)源之后很有可能最終被大公司給取代。所以說(shuō)DeepSeek是給全世界的禮物，這一決策將激發(fā)無(wú)數(shù)科研人員和工程師的創(chuàng)新。

蒸餾的爭(zhēng)議被過(guò)于放大了

OpenAI指控DeepSeek通過(guò)“蒸餾”技術(shù)，未經(jīng)授權(quán)地利用其模型輸出數(shù)據(jù)來(lái)訓(xùn)練自己的模型，涉嫌侵犯知識(shí)產(chǎn)權(quán)。

還有張圖描述 DeepSeek 從 OpenAI 的 “專(zhuān)屬領(lǐng)地” 獲取數(shù)據(jù)，可 OpenAI 在互聯(lián)網(wǎng)上廣泛抓取數(shù)據(jù)，難道就合規(guī)合理、毫無(wú)爭(zhēng)議？DeepSeek 選擇向全球開(kāi)源，把成果回饋大眾，這才是真正的普惠精神。雖然存在一些爭(zhēng)議，但還沒(méi)有嚴(yán)重到被“千夫所指”的程度。

懂技術(shù)的人應(yīng)該明白，訓(xùn)練模型蒸餾語(yǔ)料信息很正常，甚至可以說(shuō)互相蒸餾是一種必然，其實(shí)你用最新的O3模型也在蒸餾DeepSeek中文語(yǔ)料。

DeepSeek的技術(shù)是遠(yuǎn)強(qiáng)于“教師模型”的，如果只依靠“蒸餾”不可能做到現(xiàn)在這樣的推理能力的。

多語(yǔ)言支持“AI大同世界”

DeepSeek不僅支持自然語(yǔ)言的理解與生成，還支持多種編程語(yǔ)言的處理。通過(guò)廣泛的數(shù)據(jù)訓(xùn)練和復(fù)雜的算法優(yōu)化，DeepSeek能夠在多種語(yǔ)言的上下文中提供高效的解答。

也許有一天，在DeepSeek的基礎(chǔ)上，印度工程師可以用梵語(yǔ)詩(shī)律重構(gòu)LSTM的時(shí)間箭頭，瑪雅后裔能將太陽(yáng)歷法編碼成時(shí)序預(yù)測(cè)的傅里葉變換，埃及學(xué)者同樣能在MoE架構(gòu)中，破譯象形文字與神經(jīng)網(wǎng)絡(luò)的同源基因。

低訓(xùn)練成本解放“中小公司”

DeepSeek通過(guò)優(yōu)化模型架構(gòu)和訓(xùn)練策略，成功將其訓(xùn)練成本控制在557萬(wàn)美元左右，相比其他同類(lèi)大模型，成本顯著較低。

當(dāng)然這里存在一些爭(zhēng)議，很多大模型公司提出懷疑，但幻方量化就算管理著千億基金，但那是人家的錢(qián)，能拿出20個(gè)億搞大模型就不得了。

還有人聲稱其背后有神秘力量支持，但如果沒(méi)有自身的努力，又怎能讓人們相信這樣一家量化公司有這樣的技術(shù)能力呢？”

所以DeepSeek低訓(xùn)練成本大致是可信的，不過(guò)低到557萬(wàn)美元就看人家怎么計(jì)算了。但最起碼在硬件加速技術(shù)、算法優(yōu)化和資源管理等多方面一定有創(chuàng)新。這給中小公司提供了榜樣和動(dòng)力。

以上，是從一些爭(zhēng)議點(diǎn)來(lái)談為什么DeepSeek是中國(guó)的同時(shí)也是世界的，當(dāng)然要理解這些爭(zhēng)議，同時(shí)希望DeepSeek更強(qiáng)大。

少談“國(guó)運(yùn)”多談“世界”

少談國(guó)運(yùn)，多談世界。

從技術(shù)的角度來(lái)看，DeepSeek實(shí)際上是全球共享的技術(shù)創(chuàng)新，它的起點(diǎn)是這個(gè)世界。同時(shí)它又通過(guò)開(kāi)源策略、MIT許可協(xié)議發(fā)布其模型和技術(shù)報(bào)告，反饋給這個(gè)世界。

動(dòng)輒談國(guó)運(yùn)，反而使得DeepSeek的民族主義情緒太強(qiáng)烈，引發(fā)更多的對(duì)抗。這樣的大模型技術(shù)，一定是全世界的合力。

算力限制與逆全球化問(wèn)題

有人猜測(cè)說(shuō)DeepSeek 在算力上使用了英偉達(dá)的最新 GPU，美國(guó)政府也正在調(diào)查新加坡是否存在對(duì)接管道。就算這是真的，可這是 DeepSeek 的原罪嗎？這難道不是美國(guó)搞逆全球化的錯(cuò)？

算力的全球流動(dòng)性受到政治力量的影響，指責(zé)DeepSeek在這一點(diǎn)上的“責(zé)任”并不公正，技術(shù)的全球化應(yīng)該是開(kāi)放的，而不應(yīng)該受到政治因素造成的封鎖。

幻想不是DeepSeek的錯(cuò)，而是你的錯(cuò)

有一些用戶指責(zé) DeepSeek 幻想、胡編亂造，進(jìn)而認(rèn)為 DeepSeek 有問(wèn)題。

其實(shí)這是你自己的問(wèn)題，生成式AI的本質(zhì)就是“幻想”，你怎么可能要求它說(shuō)的完全準(zhǔn)確呢？如果你用過(guò)其他GPT的話絕不可能說(shuō)這樣的話。

生成式AI的能力是通過(guò)概率和模型推理的結(jié)果，因此無(wú)法完全保證準(zhǔn)確無(wú)誤。正如使用GPT的用戶都明白，生成式AI有其局限性，它的判斷和輸出也受限于輸入數(shù)據(jù)和訓(xùn)練過(guò)程中的假設(shè)。完全依賴AI輸出并將其作為最終答案的做法是不科學(xué)的，用戶應(yīng)該保持批判性思維和審慎態(tài)度。
如果你幻想AI能夠“完美”輸出內(nèi)容，或?qū)⑵湟暈闊o(wú)誤的全知全能工具，是一種愚蠢的看法。

也就是說(shuō)這是你的錯(cuò)，不是DeepSeek的錯(cuò)。

理解“隱私和數(shù)據(jù)保護(hù)”和

“國(guó)家安全和倫理?yè)?dān)憂”

歐洲隱私調(diào)查：

意大利數(shù)據(jù)保護(hù)機(jī)構(gòu)Garante因DeepSeek未能充分回應(yīng)其隱私政策問(wèn)題，已下令在意大利封禁其聊天機(jī)器人。

美國(guó)封禁：

海軍已禁止其成員使用DeepSeek，理由是潛在的安全和倫理問(wèn)題。

澳大利亞禁令：

政府因國(guó)家安全擔(dān)憂，已禁止在政府設(shè)備上使用DeepSeek。

這樣的擔(dān)心是正常的，因?yàn)闆](méi)有人知道 DeepSeek 的官方數(shù)據(jù)權(quán)限是如何設(shè)置的。不過(guò)，由于 DeepSeek 已經(jīng)開(kāi)源，這些政府和機(jī)構(gòu)可以將模型下載到本地再運(yùn)行。

量化技術(shù)沒(méi)有原罪，請(qǐng)講邏輯

量化交易技術(shù)本身并非錯(cuò)誤，而是制度設(shè)計(jì)存在問(wèn)題。

很多人嘲笑DeepSeek,因?yàn)樗暮竺媸腔梅搅炕?，所以它是有原罪的?/p>

這種邏輯實(shí)在難以理解，然而持這種觀點(diǎn)的人卻不在少數(shù)。

量化交易作為一種依賴于數(shù)學(xué)模型和計(jì)算機(jī)技術(shù)的交易方式，旨在制定能帶來(lái)超額收益的多種 “大概率” 事件策略，避免了在市場(chǎng)極度狂熱或悲觀的情況下作出非理性的投資決策。

在規(guī)則制度內(nèi)合規(guī)交易時(shí)，量化交易不僅可以為市場(chǎng)提供流動(dòng)性，還能更好地實(shí)現(xiàn)價(jià)值發(fā)現(xiàn)功能。

但如果制度設(shè)計(jì)不完善，個(gè)別 “變味” 的量化交易可能涉嫌操縱股價(jià)、助漲助跌，擾亂市場(chǎng)秩序，不利于市場(chǎng)穩(wěn)定。

但這是量化的錯(cuò)嗎？難道是菜刀的錯(cuò)嗎？

我們的邏輯要清晰！

世界開(kāi)始接入DeepSeek模型

不管爭(zhēng)議有多大，世界正在接入DeepSeek模型：

微軟的Azure平臺(tái)：

微軟將DeepSeek的R1 AI模型集成到其Azure云平臺(tái)和GitHub開(kāi)發(fā)者工具中。

亞馬遜Web Services（AWS）：

亞馬遜宣布在其AWS平臺(tái)上提供DeepSeek的R1模型，用戶可以通過(guò)AWS的基礎(chǔ)設(shè)施訪問(wèn)和使用該模型。

英偉達(dá)也在它的平臺(tái)里接入了DeepSeek的R1 AI模型，但使用體驗(yàn)欠佳。

而在國(guó)內(nèi)，眾多大公司也紛紛開(kāi)啟與 DeepSeek 的對(duì)接工作，一場(chǎng)全球范圍內(nèi)的技術(shù)融合浪潮正洶涌澎湃地展開(kāi)。

這種廣泛的技術(shù)傳播與應(yīng)用，無(wú)疑是 DeepSeek 在國(guó)際 AI 領(lǐng)域強(qiáng)大影響力的有力證明。

DeepSeek要勇敢往前走

在贊揚(yáng)與指責(zé)的交織聲中，DeepSeek 更應(yīng)堅(jiān)定地踏上獨(dú)立發(fā)展的道路，勇敢地向技術(shù)深處進(jìn)軍。

技術(shù)的進(jìn)步需要自由的探索空間，政府應(yīng)減少不必要的干預(yù)，讓 DeepSeek 能夠在市場(chǎng)的海洋中自由遨游，成長(zhǎng)為真正的世界級(jí)大模型。

我們生活在一個(gè)快速發(fā)展的時(shí)代，不應(yīng)陷入不懂裝懂的困境，尤其是在安全審查和意識(shí)形態(tài)等方面，不應(yīng)成為技術(shù)發(fā)展的阻礙。

如今的中國(guó)，已然具備足夠的自信，TikTok 在全球的風(fēng)靡，以及 DeepSeek 在技術(shù)領(lǐng)域的突破，都深刻印證了市場(chǎng)化的強(qiáng)大力量。

DeepSeek不僅屬于中國(guó)，更屬于全世界。

DeepSeek走到今天，是站在巨人的肩膀上。
不僅僅是國(guó)外大模型，國(guó)內(nèi)其它模型也做出了貢獻(xiàn)。
干翻全世界這樣的話要少說(shuō)，毫無(wú)意義。
如果你真的支持它，那就多用，讓數(shù)據(jù)的飛輪轉(zhuǎn)動(dòng)起來(lái)。
但如果你沒(méi)有用過(guò)，也試著先去用用再批判。

在GitHub的commit記錄中，DeepSeek被fork自倫敦到巴黎；

在APP競(jìng)賽排行榜上，DeepSeek占據(jù)著從悉尼到舊金山的榜首位置;

這些事實(shí)印證著一個(gè)真理：

所有卓越的科學(xué)技術(shù)，

從誕生之初就是屬于全人類(lèi)。

我用DeepSeek自己寫(xiě)的一段話來(lái)總結(jié)：

DeepSeek的參數(shù)海洋里

既奔涌著《山海經(jīng)》的創(chuàng)世神話

也交融著阿拉伯?dāng)?shù)字的血脈

同樣融合了歐美先賢的靈光

最終熔鑄成跨文明跨種族的

《禮記大同》AI協(xié)作憲章