久久中文字幕有码,a国产男女视频在线,精品偷自拍另类在,国内精品人妻久久,天堂av网上

內(nèi)容來源：量子教育，企業(yè)人才培養(yǎng)優(yōu)質(zhì)內(nèi)容及創(chuàng)新解決方案服務(wù)商。分享嘉賓：陳旸，阿里云MVP，清華大學(xué)計算機(jī)博士。

高級筆記達(dá)人 | 李云責(zé)編 | 柒排版 | 拾零第 8840篇深度好文：7662字 | 20 分鐘閱讀

宏觀趨勢

筆記君說：

春節(jié)前夕，DeepSeek-R1模型公布開源，下載量迅速登上了免費(fèi)榜榜首。隨后，引起了美國資本市場的大波動，算力巨頭英偉達(dá)出現(xiàn)了股價暴跌17%的罕見跌幅……

開源后的DeepSeek到底對資本、科技產(chǎn)生了何種影響？是什么讓其具有這么大的能量？我們?nèi)绾螕肀eepSeek帶來的新AI時代？繼DeepSeek之后，AI將有什么新的趨勢？

這篇文章，將由清華大學(xué)計算機(jī)博士、阿里云MVP（人工智能領(lǐng)域最有價值專家）陳旸為我們一一解讀上述問題。

一、DeepSeek的影響力

1.對手惶恐，資本青睞

2025年1月20日，DeepSeek-R1模型正式公布；1月26日在中國區(qū)、美國區(qū)蘋果App Store中的免費(fèi)榜上同時沖到了第一名。

隨后，美國資本市場出現(xiàn)大幅波動，標(biāo)準(zhǔn)普爾500指數(shù)在10天內(nèi)跌幅接近10%。英偉達(dá)股票在1月27日當(dāng)天暴跌了17%，美股主要科技公司(英偉達(dá)、微軟、Meta、亞馬遜等)市值共計蒸發(fā)上萬億美元。

在DeepSeek-R1出現(xiàn)前，算力是大模型訓(xùn)練的關(guān)鍵因素，美國限制中國使用英偉達(dá)的顯卡，因此大家普遍會認(rèn)為美國在AI大模型的領(lǐng)先優(yōu)勢是“斷層式”的，這也是美國對華科技限制采取“小院高墻”戰(zhàn)略的底層邏輯。

DeepSeek用少量的顯卡訓(xùn)練出了與其媲美的模型，相當(dāng)于打破了美國對華在人工智能領(lǐng)域的戰(zhàn)略限制。

就連OpenAI的CEO山姆奧特曼也重新思考了OpenAI的開源戰(zhàn)略，迅速推出了o3-mini模型，在使用中開放了思考推理過程。

在這之前，OpenAI并不是完全開源的，我們只能使用o1模型，現(xiàn)在我們也可以使用其o3模型進(jìn)行更深入的思考。

通過OpenAI o3 mini與DeepSeek R1的使用對比，可以發(fā)現(xiàn)DeepSeek-R1的思考時間更長，思考邏輯更完整，推理結(jié)果更好。

同時，DeepSeek會將推理過程完整地展現(xiàn)出來，而OpenAI以前不會展示思考的過程，而思考的過程其實(shí)非常有價值的。

今年1月，美國宣布“星際之門”計劃，軟銀向OpenAI投資400億美元，用于OpenAI對星際之門的承諾，投后估值達(dá)3000億美元；而具有對標(biāo)OpenAI能力的DeepSeek，同樣受到國內(nèi)近百家資本的青睞，對其表達(dá)了投資意向，可以預(yù)見DeepSeek的估值將會上到一個新的高度。

2.DeepSeek開源，行業(yè)爭相部署

在DeepSeek宣布開源R1之后，各個行業(yè)都開始集成或部署DeepSeek的相關(guān)模型。

國內(nèi)的華為云、百度智能云、阿里云、騰訊云、京東云、火山引擎以及三大運(yùn)營商等云平臺都相繼部署了DeepSeek的R1/V3等模型。

國外的亞馬遜、微軟、英偉達(dá)、AMD等平臺也快速地將DeepSeek R1/V3模型部署或集成到相關(guān)的產(chǎn)品和服務(wù)上。

在產(chǎn)業(yè)端，吉利、嵐圖、東風(fēng)、廣汽、智己、長城、寶駿、零跑等車企也宣布與DeepSeek進(jìn)行融合，未來智駕上也可以體驗(yàn)到與DeepSeek的交互。

金融領(lǐng)域，國泰君安、國金證券、興業(yè)證券、廣發(fā)證券等證券機(jī)構(gòu)進(jìn)行了本地化部署和調(diào)試，應(yīng)用于行業(yè)研究、市場研判、風(fēng)險管理、信息檢索、文檔處理等多種場景。

當(dāng)然，部署與開發(fā)完成還需一定的測試過程，但也體現(xiàn)出各個行業(yè)不甘落后的狀態(tài)，也說明與先進(jìn)的大模型融合使用將是大勢所趨。

二、DeepSeek撕破了算力面紗

1.DeepSeek的完全版與蒸餾版

DeepSeek完全版的尺寸是671B，由于采用創(chuàng)新的MOE架構(gòu)，在推理過程中激活少部分參數(shù)，因此推理速度更快，所需訓(xùn)練資源更小。

DeepSeek蒸餾版有Qwen2.5-Math-1.5B、Qwen2.5-Math-7B、Uama-3.1-8B、Qwen2.5-14B、Qwen2.5-32B、Llama-3.3-70B-Instruct等多個尺寸。它選了兩個開源模型進(jìn)行訓(xùn)練，國內(nèi)是Qwen2.5，國外則選用了Llama，蒸餾模型更小更快，但能力相對弱一些。

對于性能要求不太高、GPU資源有限的企業(yè)，蒸餾版是一個更優(yōu)選擇。因?yàn)橥耆嫘枰娘@存是496GB，而R1：1.5B只需要2G顯存、R1：7B也只需要8G顯存，最高的R1：70B蒸餾版也只需要128G顯存，大幅降低了私有化部署的資源要求。

2.蒸餾技術(shù)路線，讓DeepSeek R1性能大幅提升

在R1模型之前，DeepSeek推出V3通用模型，在推理速度上相較歷史模型有了大幅提升。一度在大模型主流榜單中，位于開源模型榜首，與世界最先進(jìn)的閉源模型也不分伯仲。

而V3模型最大的特點(diǎn)是訓(xùn)練成本極低，需要的顯卡數(shù)量和訓(xùn)練時間較于OpenAI只是一個零頭。

2024年12月，V3模型正式推出，但當(dāng)時并沒有太大波瀾。

而以V3模型為基礎(chǔ)，通過新的獎勵機(jī)制GRPO( group relative policy optimization ),并使用規(guī)則類驗(yàn)證機(jī)制自動對輸出進(jìn)行打分，在一個多月時間內(nèi)訓(xùn)練出了DeepSeek-R1模型，性能堪比GPT-o1模型，使R1迅速火出了圈。而R1模型與V3模型相比，其性能也有了大幅提升。

R1模型遵循MIT License（一種非常寬松的開源許可協(xié)議，允許用戶自由地使用、修改、分發(fā)和商業(yè)化軟件或模型。）允許用戶通過蒸餾技術(shù)借助R1訓(xùn)練其他模型。

相比之下，Meta Llama的License相對嚴(yán)格，雖然LLaMA3是開源的，但許可協(xié)議限制了商業(yè)用途和對模型的修改，比如新的模型如果使用LLaMA,需要名稱上帶有LLaMA標(biāo)識。

DeepSeek-R1上線API,對用戶開放思維鏈輸出，因此一經(jīng)發(fā)布，多家企業(yè)就宣布融合DeepSeek-R1的各個版本，因?yàn)槭峭耆_源的模型，在版權(quán)上就減少了不少風(fēng)險。

在開源DeepSeek-R1-Zero和DeepSeek-R1兩個660B模型的同時，通過DeepSeek-R1的輸出，蒸餾了6個小模型，其中32B和70B模型在多項(xiàng)能力上實(shí)現(xiàn)了對標(biāo)0penAlo1-mini的效果。

3.DeepSeek的創(chuàng)新策略及產(chǎn)生的效果

① 創(chuàng)新策略

第一，引入MLA( Multi-Head Latent Attention )。

在“All you need is attention”的背景下，傳統(tǒng)的多頭注意力( MHA，Multi-Head Attention )的鍵值( KV )緩存機(jī)制事實(shí)上對計算效率形成了較大阻礙。縮小KV緩存( KV Cache )大小，并提高性能，在之前的模型架構(gòu)中并未得到很好的解決。

DeepSeek引入了MLA，一種通過低秩鍵值聯(lián)合壓縮的注意力機(jī)制，在顯著減小KV緩存的同時提高計算效率。低秩近似是快速矩陣計算的常用方法，在MLA之前很少用于大模型計算。

從大模型架構(gòu)的演進(jìn)情況來看，Prefill和KV Cache容量瓶頸的問題正一步步被新的模型架構(gòu)攻克，巨大的KV Cache正逐漸成為歷史( 實(shí)際上在2024年6月發(fā)布的DeepSeek-V2就已經(jīng)很好的降低了KV Cache的大小 )。

第二，創(chuàng)新使用了DeepSeek-MoE架構(gòu)策略。

V3使用了61個MoE( Mix of Expert混合專家 )block，雖然總參數(shù)量很大，但每次訓(xùn)練或推理時只激活了很少鏈路，訓(xùn)練成本大大降低，推理速度顯著提高。

第三，DeepSeek采用混合精度框架。

在不同的區(qū)塊里使用不同的精度來存儲數(shù)據(jù)。我們知道精度越高，內(nèi)存占用越多，運(yùn)算復(fù)雜度越大。

DeepSeek在一些不需要很高精度的模塊，使用很低的精度FP8儲存數(shù)據(jù)，極大的降低了訓(xùn)練計算量。

② 創(chuàng)新策略帶來的效果

第一，計算速度快，成本低。

架構(gòu)設(shè)計方面：DeepSeek MoE架構(gòu)在推理時僅激活部分專家，避免了激活所有參數(shù)帶來的計算資源浪費(fèi)；MLA架構(gòu)通過降秩KV矩陣，減少了顯存消耗。

訓(xùn)練策略方面：在訓(xùn)練過程中采用多token預(yù)測( MTP )目標(biāo)，即在每個位置上預(yù)測多個未來token，增加了訓(xùn)練信號的密度，提高了數(shù)據(jù)效率。

在訓(xùn)練中，對于占據(jù)大量計算量的通用矩陣乘法( GEMM )操作，采用FP8精度執(zhí)行；同時，通過細(xì)粒度量化策略和高精度累積過程，解決了低精度訓(xùn)練中出現(xiàn)的量化誤差問題。

第二，推理能力強(qiáng)大。

強(qiáng)化學(xué)習(xí)驅(qū)動：DeepSeek-R1通過大規(guī)模強(qiáng)化學(xué)習(xí)技術(shù)顯著提升了推理能力。在數(shù)學(xué)、代碼和自然語言推理等任務(wù)上表現(xiàn)出色，性能與OpenAl的o1正式版相當(dāng)。

長鏈推理(CoT)技術(shù)：DeepSeek-R1采用長鏈推理技術(shù)，其思維鏈長度可達(dá)數(shù)萬字，能夠逐步分解復(fù)雜問題，通過多步驟的邏輯推理來解決問題。

三、如何高效使用DeepSeek？

1.DeepSeek的多種使用方式及其表現(xiàn)

第一種，直接訪問DeepSeek官網(wǎng)。雖然免費(fèi)，但由于訪問量過大，表現(xiàn)極不穩(wěn)定。

第二種，在GitHub上下載cherry Studio（或者一些其它工具），使用Cherry Studio+DeepSeek API做本地部署。但官方DeepSeek API也存在不穩(wěn)定的情況。

第三種，使用Cherry Studio+第三方云廠商DeepSeek API做本地部署。使用第三方云廠商的DeepSeekAPI穩(wěn)定很多，相比官方API價格也便宜。

Cherry部署之后，除了DeepSeek，還可以使用OpenAI、月之暗面、智譜清言等API。

假設(shè)我們來解一道高考數(shù)學(xué)題：設(shè)集合A中的元素皆為無重復(fù)數(shù)字的三位正整數(shù)，且元素中任意兩者之積皆為偶數(shù)，求集合中元素個數(shù)的最大值是多少？

這是一個非常復(fù)雜、難度較大的問題，如果采用通義千問等通用大模型，大概率得不出正確答案，而DeepSeek通過分步驟的長鏈深度思考，一步步給出了正確答案。

2.簡單應(yīng)用：DeepSeek+知識庫

以構(gòu)建投資研究框架為例，我們來展示用DeepSeek+知識庫的使用。

第一步，配置embedding模型。嵌入模型，把知識庫進(jìn)行向量化，并進(jìn)行快速檢索；選擇嵌入模型（可以使用硅基流動），在Cherry Studio設(shè)置中，設(shè)置對應(yīng)的API Key。

第二步，整理知識庫。在Cherry studio的知識庫中，配置投研報告知識庫，上傳相關(guān)投研報告（處理知識庫主要用到文字，所以知識庫支持PDF、PPT、Excel、word等多種文本文件）。完成后，你就在本地有了知識庫。

第三步，在智能對話助手中，選擇對應(yīng)的知識庫。

最后一步，針對知識庫進(jìn)行提問。可以看到，DeepSeek會進(jìn)行長鏈思考并展現(xiàn)思考過程。

需要注意，雖然云廠商不會主動收集你的數(shù)據(jù)，但并不能100%保證數(shù)據(jù)安全，對于企業(yè)的敏感數(shù)據(jù)（如財務(wù)、營銷數(shù)據(jù)），建議進(jìn)行本地私有化部署。

3.復(fù)雜應(yīng)用：DeepSeek+Cursor

知識庫并不能完全展現(xiàn)DeepSeek的深度思考能力，借助于其它工具（如Cursor ）可以完成更復(fù)雜的任務(wù)，如物理世界的小球碰撞實(shí)驗(yàn)。

首先，我們在Cursor的【File->Preferences->Cursor Settings】中設(shè)置DeepSeek-r1和DeepSeek-v3模型。

然后，在openAI API Key中進(jìn)行設(shè)置（這里采用openAI的協(xié)議），可以使用自定義的模型。

設(shè)置好DeepSeek-r1和DeepSeek-v3模型之后，接下來就可以在Cursor中選擇該模型進(jìn)行編程。

我們看一個實(shí)際的例子：一個紅色的小球在三角區(qū)域內(nèi)運(yùn)動，碰到邊界就反彈，編寫一個HTML網(wǎng)頁。

Cursor會新建一個工程，動態(tài)展示編程結(jié)構(gòu)。而DeepSeek在長鏈思考之后，編寫出HTML代碼，但代碼運(yùn)行可能不符合要求，需要進(jìn)一步調(diào)整，調(diào)整的過程我們也只需發(fā)出語言（文字對話）指令。

調(diào)整過程如下：

基于之前的思考，幫我完善HTML。（動作：DeepSeek思考并完善HTML代碼。效果：HTML樣式有了調(diào)整，但是小球還是會飛出三角區(qū)域，需要進(jìn)一步調(diào)整。）小球彈了之后，彈出去了啊，幫我檢查代碼…… 考慮小球的重力，以及三角區(qū)域的支撐力，小球的彈力進(jìn)行完善…… 每次運(yùn)行，小球可以從隨機(jī)的任意方向拋出…… 小球的彈力大一些…… 最后到地面都垂直彈跳了，不是應(yīng)該還會滾動么，就是有水平的速度…… 下面增加一個刷新按鈕，可以重新執(zhí)行這個HTML…… 中文顯示是亂碼，另外考慮到手機(jī)顯示，頁面需要做自適應(yīng)……

經(jīng)過多次調(diào)校，DeepSeek終于生成了符合我們要求的HTML代碼，并在Cursor工程中進(jìn)行效果演示。

通過上面的演示，我們發(fā)現(xiàn)，即使不懂代碼，也可以通過DeepSeek來完成機(jī)器編程，獲得期望的效果。

4.這一次，AI真的“智能”了

從AlphaGo與圍棋世界冠軍李世石大戰(zhàn)開始，人工智能逐漸介入我們的生活。機(jī)器第一次能進(jìn)行自主思考，完成簡單（其實(shí)戰(zhàn)勝世界冠軍這個任務(wù)并不簡單）任務(wù)。

在發(fā)展中的人工智能也一度被我們吐槽為“人工智障”，但從OpenAI開始，人工智能逐漸會處理一些復(fù)雜任務(wù)了，而DeepSeek展現(xiàn)出了超越普通人的長思維鏈路，我們不得不感嘆：AI真的“智能”了。

可見，在學(xué)習(xí)過程中，對于復(fù)雜任務(wù)的處理有一個逐漸成熟的過程，一切都可以從最簡單的開始。當(dāng)你具備了一些常見的思考、自我更新、自我迭代的能力，就可以完成一些更有價值的作品。

比如，如果你是一名投資分析師，會用哪種AI助手來輔助完成投研報告呢？如果用通用大模型（相當(dāng)于文科生）寫報告，可能也會完成任務(wù)，但顯然缺乏嚴(yán)謹(jǐn)?shù)倪壿嬐评磉^程。

因此可能帶來市場的盲目跟投或者瘋狂踩踏，而DeepSeek的R1模型的嚴(yán)謹(jǐn)推理過程，可以勝任你的助手了。

四、DeepSeek掀桌子

打通了另一條路

1.李飛飛50美金復(fù)刻R1模型

在R1及其蒸餾模型推出后，李飛飛團(tuán)隊(duì)用不到50美金的云計算費(fèi)用，成功訓(xùn)練出了一個名為s1的推理模型。該模型在數(shù)學(xué)和編碼能力中的表現(xiàn)，與0penAI的o1和DeepSeek-R1等尖端推理模型不相上下。

s1模型的訓(xùn)練只用了1000個樣本數(shù)據(jù)，具體過程是：使用Gemini對這1000個樣本完善推理過程，然后對Qwen模型進(jìn)行監(jiān)督微調(diào)。

消息出來，在網(wǎng)絡(luò)上一度刷屏。但我們也要了解這個模型成功的背景：

其一，s1模型是站在巨人的肩膀上，在阿里Qwen和谷歌Gemini大模型進(jìn)一步訓(xùn)練得到的；

其二，成本之所以低，是因?yàn)橹皇褂昧?000個樣本（對于企業(yè)來說，1000個樣本可能足夠了，但對于訓(xùn)練完整的大模型是不可能的），通過26分鐘花費(fèi)50美金，達(dá)到了一個比較理想的推理效果（與o1相差不大）。

也就是說，在每個企業(yè)中，未來大家都有機(jī)會用1000個樣本經(jīng)過精細(xì)訓(xùn)練就可能達(dá)到類似效果。

如果稍微展開，可以發(fā)現(xiàn)s1模型背后有自己的獨(dú)特方法論：

首先，數(shù)據(jù)集的構(gòu)建有三個標(biāo)準(zhǔn)（難度、多樣性和質(zhì)量），從這三個標(biāo)準(zhǔn)出發(fā)，挑選了1000個問題及對應(yīng)的推理路徑。

S1的數(shù)據(jù)集包含了不同領(lǐng)域，如數(shù)學(xué)競賽、物理競賽，并且新增了兩個原創(chuàng)數(shù)據(jù)集；s1-prob和s1-teasers,分別涵蓋了概率問題和定量交易面試中的難題。

其次，采用了預(yù)算強(qiáng)制技術(shù)。這是一種控制測試時計算的技術(shù)，通過強(qiáng)制終止或延長模型的思考過程(通過添加“wait”字符串)，使模型有機(jī)會重新檢查答案，從而可能糾正錯誤的推理步驟。

在預(yù)算強(qiáng)制技術(shù)下，有三個強(qiáng)制策略。

其一，設(shè)定思考時間限制：當(dāng)模型開始處理一個問題時，首先為其設(shè)定了一個最大思考時間( 以token數(shù)量衡量 )。如果模型在這個時間內(nèi)完成了思考并準(zhǔn)備給出答案，則按照正常流程進(jìn)行。

其二，強(qiáng)制結(jié)束思考過程：如果模型生成的思考token超過了預(yù)設(shè)的最大值，系統(tǒng)會強(qiáng)行終止模型的思考過程。這通常是通過添加一個特殊的end-of-thinking token delimiter實(shí)現(xiàn)的，促使模型停止進(jìn)一步的推理，并轉(zhuǎn)向生成最終答案。

其三，鼓勵更深入的探索：如果希望模型花更多的時間來考慮一個問題，可以抑制end-of-thinking token delimiter的生成，并在當(dāng)前的推理路徑后面追加“wait”字符串=>為了讓模型有機(jī)會重新評估其先前的推理步驟，可能會糾正一些快速但不準(zhǔn)確的回答。

2.繼DeepSeek后的AI趨勢

趨勢一：小模型將成為主流(大模型蒸餾）。

通過蒸餾技術(shù)將大型模型的推理能力成功遷移到小型模型中，顯著提升了小型模型的性能（ DeepSeek-R1-Distil-Qwen-7B在AIME 2024競賽中擊敗了32B模型）。

趨勢二：使用合成數(shù)據(jù)進(jìn)行訓(xùn)練成為主流。

雖然蒸餾數(shù)據(jù)是公開的秘密，但很多表現(xiàn)不是蒸餾能解釋的。比如v3的中文能力，很多用詞和表達(dá)方式非常接地氣，可能是用了數(shù)據(jù)合成方法做的預(yù)訓(xùn)練。

趨勢三：AI模型將自我迭代（強(qiáng)化學(xué)習(xí)新范式）。

讓模型自己出題自己做，自己檢查。第一步：模型自己出題（比如100萬道）；第二步，模型自己檢查對錯；第三步，篩選驗(yàn)證對的內(nèi)容，將結(jié)果與思維鏈合成新的數(shù)據(jù)。

比如在100萬道題目中，模型檢查后發(fā)現(xiàn)有1萬道能驗(yàn)證是對的，那么解出這1萬道題的思維鏈就成了新的訓(xùn)練數(shù)據(jù)。通過不斷迭代，探索出之前人類沒有探索到的地方( 類似AlphaGo-Zero戰(zhàn)勝AlphaGo )。

- 關(guān)于量子教育 -

量子教育啟航于2017年，核心管理團(tuán)隊(duì)源自浙江大學(xué)。我們匯聚全球優(yōu)質(zhì)教育資源，以前沿科技推動教育創(chuàng)新，致力于成為一所全球領(lǐng)先的無邊界職場大學(xué)，讓每一個人、每一個組織都能享受到一流的知識服務(wù)，成就不凡！

自2017年成立以來，已成功打造知識IP3000+，在線課程累計曝光150億+，全網(wǎng)粉絲2600萬+，為690+家大型國央企、金融機(jī)構(gòu)及上市公司等500強(qiáng)企業(yè)提供優(yōu)質(zhì)內(nèi)容資源、創(chuàng)新解決方案等人才培養(yǎng)創(chuàng)新服務(wù)！