日本午夜激情视频官网,国产精品麻豆果冻传媒,最近2019年免费中文字幕高清视频,18禁成年网站下载,黄频免费高清视频

關(guān)于 Deepseek R1 以及其他大模型常見的一些問題

Deepseek R1 是什么?

深度求索人工智能基礎(chǔ)模型（簡稱“深度求索”或“DeepSeek”）是由深度求索（北京）科技有限公司開發(fā)的國產(chǎn)大語言模型。該模型基于深度學(xué)習(xí)技術(shù)，具備理解和生成人類語言的能力，可廣泛應(yīng)用于文本生成、對話交互、問答系統(tǒng)等領(lǐng)域。

DeepSeek-R1 是深度求索公司推出的具體模型版本，具備高性能的自然語言處理能力，能夠處理復(fù)雜的文本生成任務(wù)，理解和生成自然流暢的文本，適用于多種應(yīng)用場景，幫助用戶高效完成各種任務(wù)。

為什么要本地部署?

雖然云端部署成本更低，很多服務(wù)商甚至提供了一鍵部署選項，Deepseek 官方也提供了網(wǎng)頁/APP 訪問，但我們?nèi)杂袔讉€理由來進行本地部署:

簡單的學(xué)習(xí)部署方法與應(yīng)用，輸入代碼/選擇模型的時候，看到一些參數(shù)/名詞然后搜索一下或者直接問大模型這些名詞/參數(shù)是什么意思，也是理解 AIGC 的一種方式(請自行搜索什么是 AIGC)
本地 AI 不依賴網(wǎng)絡(luò)，部署完成后可以斷網(wǎng)使用(不會出現(xiàn)某些軟件/APP 結(jié)果自動加馬賽克的問題)
數(shù)據(jù)私密/安全性

當(dāng)然從成本和性能來說，云端部署成本更低，也支持部署更大參數(shù)量的模型。受限于大部分用戶的 RAM 和顯卡顯存大小，本地是不太可能部署諸如671B 參量的完整模型的。

參數(shù)量是什么?

在大型語言模型（如深度求索的 DeepSeek-R1）中，參數(shù)是指模型內(nèi)部用于表示和處理信息的變量。這些參數(shù)是模型通過訓(xùn)練學(xué)習(xí)到的數(shù)值，用于描述模型如何將輸入轉(zhuǎn)換為輸出。

簡單來說，參數(shù)的數(shù)量決定了模型的復(fù)雜性和能力。一般來說，參數(shù)越多，模型的表達能力越強，但同時也會消耗更多的計算資源和內(nèi)存。

例如
DeepSeek-R1-Distill-Qwen-7B-Q8，這里的 7B 就是參數(shù)量為 7Billon(70億)，而DeepSeek-R1-Distill-Qwen-14B-Q8 的參數(shù)量為 14Billon(14億)。（這里的 Qwen 指本模型基于 Qwen 大模型進行蒸餾得來)

Q2/Q4/Q8 是什么?

量化的詳細概念超出本文范疇，但下載/部署模型的時候，會有很多不同量化參數(shù)模型可供選擇，我個人一般選擇 Q8 來獲得相對更高的精度。

Q 值越大模型文件大小和所需的 RAM/顯存就越大，在零刻官方基于 SER9 Pro 系列機器測試 AI 性能的數(shù)據(jù)中，可以看到相同模型不同 Q 值所占用的 RAM 值。

我這里使用的是零刻 SER9 Pro，配置為 AMD AI 9 H365 + 32GB LPDDR5x + 1TB SSD，一般主流 16GB/32GB 的機器都可以正常安裝和使用7B/14B 模型。

token 是什么?

這里我直接把問題丟給了 DeepSeek R1，它的回答其實是比較準(zhǔn)確和清晰的，我們需要簡單的記住 token 生成速度(token/s)越快，生成答案的速度也就越快。

蒸餾/Distill 是什么?

可以簡單的人位蒸餾是一種壓縮算法，它不是通過訓(xùn)練一個參數(shù)量較小的模型，而是將一個訓(xùn)練參數(shù)量更大的模型蒸餾為一個較小的模型。較小的模型可以使用更少的 RAM 和存儲，獲得更快的速度，降低部署的成本。

但蒸餾畢竟是一種類似壓縮的方式，蒸餾后的相對小體積的模型能力必然是落后于更大體積的模型，以 DeepSeek-R1 官方在 AIME2024、MATH-500、GPQA、LiveCodeBench、CodeForces 等測試下的結(jié)果，可以看出隨著整理模型由 32B → 14B → 7B → 1.5B，得分是依次降低的。

但好消息是
DeepSeek-R1-Distill-Qwen-32B 已經(jīng)超越了 OpenAI o1-mini，而體積更小的DeepSeek-R1-Distill-Qwen-14B 和 32B 差距并不大，DeepSeek-R1-Distill-Qwen-14B 模型所需的 16GB 內(nèi)存或是顯存獲得的成本也并不是非常高。

目前我使用的機器是零刻的 SER9 Pro，CPU 是 AMD AI9 365，GPU 部分是集成的 880M 核顯，32GB 總內(nèi)存。從速度上來說純 GPU 模式會比 CPU 更快，但如果分配的顯存不足，一旦從專屬顯存溢出到通用內(nèi)存，生成速度(token/s)會受到比較明顯的影響。

考慮到我這臺機器并不只是運行 AI，日常也有辦公、游戲、娛樂等需求，我目前使用的方案是將32GB 內(nèi)存劃分 16GB 給核顯。模型部分則使用
DeepSeek-R1-Distill-Qwen-14B(-Q8)，這樣既能兼顧日常使用，同時也可以有比較大的顯存供 LM Studio 和 Amuse 使用。

另外零刻官方基于 LM Studio，測試了 SER9 Pro 系列兩款機器，純 CPU、純 GPU 模式下生成 token 的速度，大家可以參考一下。

需要說明的是 token/s 計算是存在一定誤差的，這里對比了同樣 GPU 模式下零刻 SER9 Pro HX370 和 H365 的成績，相對規(guī)格稍低的 SER9 Pro AI 9 H365 生成速度比 HX370 更高，這部分差距應(yīng)該就是測試誤差造成的。不過反過來也說明 SER9 Pro AI 9 H365 的性能和規(guī)格稍高的 SER9 Pro HX370 基本是屬于同一水準(zhǔn)。

另外由于 AI 9 系列 CPU 性能很強，在
DeepSeek-R1-Distill-Qwen-14B-Q2 測試里，無論是 AI 9 HX370 還是 H365，CPU 生成速度都是略快于 GPU 的。如果你使用 Q2 之類的模型，或者是 7B-Q8，那么純 CPU 模式效果會更好。

Ollama 部署 DeepSeek-R1

Ollama 和 LM Studio 都是比較方便的部署工具，不過對于初學(xué)者個人更推薦 Ollama，雖然使用 Ollama 要輸入命令行。但是以實際體驗來說，Ollama 的網(wǎng)絡(luò)訪問更通暢，無需換源或是對網(wǎng)絡(luò)有額外的要求(這部分不是能說的)。軟件安裝也非常簡單，直接官網(wǎng)下載后，一路下一步確認即可完成安裝。

模型部分可以直接在頂部搜索欄搜索，也可以在下方主頁點擊模型名稱進行跳轉(zhuǎn)。

Windows 系統(tǒng)下有兩個工具自帶工具可以使用 Ollama，分別是傳統(tǒng)的 CMD 和更新一些的 PowerShell，方法如下:

Win 鍵，輸入 CMD，打開 CMD/命令提示符
Win 鍵，輸入 PowerShell，打開 Windows PowerShell

以 CMD 為例，打開 Ollama 后輸入 "ollama" 后回車，應(yīng)該可以看到如下圖這樣多行的提示。

安裝/運行模型的命令可以直接在 Ollama 的官網(wǎng)復(fù)制，在網(wǎng)頁上先選擇模型參數(shù)量，再點擊右側(cè)的復(fù)制按鈕。回到 CMD 內(nèi)，CTRL+V 快捷鍵粘貼命令，回車后即可開始下載/運行對應(yīng)模型。

例如，我這里安裝 DeepSeek-R1:14b，直接輸入如下命令運行即可:

ollama run deepseek-r1:14b (注意單詞間的空格)

第一次運行后下方會顯示下載(pulling xxxx)，下載完成后會自動運行該模型，已經(jīng)下載過的模型則會直接運行了。(也就是對于 ollama 而言 run 即可用于下載也可以用于運行)

如果想要查看本機已經(jīng)安裝的模型，直接輸入 ollama list 然后回車即可。

如何計算 token 生成速度?方法是加一個命令 --verbose，比如運行命令是:

ollama run deepseek-r1:14b

如果要計算生成速度，那么就修改為:

ollama run deepseek-r1:14b --verbose (注意是兩個-)
在生成答案結(jié)束后，會紫銅統(tǒng)計總用時、生成速度(eval rate)等信息

One More Thing:Chatbox 調(diào)用 Ollama

當(dāng)然使用命令行只是為了安裝大模型，實際調(diào)用時更建議使用單獨的 UI 類工具，比如常用的 Chatbox。作為一款免費的工具，Chatbox 可以支持 Ollama 在內(nèi)很多 API 的調(diào)用，無論是本地部署還是云端部署，Chatbox 都是一款值得考慮的助手類工具。

Chatbox 的安裝方式也沒有太多可說的，官網(wǎng)下載然后一路下一步即可，再配置 Chatbox 之前，建議先打開瀏覽器，輸入:

127.0.0.1:11434 (主要這里:是英文符號)并回車訪問

如果看到 Ollama is running 的字樣，說明 Ollama 已經(jīng)在后臺成功運行。

這時打開 Chatbox，選擇——使用自己的 API Key 或本地模型

因為我們是本地通過 Ollama 部署，所以這里選擇——Ollama API

Chatbox 默認就會填入 Ollama 的 API 域名，如果你是使用局域網(wǎng)設(shè)備部署，則需要替換 127.0.0.1 為對應(yīng)主機的 IP 地址。頁面內(nèi)還需要選擇模型，這里點擊下方模型選擇對應(yīng) Ollama 內(nèi)的模型文件名(例如這里我是調(diào)用上面安裝的 deepseek-r1:14b)即可。