說到語言模型的本地部署,大家的第一反應(yīng)應(yīng)該都是燒錢、燒顯卡,像世超的陳年老電腦,打個LOL都嗡嗡響,可以說就是那臺老古董毀了我的AI夢。
誒,那有沒有不吃配置,不吃鈔能力,普通人也能感受到本地部署AI的快感的方法呢?
有的兄弟,有的。
世超這臺2000元不到的紅米Turbo4,居然就能成功部署小米最新的語言模型Mimo-7B量化版。

在完全斷網(wǎng)的情況下,它也能一字一句地輸出正確的結(jié)果。
眾所周知,世超心里一直想著差友,所以第一時間趕來給大家出個保姆級教程,包含兩種方法。話不多說,準備凍手!
第一種方法,下載Pocketpal AI,這是一款專用于手機跑AI模型的應(yīng)用程序。

然后打開它,點擊Download Model,再點右下角的+號,選擇Add From Hugging Face,然后搜索Mimo,選第一個版本下載就好。
不選后面的,是因為后面的數(shù)字越大,模型精度越高,咱這手機其實夠嗆。
最后回到主頁,點擊Select Model,就能選擇模型開始聊天了。
如果嫌麻煩,世超還準備了更簡單的方法,直接在瀏覽器輸入這個網(wǎng)址:
https://github.com/alibaba/MNN/tree/master/project/android/apps/MnnLlmApp,這是一款由阿里開發(fā)的端側(cè)多模態(tài)模型部署平臺。
往下滑到Release,點擊Download,下載這個APP,就可以隨意挑選下載你想體驗的本地模型了,甚至還能跑Stable Diffusion。。
OK,部署完成了,來給大伙看看效果吧。世超那天下班時候迷路了,不小心走到了亞馬遜的熱帶雨林,一格信號都沒有,我看是活不下去了。。于是我立馬掏出了我的Mimo,問他怎么鉆木取火。
不到三分鐘,他咣咣咣全給我寫出來了。
在這,咱小型模型的獨特優(yōu)勢已經(jīng)盡數(shù)體現(xiàn)了——無視環(huán)境,隨時隨地本地運行。
直接在手機上本地運行,就意味著不管在雪山、沙漠、海洋、甚至外太空,咱都能隨時隨地掏出這個私人助理。
那,要是再小一點呢?阿里之前剛發(fā)布的Qwen3,有個參數(shù)只有0.6B的模型,咱也在他們自家的MNN上試了一下。

嗯。。確實能說話,不過這說出來的話,好像有點深奧了。。
不過,這應(yīng)該是和手機部署有關(guān),MNN上的模型基本都是對移動端部署進行特殊優(yōu)化過,防止手機跑崩,模型有些精度丟失也很正常,出現(xiàn)這種情況也只是概率事件。
總之,有了這些小型模型,咱以后去哪都能跟AI聊天了,坐飛船上趟火星也肯定不會無聊了。

有人說,你這是癔癥犯了,這輩子能上太空嗎?現(xiàn)在哪兒沒網(wǎng)啊,那么多大模型APP它哪個不香?
但小型模型的用處,還真不止這點。如果說,AI要想更貼近咱的生活,還真得是更小的模型。
要是AI發(fā)展到進家門了,你躺沙發(fā)上突然想看電視,喊AI幫你開個電視,這其實也就是個跑腿的活。但如果把指揮家具的都換成大模型,那得等它們上傳數(shù)據(jù),深度思考,再把數(shù)據(jù)傳回來,估計還沒等電視打開,你就刷上短視頻了。
這就是參數(shù)少的另一個優(yōu)點——低延遲。沒有那么多參數(shù),它就不用考慮那么多東西,完全遵照主人的命令。
而且,參數(shù)量越小,訓(xùn)練和部署的成本也就越低。據(jù)說,訓(xùn)練一次 GPT-4o 這種級別的模型,就要燒掉 1 億美元,平民根本燒不起這么大的模型。所以AI公司每次開源新模型,都會放出各種尺寸,就是讓大家自由挑選適合自己的模型。

而很多小公司,都是垂直領(lǐng)域的專家,不需要大模型那樣的百科全書。
參數(shù)少的模型,可以用來被各行各業(yè)的公司自己訓(xùn)練,不僅燒錢少,還能煉出一個該領(lǐng)域的專家?,F(xiàn)在,有很多專業(yè)型模型已經(jīng)在各自領(lǐng)域發(fā)光發(fā)熱。
像度小滿的金融模型的XuanYuan-6B,雖然只有6B,效果就非常好。在注冊會計師(CPA)、銀行從業(yè)資格、基金從業(yè)資格、證券從業(yè)資格等多項金融領(lǐng)域考試中,這玩意都能展示出金融領(lǐng)域?qū)<业乃健?/p>
而現(xiàn)在,很多公司也在開始小型模型上全面發(fā)力,很多參數(shù)少的模型甚至能媲美大模型。
像咱的DeepSeek,愣是用一些新奇的算法,把參數(shù)少的模型性能懟了上去。DeepSeek-R1-Distill的7B和14B版本,在數(shù)學推理任務(wù)上能超越很多閉源大模型。

還有家叫面壁智能的公司,他們是專門搞端側(cè)模型的,目標就是手機、車機等移動設(shè)備,他們搞出的“小鋼炮”MiniCPM只有8B,測試表現(xiàn)居然能媲美GPT-4o。
而且,他們很早就把多模態(tài)能力塞進了小型模型里,實現(xiàn)了全模態(tài)、端到端。

就連蘋果都開始自研 3B 參數(shù)的模型了,他們的AFM-on-device,在文本總結(jié)任務(wù)中,其效果能優(yōu)于Gemma、Phi-3 mini等更大參數(shù)的模型。

那問題又來了,這些模型參數(shù)這么少,又能趕上大模型,這又憑什么呢?
這些小東西還真有獨門秘籍。比如知識蒸餾這方法,就像讓老師給學生開小灶,讓大模型把學到的知識和經(jīng)驗傳授給更小的模型。
以及剪枝、量化等方法,簡單說就是在不需要很高精度的情況下,把模型里的高精度計算變成低精度計算,這樣模型就能跑得更快。去年英偉達聯(lián)合Meta發(fā)布的 Llama-3.1-Minitron 4B AI 模型,就是從原本的8B模型剪枝而來,讓模型速度更快,資源更省。

最后還有一招,叫混合專家模型(MoE)。傳統(tǒng)大模型就像個齊心協(xié)力的專家組,不管什么問題,都得全組抄家伙上陣。而 MoE 架構(gòu)的作用,就是把這群專家拆分成 n 個專業(yè)小組:有的專門搞數(shù)學推導(dǎo),有的專精語義分析,還有的負責圖像識別。。這樣,遇到小問題就不需要“全員加班”了。
所以,別看這些模型個頭小,說不定就是邁向AI世界的又一大步。就像科技進步從不是一蹴而就的,咱普通人,就靜待開花結(jié)果就好。
撰文:不咕
編輯:江江 & 面線
美編:子曰
圖片、資料來源:
Qwen3, DeepSeek, Mimo, X, github,面壁智能,HuggingFace,知乎
Apple, Introducing Apple’s On-Device and Server Foundation Models
極客公園,NASA 人人必讀的《火星救援》是如何誕生的?
證券時報網(wǎng),度小滿”軒轅”系列發(fā)布12款金融大模型,金融實戰(zhàn)能力出色

熱門跟貼