這兩天,我身邊的小伙伴們在樂此不疲的玩一個游戲,讓ChatGPT的O3猜圖…
貌似每次視覺模型(VLM)或者說多模態(tài)模型的推出,都會引起一番全民熱議,無他,有圖有真相
今年伊始,模型廠商也像是商量好似的,發(fā)布的模型大多具有視覺識別能力(VLM),Qwen2.5 VL-72B,claude 3.7,Aya Vision-8B,O3…
前不久,Hugging Face也推出了其VLM家族SmolVLM的最新系列,其中最小的SmolVLM-256M參數(shù)量只有256M,還不到之前一直以輕量級自稱的Aya Vision-8B的三十分之一。
就是一個這樣量級的小模型,不僅在單幅圖像的OCR、VQA、文檔理解等基準(zhǔn)測試上名列前茅,還在視頻理解任務(wù)中展現(xiàn)出與高階巨模相當(dāng)?shù)膶嵙?,更是取得了在OCRBench等關(guān)鍵指標(biāo)上超越80B參數(shù)模型的"反常識"成果。
目前,絕大多數(shù)VLM依然延續(xù)了大模型的設(shè)計思路,使用大量視覺token化,導(dǎo)致內(nèi)存開銷依然居高不下,難以在移動端或嵌入式場景中運行。如何在邊緣設(shè)備或移動設(shè)備上高效部署VLM成為了一個核心痛點。
而SmolVLM則恰恰是為其而生,在保持強大的多模態(tài)性能的基礎(chǔ)上,無論是移動端設(shè)備,消費級筆記本電腦,還是瀏覽器端的推理,SmolVLM都能輕松應(yīng)對。這不僅是對既有技術(shù)路線的顛覆,更預(yù)示著邊緣智能領(lǐng)域即將迎來新一輪洗牌。
研究背景:開源社區(qū)的效率突圍
SmolVLM由Hugging Face與斯坦福大學(xué)研究團隊聯(lián)合開發(fā),論文于2025年4月份發(fā)布在arXiv平臺(2504.05299)。
SmolVLM項目是Hugging Face在多模態(tài)小型模型領(lǐng)域的重要探索,得到了該組織研究資源的全面支持。
研究團隊擁有豐富的多模態(tài)模型開發(fā)經(jīng)驗,此前曾參與開發(fā)Idefics等大型視覺-語言模型。與以往不同的是,SmolVLM項目特別關(guān)注如何在極小的參數(shù)規(guī)模下實現(xiàn)高效的多模態(tài)能力,這一方向?qū)τ谕苿覣I在邊緣和移動設(shè)備上的應(yīng)用具有重要意義。
該研究不僅提供了完整的模型實現(xiàn),還開源了所有模型權(quán)重、數(shù)據(jù)集和代碼,并發(fā)布了展示在智能手機上進行推理的移動應(yīng)用程序,旨在填補“高性能VLM難以在邊緣端部署”的產(chǎn)業(yè)空白,推動多模態(tài)AI在移動端、低功耗場景中的普及。
核心成果:小而美
SmolVLM的最大成就在于它徹底顛覆了"更大即更好"的傳統(tǒng)范式,證明了精心設(shè)計的小型模型可以在資源效率和性能之間取得令人驚訝的平衡。
研究團隊開發(fā)了三個不同規(guī)模的SmolVLM變體,每一個都針對不同的計算環(huán)境進行了優(yōu)化:
SmolVLM-256M是該系列中最小的模型,僅有256M參數(shù),結(jié)合了93M的SigLIP-B/16視覺編碼器和135M的SmolLM2語言模型。這個微型模型在推理過程中只需不到1GB的GPU內(nèi)存,非常適合資源極度受限的邊緣設(shè)備或移動設(shè)備應(yīng)用。
這個小模型在多項基準(zhǔn)測試中的表現(xiàn)超過了參數(shù)量是它300倍的Idefics-80B模型,這一成就充分展示了精心設(shè)計的架構(gòu)可以大幅提升小型模型的性能上限。
SmolVLM-500M是一個中等規(guī)模的模型,同樣使用93M的SigLIP-B/16視覺編碼器,但搭配了更大的360M SmolLM2語言模型。這個模型在內(nèi)存效率和性能之間取得了良好的平衡,適合中等資源的邊緣設(shè)備。
在實驗中,這個模型在多項視覺和視頻任務(wù)上都取得了令人印象深刻的成績,例如在DocVQA(文檔理解)測試中達到了70.5%的準(zhǔn)確率,在ScienceQA(高中科學(xué)問題)測試中達到了80.0%的準(zhǔn)確率。
SmolVLM-2.2B是該系列中最大的變體,采用了400M的SigLIP-SO 400M視覺編碼器和1.7B參數(shù)的SmolLM2語言模型。這個模型在保持相對較小體積的同時,性能已經(jīng)可以與消耗兩倍GPU內(nèi)存的最先進VLM模型相媲美。
在推理過程中,它只需要4.9GB的GPU內(nèi)存,而同等規(guī)模的Qwen2VL-2B需要13.7GB,InternVL2-2B需要10.5GB,這充分說明了參數(shù)數(shù)量并不能完全決定計算需求,架構(gòu)設(shè)計同樣至關(guān)重要。
在性能方面,SmolVLM系列在多項基準(zhǔn)測試中都表現(xiàn)出色。
以SmolVLM-2.2B為例,它在OCRBench(字符識別)測試中達到了72.9%的準(zhǔn)確率,在TextVQA(文本理解)測試中達到了73.0%的準(zhǔn)確率,在DocVQA(文檔理解)測試中達到了80.0%的準(zhǔn)確率,在ScienceQA(高中科學(xué)問題)測試中更是達到了89.6%的準(zhǔn)確率。
這些成績與許多參數(shù)量更大的模型相當(dāng)甚至更優(yōu)。
特別值得一提的是,SmolVLM不僅在靜態(tài)圖像任務(wù)上表現(xiàn)出色,還展示了強大的視頻理解能力。
在Video-MME(通用視頻理解)測試中,SmolVLM-2.2B達到了52.1%的準(zhǔn)確率,超過了InternVL2-2B的表現(xiàn)。在WorldSense(時間和物理理解)測試中,它達到了36.2%的準(zhǔn)確率,超過了Qwen2VL-7B的32.4%。
這種跨模態(tài)的泛化能力使SmolVLM特別適合多樣化的實際應(yīng)用場景。

SmolVLM的另一個重要成就是其在邊緣設(shè)備上的高效表現(xiàn)。研究團隊在不同硬件平臺上對模型的吞吐量進行了基準(zhǔn)測試,結(jié)果表明SmolVLM非常適合在資源受限的環(huán)境中部署。
在NVIDIA A100 GPU上,SmolVLM-256M變體在批處理大小為1時可以達到每秒0.8個樣本的吞吐量,在批處理大小為64時可以達到每秒16.3個樣本的吞吐量。即使在更受限的L4 GPU上,SmolVLM-256M也能在批處理大小為8時達到每秒2.7個樣本的峰值吞吐量。
研究團隊還展示了SmolVLM可以在瀏覽器環(huán)境中通過WebGPU高效運行,256M變體在14英寸MacBook Pro(M4 Max)上可以達到每秒80個解碼標(biāo)記的速度。這種跨平臺的兼容性大大拓寬了SmolVLM的部署機會,使其可以在各種消費級硬件上運行。
SmolVLM的成功已經(jīng)引發(fā)了多個下游應(yīng)用的開發(fā)。
ColSmolVLM利用較小的SmolVLM變體(256M和500M參數(shù))實現(xiàn)了在移動設(shè)備、消費級筆記本電腦甚至瀏覽器環(huán)境中的高效多模態(tài)推理。
Smol Docling是一個專為端到端多模態(tài)文檔轉(zhuǎn)換任務(wù)優(yōu)化的超緊湊256M參數(shù)變體,通過采用稱為DocTags的專用表示,有效捕獲各種文檔類型的內(nèi)容、上下文和空間關(guān)系。
BioVQA則利用SmolVLM的緊湊高效架構(gòu)解決生物醫(yī)學(xué)領(lǐng)域的視覺問答任務(wù),在解釋醫(yī)學(xué)圖像和回答臨床問題方面展示了令人期待的能力。
總的來說,SmolVLM的核心成就在于它證明了通過精心設(shè)計的架構(gòu)和訓(xùn)練策略,可以在極小的參數(shù)規(guī)模和內(nèi)存占用下實現(xiàn)強大的多模態(tài)能力,為資源受限環(huán)境中的AI應(yīng)用開辟了新的可能性。
方法評析:效率與性能的平衡術(shù)
SmolVLM的成功不是偶然的,而是源于研究團隊對模型架構(gòu)和訓(xùn)練策略的系統(tǒng)性探索與創(chuàng)新。
SmolVLM在視覺編碼器和語言模型之間實現(xiàn)了更為平衡的參數(shù)分配。傳統(tǒng)的大型VLM模型通常將大部分參數(shù)分配給語言模型,而視覺編碼器相對較小。而SmolVLM的研究表明,當(dāng)語言模型規(guī)模縮小時,這種不平衡的分配方式不再高效。
研究團隊通過實驗發(fā)現(xiàn),對于最小的135M語言模型,使用較大的428M SigLIP-SO 400M視覺編碼器反而會導(dǎo)致性能顯著下降,表明編碼器與語言模型之間存在效率不平衡。只有在較大的1.7B語言模型規(guī)模下,較大的視覺編碼器才能帶來明顯的性能提升。這一發(fā)現(xiàn)挑戰(zhàn)了傳統(tǒng)的參數(shù)分配方式,為小型多模態(tài)模型提供了更為合理的設(shè)計指導(dǎo)。

SmolVLM采用了擴展上下文長度和高效的視覺標(biāo)記壓縮技術(shù)。研究團隊將RoPE基數(shù)從10k增加到273k,將上下文容量從2k擴展到16k(對于較小的變體為8k),這使得模型能夠處理更高分辨率的圖像。
他們采用了像素重排(pixel shuffle)技術(shù)來壓縮視覺標(biāo)記,這種技術(shù)通過重新排列空間特征到額外的通道中,減少了空間分辨率但增加了表示密度。與大型模型通常使用的r=2壓縮比不同,SmolVLM的實驗表明小型模型從更激進的壓縮(r=4)中受益更多,因為減少的標(biāo)記數(shù)量減輕了注意力機制的開銷并改善了長上下文建模。
這種對視覺標(biāo)記的高效處理是SmolVLM能夠在有限資源下實現(xiàn)強大性能的關(guān)鍵因素之一。

SmolVLM針對圖像和視頻采用了不同的處理策略。對于高分辨率圖像,研究團隊采用了圖像分割策略,將圖像分成多個子圖像,同時保留一個縮小版的原始圖像。這種方法在不增加過多計算開銷的情況下有效地保持了圖像質(zhì)量。而對于視頻,他們發(fā)現(xiàn)幀平均等策略反而會降低性能。
實驗表明,隨著平均因子的增加(2、4、8),OpenCompass-Video的結(jié)果顯著下降。因此,SmolVLM的最終設(shè)計中排除了幀平均,而是將視頻幀重新縮放到圖像編碼器的分辨率。這種針對不同模態(tài)的差異化處理策略,體現(xiàn)了研究團隊對多模態(tài)任務(wù)特性的深刻理解。
在訓(xùn)練策略方面,SmolVLM同樣展現(xiàn)了多項創(chuàng)新。研究團隊發(fā)現(xiàn),使用學(xué)習(xí)的位置標(biāo)記比簡單的字符串標(biāo)記(如)效果更好,特別是對于小型模型。
學(xué)習(xí)的位置標(biāo)記顯著改善了訓(xùn)練收斂性并減少了停滯,在多個圖像和文本基準(zhǔn)測試中始終優(yōu)于樸素的字符串位置。這一發(fā)現(xiàn)強調(diào)了在緊湊的多模態(tài)模型中結(jié)構(gòu)化位置標(biāo)記化的有效性。
此外,SmolVLM的訓(xùn)練過程中還采用了系統(tǒng)提示、媒體引入/結(jié)束標(biāo)記和用戶提示掩碼等技術(shù)。系統(tǒng)提示用于澄清任務(wù)目標(biāo)并減少零樣本推理過程中的歧義;媒體引入/結(jié)束標(biāo)記用于明確標(biāo)記視覺內(nèi)容;用戶提示掩碼則用于減少過擬合。
實驗表明,這些策略在圖像和視頻任務(wù)中都帶來了顯著的性能提升,特別是對于視頻任務(wù),媒體引入/結(jié)束標(biāo)記的效果尤為明顯。
在訓(xùn)練數(shù)據(jù)方面,SmolVLM的研究也提供了幾個重要發(fā)現(xiàn)。
與直覺相反,重用來自大型語言模型監(jiān)督微調(diào)階段的文本數(shù)據(jù)(SmolTalk)實際上會降低小型多模態(tài)架構(gòu)的性能,在視頻任務(wù)中降低了3.7%,在圖像任務(wù)中降低了6.5%。這表明數(shù)據(jù)多樣性的減少超過了重用文本的任何好處。
對于思維鏈(Chain-of-Thought)數(shù)據(jù)的集成,研究發(fā)現(xiàn)在小型多模態(tài)模型中,只有極少量(0.02-0.05%)的思維鏈?zhǔn)纠拍苈晕⑻岣咝阅?,而更高比例的思維鏈數(shù)據(jù)會明顯降低結(jié)果,特別是在圖像任務(wù)中。這表明過多的推理導(dǎo)向文本數(shù)據(jù)會壓倒小型模型的有限容量,從而損害其視覺表示能力。

關(guān)于視頻序列長度的影響,研究表明隨著視頻持續(xù)時間接近約3.5分鐘,視頻和圖像基準(zhǔn)測試的性能都有明顯提升,但超過3.5分鐘后收益遞減,表明相對于增加的計算成本,過長的序列并不能成比例地證明其合理性。
盡管SmolVLM在多個方面展現(xiàn)了創(chuàng)新和優(yōu)勢,但它也存在一些局限性。
雖然SmolVLM在多項基準(zhǔn)測試中表現(xiàn)出色,但在一些需要強大語言推理能力的任務(wù)(如MMMU和AI2D)上,它仍然落后于更大的模型。這表明在某些復(fù)雜任務(wù)上,語言模型的規(guī)模仍然是一個重要因素。
SmolVLM的設(shè)計選擇(如更激進的視覺標(biāo)記壓縮)可能會影響需要精確定位的任務(wù),如OCR。雖然研究團隊通過平衡不同的設(shè)計選擇來最小化這些影響,但這種權(quán)衡仍然存在。
SmolVLM的訓(xùn)練過程需要精心設(shè)計的數(shù)據(jù)混合和訓(xùn)練策略,這可能增加了模型開發(fā)的復(fù)雜性。
結(jié)論:小型模型的大未來
SmolVLM的研究成果對多模態(tài)AI領(lǐng)域具有深遠的影響,它不僅展示了小型模型的巨大潛力,更為未來AI技術(shù)的發(fā)展提供了新的思路和方向。
徹底挑戰(zhàn)了"更大即更好"的傳統(tǒng)觀念。在過去幾年中,AI領(lǐng)域的主流趨勢是不斷增加模型參數(shù)量,從數(shù)十億到數(shù)千億,以追求更強的性能。SmolVLM證明了通過精心設(shè)計的架構(gòu)和訓(xùn)練策略,即使是參數(shù)量極小的模型也能達到甚至超越參數(shù)量大得多的模型的性能。
這一發(fā)現(xiàn)對整個AI領(lǐng)域具有啟示意義,它表明我們可能不需要無限制地增加模型規(guī)模,而是應(yīng)該更加關(guān)注模型的設(shè)計效率和訓(xùn)練方法的優(yōu)化。
同時,SmolVLM為資源受限環(huán)境中的AI應(yīng)用開辟了新的可能性。隨著AI技術(shù)的普及,將AI能力擴展到移動設(shè)備、邊緣計算設(shè)備和物聯(lián)網(wǎng)設(shè)備變得越來越重要。
而傳統(tǒng)的大型模型由于其巨大的計算和內(nèi)存需求,難以在這些資源受限的環(huán)境中部署。SmolVLM通過將推理內(nèi)存需求降低到不到1GB,使得在智能手機、平板電腦甚至瀏覽器環(huán)境中運行強大的多模態(tài)AI成為可能。這不僅提高了AI的可訪問性,也為開發(fā)更多創(chuàng)新的邊緣AI應(yīng)用創(chuàng)造了條件。
研究團隊通過系統(tǒng)性地探索不同的架構(gòu)配置、標(biāo)記化策略和訓(xùn)練數(shù)據(jù)組合,揭示了多個關(guān)鍵的設(shè)計原則,如視覺編碼器與語言模型之間的平衡參數(shù)分配、擴展上下文長度的重要性、更激進的視覺標(biāo)記壓縮的效果、學(xué)習(xí)的位置標(biāo)記的優(yōu)勢等。
這些發(fā)現(xiàn)不僅對SmolVLM本身的開發(fā)至關(guān)重要,也為未來的多模態(tài)模型設(shè)計提供了有價值的參考。
SmolVLM的成功表明,數(shù)據(jù)質(zhì)量和訓(xùn)練策略對模型性能的影響可能比模型規(guī)模更為重要。
研究發(fā)現(xiàn),簡單地重用大型語言模型的訓(xùn)練數(shù)據(jù)可能對小型多模態(tài)模型有害,而精心設(shè)計的數(shù)據(jù)混合和訓(xùn)練策略則可以顯著提升性能。這強調(diào)了在模型開發(fā)中"質(zhì)量勝于數(shù)量"的原則,也提醒我們在追求更大模型的同時,不應(yīng)忽視數(shù)據(jù)和訓(xùn)練方法的優(yōu)化。
在應(yīng)用前景方面,SmolVLM為多個領(lǐng)域帶來了新的可能性。
在移動設(shè)備上,它可以支持更智能的相機應(yīng)用、實時視覺翻譯、增強現(xiàn)實體驗等功能,而無需將數(shù)據(jù)發(fā)送到云端處理。
在醫(yī)療領(lǐng)域,像BioVQA這樣的應(yīng)用可以幫助醫(yī)生快速解釋醫(yī)學(xué)圖像,提高診斷效率。
在教育領(lǐng)域,SmolVLM可以支持智能教材和學(xué)習(xí)輔助工具,幫助學(xué)生理解復(fù)雜的視覺概念。
在工業(yè)領(lǐng)域,它可以用于質(zhì)量控制、設(shè)備維護和安全監(jiān)控等場景。

SmolVLM代表了多模態(tài)AI領(lǐng)域的一個重要里程碑,它不僅展示了小型高效模型的巨大潛力,也為未來AI技術(shù)的發(fā)展提供了新的思路和方向。隨著這一領(lǐng)域的持續(xù)發(fā)展,我們可以期待看到更多創(chuàng)新的小型多模態(tài)模型和更廣泛的應(yīng)用場景,最終實現(xiàn)AI技術(shù)的普及。
至頂AI實驗室洞見
如果說大而全的巨模更像“多面手”,那么SmolVLM則是“高效專家”,二者各擅勝場。
但我們依然認(rèn)為SmolVLM的出現(xiàn)代表了一種重要的范式轉(zhuǎn)變,在模型參數(shù)軍備競賽漸成紅海的今天,真正的效率革命不應(yīng)止于參數(shù)裁剪,而需重構(gòu)多模態(tài)融合的底層邏輯,在保持高性能的同時大幅降低資源需求。這不僅是技術(shù)上的進步,更是一種價值觀的回歸——AI技術(shù)的終極目標(biāo)應(yīng)該是服務(wù)于更廣泛的人群,而不僅僅是那些擁有高端計算資源的少數(shù)企業(yè)。
未來研究可能沿兩個方向突破:一是探索神經(jīng)架構(gòu)搜索(NAS)與多模態(tài)模型的結(jié)合,自動生成最優(yōu)緊湊架構(gòu);二是開發(fā)跨模態(tài)的分布式推理框架,將視覺、語言模塊解耦部署。
當(dāng)這些技術(shù)走向成熟,我們不僅能感受如SmolVLM般“蝴蝶穿花”的愜意,或許還能見證一個"大象輕盈起舞"的新時代。
論文地址:https://arxiv.org/pdf/2504.05299
本文來自至頂AI實驗室,一個專注于探索生成式AI前沿技術(shù)及其應(yīng)用的實驗室。致力于推動生成式AI在各個領(lǐng)域的創(chuàng)新與突破,挖掘其潛在的應(yīng)用場景,為企業(yè)和個人提供切實可行的解決方案。
熱門跟貼