還記得之前那個(gè)提出了新的液體基礎(chǔ)模型(LFM,Liquid Foundation Model)的 Liquid AI 嗎?在被 AMD 投資數(shù)月后,這家來自美國(guó)麻省理工學(xué)院的初創(chuàng)公司又帶來新成果了。

4 月 25 日,Liquid AI 正式發(fā)布了面向邊緣設(shè)備的全新 AI 架構(gòu)“Hyena Edge”。與目前主流的基于 Transformer 的模型架構(gòu)不同,Hyena Edge 是一種基于卷積的多混合模型,專為智能手機(jī)等邊緣設(shè)備優(yōu)化設(shè)計(jì)。

“人工智能正迅速變得無處不在,從大規(guī)模云端部署到智能手機(jī)和筆記本電腦等資源受限的邊緣設(shè)備?!盠iquid AI 科學(xué)團(tuán)隊(duì)成員 Armin Thomas、Stefano Massaroli 和 Michael Poli 在研究報(bào)告中表示,“盡管有令人印象深刻的進(jìn)步,大多數(shù)為邊緣部署優(yōu)化的小型模型,如 SmolLM2、Phi 模型和 Llama 3.2 1B,主要依賴于基于注意力運(yùn)算符的 Transformer 架構(gòu)?!?/p>

這些傳統(tǒng)架構(gòu)雖然具有可并行計(jì)算和高效內(nèi)核的特點(diǎn),但在邊緣設(shè)備上仍面臨效率瓶頸。而 Hyena Edge 作為一種 Liquid 架構(gòu),天生就在計(jì)算效率上具有優(yōu)勢(shì),非常適用于邊緣部署。據(jù) Liquid AI 宣稱,Hyena Edge 在真實(shí)硬件測(cè)試中,于計(jì)算效率和模型質(zhì)量?jī)煞矫婢宫F(xiàn)出超越 Transformer 基線的性能。

他們?cè)谌?Galaxy S24 Ultra 上對(duì) Hyena Edge 進(jìn)行了測(cè)試,結(jié)果顯示該模型在多個(gè)關(guān)鍵指標(biāo)上均超越強(qiáng)大的基于 Transformer 的基準(zhǔn)模型。

在效率方面,Hyena Edge 展示了更快的預(yù)填充(prefill)和解碼延遲。特別是對(duì)于超過 256 個(gè)標(biāo)記的序列,解碼和預(yù)填充延遲最高可提高 30%。值得注意的是,其在短序列長(zhǎng)度下的預(yù)填充延遲也優(yōu)于 Transformer 基線,這一點(diǎn)對(duì)響應(yīng)式設(shè)備應(yīng)用至關(guān)重要。在內(nèi)存使用方面,Hyena Edge 在所有測(cè)試序列長(zhǎng)度下均使用更少的內(nèi)存。

(來源:Liquid AI)
打開網(wǎng)易新聞 查看精彩圖片
(來源:Liquid AI)

在模型質(zhì)量方面,Hyena Edge 在經(jīng)過 1000 億 tokens 的訓(xùn)練后,在包括 Wikitext、Lambada、Hellaswag、Winogrande、Piqa、Arc-easy 和 Arc-challenge 在內(nèi)的各種常見語言建?;鶞?zhǔn)測(cè)試中表現(xiàn)出色。例如,在 Wikitext 上的困惑度(perplexity)從 17.3 降至 16.2,在 Lambada 上從 10.8 降至 9.4,在 PiQA 上的準(zhǔn)確率從 71.1% 提升至 72.3%,在 Hellaswag 上從 49.3% 提升至 52.8%,在 Winogrande 上從 51.4% 提升至 54.8%。

“這些結(jié)果表明,模型的效率提升并不以預(yù)測(cè)質(zhì)量為代價(jià)——這是許多邊緣優(yōu)化架構(gòu)常見的取舍?!毖芯繄F(tuán)隊(duì)表示。

而 Hyena Edge 的核心技術(shù),正在于團(tuán)隊(duì)此前提出的 STAR(Synthesis of Tailored Architectures)框架及其優(yōu)化技術(shù)。STAR 框架的核心思想是利用進(jìn)化算法(Evolutionary Algorithms)和線性輸入變化系統(tǒng)(LIVs,Linear Input-Varying Systems)的數(shù)學(xué)理論,來高效地探索廣闊的神經(jīng)網(wǎng)絡(luò)架構(gòu)空間,并自動(dòng)合成出針對(duì)特定目標(biāo)(如低延遲、小內(nèi)存占用、高模型質(zhì)量、小參數(shù)量等,可多目標(biāo)同時(shí)優(yōu)化)的“量身定制”的架構(gòu)。

圖丨 STAR 框架說明(來源:Liquid AI)
打開網(wǎng)易新聞 查看精彩圖片
圖丨 STAR 框架說明(來源:Liquid AI)

與傳統(tǒng)的依賴人工經(jīng)驗(yàn)和直覺進(jìn)行模型設(shè)計(jì),或在有限空間內(nèi)進(jìn)行自動(dòng)化搜索的方法不同,STAR 提供了一個(gè)更全面的解決方案。LIV 理論是一個(gè)關(guān)鍵的理論基礎(chǔ),它能夠統(tǒng)一地描述和泛化深度學(xué)習(xí)中常見的多種計(jì)算單元,包括各種注意力變體、線性循環(huán)網(wǎng)絡(luò)、卷積網(wǎng)絡(luò)以及其他結(jié)構(gòu)化算子。STAR 基于 LIV 理論,構(gòu)建了一個(gè)新穎的、分層的架構(gòu)搜索空間。

在這個(gè)框架下,模型架構(gòu)被編碼成一種“基因組(Genome)”。這種基因組包含了架構(gòu)的多個(gè)層級(jí)信息,從底層的特征化(Featurization)方式、算子結(jié)構(gòu)(Operator Structure,定義了 Token 和 Channel 的混合方式),到頂層的骨干網(wǎng)絡(luò)(Backbone,定義了 LIV 單元之間的連接和組合方式)。STAR 的基因組設(shè)計(jì)具有良好的層次化和模塊化特性。

隨后,STAR 運(yùn)用進(jìn)化算法的原理,對(duì)這些架構(gòu)基因組進(jìn)行迭代優(yōu)化。主要包括評(píng)估(根據(jù)預(yù)設(shè)目標(biāo)衡量架構(gòu)性能)、重組(組合優(yōu)秀父代架構(gòu)的特征)和變異(引入隨機(jī)變化以探索新架構(gòu))等步驟。該框架支持多目標(biāo)優(yōu)化,能夠同時(shí)考慮模型質(zhì)量、參數(shù)量、推理緩存大小、延遲等多個(gè)可能相互沖突的指標(biāo),以尋找在這些目標(biāo)間達(dá)到較好平衡的架構(gòu)方案。

根據(jù)其技術(shù)文檔,STAR 在優(yōu)化大型語言模型架構(gòu)時(shí),無論是在純質(zhì)量?jī)?yōu)化、質(zhì)量與參數(shù)量聯(lián)合優(yōu)化,還是質(zhì)量與推理緩存大小聯(lián)合優(yōu)化方面,其生成的架構(gòu)均能在各項(xiàng)指標(biāo)上顯著優(yōu)于高度優(yōu)化的 Transformer++ 和 StripedMamba 等基準(zhǔn)模型。例如,在優(yōu)化質(zhì)量和參數(shù)量時(shí),7/8 的 STAR 進(jìn)化架構(gòu)在下游任務(wù)基準(zhǔn)上超越了 Transformer++ 和混合模型,同時(shí)參數(shù)量減少高達(dá) 13%。在優(yōu)化質(zhì)量和緩存大小時(shí),7/8 的 STAR 進(jìn)化架構(gòu)實(shí)現(xiàn)了比混合模型小 37%、比 Transformer 小 90% 的緩存,同時(shí)質(zhì)量相當(dāng)甚至更好。

在 Hyena Edge 的設(shè)計(jì)中,Liquid AI 團(tuán)隊(duì)就應(yīng)用了 STAR 框架。他們從一個(gè)包含 16 個(gè)候選架構(gòu)的初始種群開始,進(jìn)行了 24 代的進(jìn)化迭代。其搜索空間設(shè)計(jì)得非常豐富,包含了多種卷積算子的變體,這些變體主要受到 Hyena 架構(gòu)的啟發(fā):

  • Hyena(Full):在門控機(jī)制(Gating Mechanism)和 Hyena 內(nèi)部卷積中都包含卷積操作。
  • Hyena-X:排除了內(nèi)部卷積。
  • Hyena-Y:排除了特征組(門)中的卷積。

除了這三種主要的 Hyena 類型,搜索空間還考慮了它們學(xué)習(xí)到的短距離、顯式卷積核的長(zhǎng)度變化(從 3 到 128),總共構(gòu)成了 18 種不同的卷積算子。此外,搜索空間還包括了分組查詢注意力的變體(具有不同的 KV 頭數(shù)量)和 SwiGLU(具有不同的內(nèi)部寬度)等常見的 Transformer 組件。

在進(jìn)化過程中,STAR 框架通過對(duì)每個(gè)候選架構(gòu)在三星 S24 Ultra 上的初始延遲和內(nèi)存占用進(jìn)行性能分析,并結(jié)合模型在訓(xùn)練過程中的困惑度表現(xiàn),不斷地將架構(gòu)種群向著效率-質(zhì)量前沿(Efficiency-Quality Frontier)進(jìn)行優(yōu)化。

有意思的是,隨著進(jìn)化過程的推進(jìn),當(dāng)架構(gòu)接近效率-質(zhì)量最優(yōu)邊界時(shí),STAR 明顯地偏愛選用 Hyena-Y 類型的卷積。這表明 Hyena-Y 卷積在延遲、內(nèi)存和模型質(zhì)量之間取得了更優(yōu)越的平衡。

基于這一發(fā)現(xiàn),最終的 Hyena Edge 架構(gòu)在一個(gè) GQA-Transformer++ 基準(zhǔn)模型的基礎(chǔ)上,將部分 GQA 算子替換為由 STAR 優(yōu)化選出的 Hyena-Y 門控卷積。

而最終結(jié)果如基準(zhǔn)測(cè)試所表明的,Hyena Edge 在提升效率的同時(shí),保持了較高的模型質(zhì)量,這對(duì)于性能和資源都受限的邊緣設(shè)備應(yīng)用而言是一個(gè)重要的特性。

Liquid AI 已表示計(jì)劃在未來數(shù)月內(nèi)開源包括 Hyena Edge 在內(nèi)的一系列基礎(chǔ)模型,其目標(biāo)是構(gòu)建能夠適應(yīng)從云端到邊緣多種環(huán)境的 AI 系統(tǒng)。除了模型本身,其所展現(xiàn)出的設(shè)計(jì)方法,或許更值得我們的期待。

參考資料:

1.https://www.liquid.ai/research/convolutional-multi-hybrids-for-edge-devices

2.https://arxiv.org/abs/2411.17800

3.https://venturebeat.com/ai/liquid-ai-is-revolutionizing-llms-to-work-on-edge-devices-like-smartphones-with-new-hyena-edge-model/

運(yùn)營(yíng)/排版:何晨龍