可縮放矢量圖形(SVG)因其分辨率無關(guān)性和可編輯性,成為平面設(shè)計(jì)中廣泛采用的重要圖像格式。生成高質(zhì)量SVG的研究持續(xù)吸引著AIGC領(lǐng)域設(shè)計(jì)師與研究者的關(guān)注。然而現(xiàn)有方法要么輸出非結(jié)構(gòu)化結(jié)果且計(jì)算成本高昂,要么僅能生成結(jié)構(gòu)過度簡(jiǎn)化的單色圖標(biāo)。

因此為產(chǎn)出高質(zhì)量復(fù)雜SVG,復(fù)旦提出OmniSVG—一個(gè)利用預(yù)訓(xùn)練視覺語言模型(VLMs)進(jìn)行端到端多模態(tài)SVG生成的統(tǒng)一框架。OmniSVG能夠自回歸生成覆蓋廣泛復(fù)雜度的高質(zhì)量SVG—從簡(jiǎn)單圖標(biāo)到精細(xì)動(dòng)漫角色皆可勝任。該框架通過文本生成SVG(Text-to-SVG)、圖像轉(zhuǎn)SVG(Image-to-SVG)角色參照SVG(Character-Reference SVG)等多模態(tài)生成方式,展現(xiàn)出卓越的泛化能力,成為適應(yīng)多樣化創(chuàng)意需求的強(qiáng)大靈活解決方案。(鏈接在文章底部)

01 技術(shù)原理

OmniSVG基于預(yù)訓(xùn)練視覺語言模型Qwen-VL構(gòu)建,并集成了SVG分詞器。該模型將文本和圖像輸入統(tǒng)一編碼為前綴標(biāo)記(prefix tokens),同時(shí)通過SVG分詞器將矢量圖形指令編碼至統(tǒng)一表征空間。

SVG 繪圖指令:OmniSVG使用的繪圖指令及其參數(shù)和可視化效果如下所示。起始位置 (x1, y1) 是隱式定義的,即由前一個(gè)指令的結(jié)束位置決定。

與當(dāng)前最先進(jìn)方法在 Text-to-SVG 任務(wù)上的定性對(duì)比。在評(píng)估基準(zhǔn)(包括圖標(biāo)、插畫和角色)上,將所提出的方法與當(dāng)前最先進(jìn)的 Text-to-SVG 方法進(jìn)行了比較。

局限性與未來工作:推理階段,OmniSVG生成復(fù)雜樣本時(shí)需產(chǎn)出數(shù)萬量級(jí)標(biāo)記,導(dǎo)致生成耗時(shí)顯著。當(dāng)前框架僅支持矢量風(fēng)格圖像輸入,無法處理自然圖像。

02 演示效果與數(shù)據(jù)集

文本轉(zhuǎn)SVG: 圖像轉(zhuǎn)SVG:

角色參考 SVG:

MMSVG-2M 數(shù)據(jù)集由三個(gè)子集組成,分別為圖標(biāo)(Icon)、插畫(Illustration)和角色(Character)。其中,圖標(biāo)、插畫以及部分角色子集的樣本來自互聯(lián)網(wǎng)下載;另一部分角色子集由數(shù)據(jù)生成流程自動(dòng)構(gòu)建,可為圖像提示任務(wù)提供圖像與 SVG 的配對(duì)數(shù)據(jù)。

打開網(wǎng)易新聞 查看精彩圖片

OmniSVG 在圖像轉(zhuǎn) SVG 任務(wù)中的局限性:OmniSVG 能夠成功生成矢量風(fēng)格圖像,但無法很好地?cái)M合自然圖像。

https://arxiv.org/pdf/2504.06263
https://github.com/OmniSVG/OmniSVG

歡迎交流~,帶你學(xué)習(xí)AI,了解AI