
全新實(shí)驗(yàn)性AI支持無(wú)需技能的照片編輯,包括去除水印。但它并不完美
谷歌推出了一款新的AI模型,它可以像生成文本一樣輕松地生成或編輯圖像——作為其聊天機(jī)器人對(duì)話的一部分。雖然結(jié)果并不完美,但在不久的將來(lái),每個(gè)人都有可能通過(guò)這種方式操作圖像。
上周三,谷歌擴(kuò)大了Gemini 2.0 Flash原生圖像生成功能的訪問(wèn)權(quán)限,使這一實(shí)驗(yàn)性功能對(duì)所有使用Google AI Studio的用戶開(kāi)放。此前,該功能自去年十二月以來(lái)僅限于測(cè)試人員使用,這一多模態(tài)技術(shù)將原生文本和圖像處理能力集成到一個(gè)AI模型中。
新模型名為“Gemini 2.0 Flash(圖像生成)實(shí)驗(yàn)版”,上周并未引起廣泛關(guān)注,但由于其具備去除圖像水印的能力——盡管會(huì)產(chǎn)生偽影并降低圖像質(zhì)量——近年來(lái)幾天來(lái)受到了更多關(guān)注。
但這并不是唯一的功能。Gemini 2.0 Flash可以添加物體、移除物體、修改場(chǎng)景、改變光線、嘗試改變圖像角度、縮放以及執(zhí)行其他轉(zhuǎn)變——其成功程度因主題、風(fēng)格和圖像而異。
為了實(shí)現(xiàn)這一點(diǎn),谷歌在大量圖像(轉(zhuǎn)換為令牌)和文本數(shù)據(jù)集上訓(xùn)練了Gemini 2.0。該模型對(duì)圖像的“知識(shí)”與其從文本來(lái)源獲得的世界概念知識(shí)位于同一神經(jīng)網(wǎng)絡(luò)空間,因此它可以直接輸出圖像令牌,這些令牌被轉(zhuǎn)換回圖像并反饋給用戶。

將圖像生成集成到AI聊天中本身并不新鮮——去年九月,OpenAI將其圖像生成器DALL-E 3集成到ChatGPT中,其他科技公司如xAI也效仿了這一做法。但直到現(xiàn)在,這些AI聊天助手中的每一個(gè)都是調(diào)用一個(gè)獨(dú)立的基于擴(kuò)散的AI模型(其合成原理與大型語(yǔ)言模型不同)來(lái)生成圖像,然后將這些圖像返回給用戶的聊天界面。在這種情況下,Gemini 2.0 Flash既是大型語(yǔ)言模型(LLM),又是AI圖像生成器,合二為一。
有趣的是,OpenAI的GPT-4o也具備原生圖像輸出功能(OpenAI總裁Greg Brock曾在去年某個(gè)時(shí)候在X上暗示過(guò)這一功能),但該公司尚未發(fā)布真正的多模態(tài)圖像輸出能力。一個(gè)原因可能是,真正的多模態(tài)圖像輸出在計(jì)算上非常昂貴,因?yàn)槊繌堓斎牖蛏傻膱D像都由令牌組成,這些令牌成為圖像模型一次又一次通過(guò)每個(gè)后續(xù)提示運(yùn)行的上下文的一部分??紤]到創(chuàng)建一個(gè)真正視覺(jué)全面的多模態(tài)模型所需的計(jì)算需求和訓(xùn)練數(shù)據(jù)量,圖像的輸出質(zhì)量目前還不一定比擴(kuò)散模型更好。

OpenAI之所以尚未推出,另一個(gè)可能的原因是“安全”相關(guān)的考慮:類似于訓(xùn)練有音頻的多模態(tài)模型可以吸收樣本人聲音的短片段,然后完美地模仿它(這就是ChatGPT的高級(jí)語(yǔ)音模式的工作原理,它使用的是得到授權(quán)模仿的配音演員的片段),多模態(tài)圖像輸出模型在適當(dāng)?shù)挠?xùn)練數(shù)據(jù)和計(jì)算支持下,能夠以相對(duì)輕松和令人信服的方式偽造媒體現(xiàn)實(shí)。擁有足夠好的多模態(tài)模型,潛在的、破壞性的深度偽造和照片操縱可能比現(xiàn)在更加容易制作。
實(shí)地測(cè)試
那么,Gemini 2.0 Flash究竟能做些什么?值得注意的是,其支持對(duì)話式圖像編輯,允許用戶通過(guò)自然語(yǔ)言對(duì)話在多個(gè)連續(xù)提示中迭代優(yōu)化圖像。你可以與它對(duì)話,告訴它你想添加、移除或更改什么。雖然并不完美,但這是科技界新型原生圖像編輯能力的起點(diǎn)。
我們對(duì)Gemini Flash 2.0進(jìn)行了多項(xiàng)非正式的AI圖像編輯測(cè)試,結(jié)果如下。例如,我們從一個(gè)草坪上的圖像中移除了一只兔子。我們還從一個(gè)凌亂的車庫(kù)中移除了雞。Gemini會(huì)根據(jù)最佳猜測(cè)填充背景。不需要克隆刷——小心,Photoshop!

我們還嘗試向圖像中添加合成物體。始終警惕媒體現(xiàn)實(shí)的崩塌,被稱為“文化奇點(diǎn)”,我們?cè)谧髡邚娘w機(jī)窗戶拍攝的照片中添加了一個(gè)UFO。然后我們嘗試添加了一個(gè)野人和一個(gè)鬼魂。結(jié)果不夠真實(shí),但該模型也僅在有限的圖像數(shù)據(jù)集上訓(xùn)練(更多內(nèi)容將在下文提及)。


接著,我們?cè)谝粡圓tari 800屏幕(《巫師之怒》)的照片中添加了一個(gè)電子游戲角色,結(jié)果可能是這組中最真實(shí)的圖像合成結(jié)果。你可能看不到,但Gemini添加了與顯示器特性相匹配的逼真CRT掃描線。

Gemini還可以以新穎的方式扭曲圖像,例如“縮小”圖像到一個(gè)虛構(gòu)的場(chǎng)景,或?yàn)橐粋€(gè)EGA調(diào)色板角色賦予身體,然后將其置入冒險(xiǎn)游戲中。


當(dāng)然,你也可以移除水印。我們嘗試從Getty Images的圖像中移除水印,效果不錯(cuò),盡管生成的圖像在分辨率和細(xì)節(jié)質(zhì)量上遠(yuǎn)不及原圖。最終,如果你的腦海中能描繪出一張沒(méi)有水印的圖像,AI模型也能做到。它會(huì)根據(jù)訓(xùn)練數(shù)據(jù),用最合理的結(jié)果填充水印所在的位置。

最后,我們知道你可能已經(jīng)厭倦了在電視機(jī)旁邊看到野蠻人(按傳統(tǒng)),所以我們?cè)嚵艘幌?。起初,Gemini并沒(méi)有在野蠻人圖像中添加CRT電視機(jī),于是我們要求它添加一個(gè)。

然后,我們讓電視機(jī)著火了。

總的來(lái)說(shuō),Gemini生成的圖像在質(zhì)量和細(xì)節(jié)上并不完美,但我們實(shí)際上對(duì)這些圖像除了輸入請(qǐng)求外并沒(méi)有進(jìn)行任何編輯工作。Adobe Photoshop目前允許用戶使用基于書(shū)面提示的“生成填充”AI合成來(lái)操作圖像,但還不如這種方式自然。我們可以預(yù)見(jiàn),未來(lái)Adobe可能會(huì)添加類似的對(duì)話式AI圖像編輯流程。
多模態(tài)輸出開(kāi)啟新可能
擁有真正的多模態(tài)輸出為聊天機(jī)器人開(kāi)啟了有趣的新可能性。例如,Gemini 2.0 Flash可以玩互動(dòng)圖形游戲,或生成具有一致插圖的故事,在多個(gè)圖像中保持角色和場(chǎng)景的連續(xù)性。雖然還不完美,但角色一致性是AI助手的新能力。我們?cè)囉昧酥蟾杏X(jué)相當(dāng)瘋狂——特別是當(dāng)它從另一個(gè)角度生成我們提供的照片視圖時(shí)。


文本渲染是該模型的另一個(gè)潛在優(yōu)勢(shì)。谷歌聲稱,內(nèi)部基準(zhǔn)測(cè)試顯示Gemini 2.0 Flash在生成包含文本的圖像時(shí)表現(xiàn)優(yōu)于“領(lǐng)先的競(jìng)爭(zhēng)模型”,使其在創(chuàng)建集成文本的內(nèi)容方面具有潛力。根據(jù)我們的經(jīng)驗(yàn),結(jié)果并不是那么令人興奮,但它們是可讀的。

盡管Gemini 2.0 Flash目前存在一些不足,但真正的多模態(tài)圖像輸出的出現(xiàn)被視為AI歷史上的一個(gè)顯著時(shí)刻,因?yàn)樗A(yù)示著如果技術(shù)繼續(xù)進(jìn)步,將帶來(lái)什么可能。如果你想象一個(gè)未來(lái),比如十年后,一個(gè)足夠復(fù)雜的AI模型能夠?qū)崟r(shí)生成任何類型的媒體——文本、圖像、音頻、視頻、3D圖形、3D打印的實(shí)物對(duì)象和互動(dòng)體驗(yàn)——你基本上就擁有了一個(gè)全息甲板,但沒(méi)有物質(zhì)復(fù)制。
回到現(xiàn)實(shí),多模態(tài)圖像輸出仍處于“起步階段”,谷歌也認(rèn)識(shí)到這一點(diǎn)。回想一下,F(xiàn)lash 2.0旨在成為一個(gè)更小、更快、更便宜的AI模型,因此它尚未吸收互聯(lián)網(wǎng)的全部廣度。所有這些信息在參數(shù)數(shù)量上占用了大量空間,更多的參數(shù)意味著更多的計(jì)算。相反,谷歌通過(guò)提供一個(gè)經(jīng)過(guò)策劃的數(shù)據(jù)集,并可能包含有針對(duì)性的合成數(shù)據(jù),來(lái)訓(xùn)練Gemini 2.0 Flash。因此,該模型并不“了解”世界上所有的視覺(jué)內(nèi)容,谷歌本身也表示,訓(xùn)練數(shù)據(jù)是“廣泛和通用的,而不是絕對(duì)或完整的?!?/p>
這只是花哨地說(shuō)圖像輸出質(zhì)量尚不完美——但未來(lái)有很大的改進(jìn)空間,隨著訓(xùn)練技術(shù)的進(jìn)步和計(jì)算成本的下降,可以整合更多的視覺(jué)“知識(shí)”。如果這個(gè)過(guò)程變得像我們?cè)诨跀U(kuò)散的AI圖像生成器(如Stable Diffusion、Midjourney和Flux)中看到的那樣,多模態(tài)圖像輸出質(zhì)量可能會(huì)在短時(shí)間內(nèi)迅速提升。準(zhǔn)備好迎接一個(gè)完全流動(dòng)的媒體現(xiàn)實(shí)吧。
關(guān)注【黑客聯(lián)盟】帶你走進(jìn)神秘的黑客世界
熱門(mén)跟貼