1024永久视频,国产真实乱的伦视频,成年女性腰围,欧美18性xxxx18性欧美,色免费观看在线

全新實(shí)驗(yàn)性AI支持無(wú)需技能的照片編輯，包括去除水印。但它并不完美

谷歌推出了一款新的AI模型，它可以像生成文本一樣輕松地生成或編輯圖像——作為其聊天機(jī)器人對(duì)話的一部分。雖然結(jié)果并不完美，但在不久的將來(lái)，每個(gè)人都有可能通過(guò)這種方式操作圖像。

上周三，谷歌擴(kuò)大了Gemini 2.0 Flash原生圖像生成功能的訪問(wèn)權(quán)限，使這一實(shí)驗(yàn)性功能對(duì)所有使用Google AI Studio的用戶開(kāi)放。此前，該功能自去年十二月以來(lái)僅限于測(cè)試人員使用，這一多模態(tài)技術(shù)將原生文本和圖像處理能力集成到一個(gè)AI模型中。

新模型名為“Gemini 2.0 Flash（圖像生成）實(shí)驗(yàn)版”，上周并未引起廣泛關(guān)注，但由于其具備去除圖像水印的能力——盡管會(huì)產(chǎn)生偽影并降低圖像質(zhì)量——近年來(lái)幾天來(lái)受到了更多關(guān)注。

但這并不是唯一的功能。Gemini 2.0 Flash可以添加物體、移除物體、修改場(chǎng)景、改變光線、嘗試改變圖像角度、縮放以及執(zhí)行其他轉(zhuǎn)變——其成功程度因主題、風(fēng)格和圖像而異。

為了實(shí)現(xiàn)這一點(diǎn)，谷歌在大量圖像（轉(zhuǎn)換為令牌）和文本數(shù)據(jù)集上訓(xùn)練了Gemini 2.0。該模型對(duì)圖像的“知識(shí)”與其從文本來(lái)源獲得的世界概念知識(shí)位于同一神經(jīng)網(wǎng)絡(luò)空間，因此它可以直接輸出圖像令牌，這些令牌被轉(zhuǎn)換回圖像并反饋給用戶。

將圖像生成集成到AI聊天中本身并不新鮮——去年九月，OpenAI將其圖像生成器DALL-E 3集成到ChatGPT中，其他科技公司如xAI也效仿了這一做法。但直到現(xiàn)在，這些AI聊天助手中的每一個(gè)都是調(diào)用一個(gè)獨(dú)立的基于擴(kuò)散的AI模型（其合成原理與大型語(yǔ)言模型不同）來(lái)生成圖像，然后將這些圖像返回給用戶的聊天界面。在這種情況下，Gemini 2.0 Flash既是大型語(yǔ)言模型（LLM），又是AI圖像生成器，合二為一。

有趣的是，OpenAI的GPT-4o也具備原生圖像輸出功能（OpenAI總裁Greg Brock曾在去年某個(gè)時(shí)候在X上暗示過(guò)這一功能），但該公司尚未發(fā)布真正的多模態(tài)圖像輸出能力。一個(gè)原因可能是，真正的多模態(tài)圖像輸出在計(jì)算上非常昂貴，因?yàn)槊繌堓斎牖蛏傻膱D像都由令牌組成，這些令牌成為圖像模型一次又一次通過(guò)每個(gè)后續(xù)提示運(yùn)行的上下文的一部分?？紤]到創(chuàng)建一個(gè)真正視覺(jué)全面的多模態(tài)模型所需的計(jì)算需求和訓(xùn)練數(shù)據(jù)量，圖像的輸出質(zhì)量目前還不一定比擴(kuò)散模型更好。

OpenAI之所以尚未推出，另一個(gè)可能的原因是“安全”相關(guān)的考慮：類似于訓(xùn)練有音頻的多模態(tài)模型可以吸收樣本人聲音的短片段，然后完美地模仿它（這就是ChatGPT的高級(jí)語(yǔ)音模式的工作原理，它使用的是得到授權(quán)模仿的配音演員的片段），多模態(tài)圖像輸出模型在適當(dāng)?shù)挠?xùn)練數(shù)據(jù)和計(jì)算支持下，能夠以相對(duì)輕松和令人信服的方式偽造媒體現(xiàn)實(shí)。擁有足夠好的多模態(tài)模型，潛在的、破壞性的深度偽造和照片操縱可能比現(xiàn)在更加容易制作。

實(shí)地測(cè)試

那么，Gemini 2.0 Flash究竟能做些什么？值得注意的是，其支持對(duì)話式圖像編輯，允許用戶通過(guò)自然語(yǔ)言對(duì)話在多個(gè)連續(xù)提示中迭代優(yōu)化圖像。你可以與它對(duì)話，告訴它你想添加、移除或更改什么。雖然并不完美，但這是科技界新型原生圖像編輯能力的起點(diǎn)。

我們對(duì)Gemini Flash 2.0進(jìn)行了多項(xiàng)非正式的AI圖像編輯測(cè)試，結(jié)果如下。例如，我們從一個(gè)草坪上的圖像中移除了一只兔子。我們還從一個(gè)凌亂的車庫(kù)中移除了雞。Gemini會(huì)根據(jù)最佳猜測(cè)填充背景。不需要克隆刷——小心，Photoshop！

我們還嘗試向圖像中添加合成物體。始終警惕媒體現(xiàn)實(shí)的崩塌，被稱為“文化奇點(diǎn)”，我們?cè)谧髡邚娘w機(jī)窗戶拍攝的照片中添加了一個(gè)UFO。然后我們嘗試添加了一個(gè)野人和一個(gè)鬼魂。結(jié)果不夠真實(shí)，但該模型也僅在有限的圖像數(shù)據(jù)集上訓(xùn)練（更多內(nèi)容將在下文提及）。

接著，我們?cè)谝粡圓tari 800屏幕（《巫師之怒》）的照片中添加了一個(gè)電子游戲角色，結(jié)果可能是這組中最真實(shí)的圖像合成結(jié)果。你可能看不到，但Gemini添加了與顯示器特性相匹配的逼真CRT掃描線。

Gemini還可以以新穎的方式扭曲圖像，例如“縮小”圖像到一個(gè)虛構(gòu)的場(chǎng)景，或?yàn)橐粋€(gè)EGA調(diào)色板角色賦予身體，然后將其置入冒險(xiǎn)游戲中。

當(dāng)然，你也可以移除水印。我們嘗試從Getty Images的圖像中移除水印，效果不錯(cuò)，盡管生成的圖像在分辨率和細(xì)節(jié)質(zhì)量上遠(yuǎn)不及原圖。最終，如果你的腦海中能描繪出一張沒(méi)有水印的圖像，AI模型也能做到。它會(huì)根據(jù)訓(xùn)練數(shù)據(jù)，用最合理的結(jié)果填充水印所在的位置。

最后，我們知道你可能已經(jīng)厭倦了在電視機(jī)旁邊看到野蠻人（按傳統(tǒng)），所以我們?cè)嚵艘幌?。起初，Gemini并沒(méi)有在野蠻人圖像中添加CRT電視機(jī)，于是我們要求它添加一個(gè)。

然后，我們讓電視機(jī)著火了。

總的來(lái)說(shuō)，Gemini生成的圖像在質(zhì)量和細(xì)節(jié)上并不完美，但我們實(shí)際上對(duì)這些圖像除了輸入請(qǐng)求外并沒(méi)有進(jìn)行任何編輯工作。Adobe Photoshop目前允許用戶使用基于書(shū)面提示的“生成填充”AI合成來(lái)操作圖像，但還不如這種方式自然。我們可以預(yù)見(jiàn)，未來(lái)Adobe可能會(huì)添加類似的對(duì)話式AI圖像編輯流程。

多模態(tài)輸出開(kāi)啟新可能

擁有真正的多模態(tài)輸出為聊天機(jī)器人開(kāi)啟了有趣的新可能性。例如，Gemini 2.0 Flash可以玩互動(dòng)圖形游戲，或生成具有一致插圖的故事，在多個(gè)圖像中保持角色和場(chǎng)景的連續(xù)性。雖然還不完美，但角色一致性是AI助手的新能力。我們?cè)囉昧酥蟾杏X(jué)相當(dāng)瘋狂——特別是當(dāng)它從另一個(gè)角度生成我們提供的照片視圖時(shí)。

文本渲染是該模型的另一個(gè)潛在優(yōu)勢(shì)。谷歌聲稱，內(nèi)部基準(zhǔn)測(cè)試顯示Gemini 2.0 Flash在生成包含文本的圖像時(shí)表現(xiàn)優(yōu)于“領(lǐng)先的競(jìng)爭(zhēng)模型”，使其在創(chuàng)建集成文本的內(nèi)容方面具有潛力。根據(jù)我們的經(jīng)驗(yàn)，結(jié)果并不是那么令人興奮，但它們是可讀的。

盡管Gemini 2.0 Flash目前存在一些不足，但真正的多模態(tài)圖像輸出的出現(xiàn)被視為AI歷史上的一個(gè)顯著時(shí)刻，因?yàn)樗A(yù)示著如果技術(shù)繼續(xù)進(jìn)步，將帶來(lái)什么可能。如果你想象一個(gè)未來(lái)，比如十年后，一個(gè)足夠復(fù)雜的AI模型能夠?qū)崟r(shí)生成任何類型的媒體——文本、圖像、音頻、視頻、3D圖形、3D打印的實(shí)物對(duì)象和互動(dòng)體驗(yàn)——你基本上就擁有了一個(gè)全息甲板，但沒(méi)有物質(zhì)復(fù)制。

回到現(xiàn)實(shí)，多模態(tài)圖像輸出仍處于“起步階段”，谷歌也認(rèn)識(shí)到這一點(diǎn)。回想一下，F(xiàn)lash 2.0旨在成為一個(gè)更小、更快、更便宜的AI模型，因此它尚未吸收互聯(lián)網(wǎng)的全部廣度。所有這些信息在參數(shù)數(shù)量上占用了大量空間，更多的參數(shù)意味著更多的計(jì)算。相反，谷歌通過(guò)提供一個(gè)經(jīng)過(guò)策劃的數(shù)據(jù)集，并可能包含有針對(duì)性的合成數(shù)據(jù)，來(lái)訓(xùn)練Gemini 2.0 Flash。因此，該模型并不“了解”世界上所有的視覺(jué)內(nèi)容，谷歌本身也表示，訓(xùn)練數(shù)據(jù)是“廣泛和通用的，而不是絕對(duì)或完整的?！?/p>

這只是花哨地說(shuō)圖像輸出質(zhì)量尚不完美——但未來(lái)有很大的改進(jìn)空間，隨著訓(xùn)練技術(shù)的進(jìn)步和計(jì)算成本的下降，可以整合更多的視覺(jué)“知識(shí)”。如果這個(gè)過(guò)程變得像我們?cè)诨跀U(kuò)散的AI圖像生成器（如Stable Diffusion、Midjourney和Flux）中看到的那樣，多模態(tài)圖像輸出質(zhì)量可能會(huì)在短時(shí)間內(nèi)迅速提升。準(zhǔn)備好迎接一個(gè)完全流動(dòng)的媒體現(xiàn)實(shí)吧。

關(guān)注【黑客聯(lián)盟】帶你走進(jìn)神秘的黑客世界