

出品|搜狐科技
作者|梁昌均
編輯|楊錦
深夜放大招,這次OpenAI在圖像生成上開始發(fā)力了。
3月26日凌晨,OpenAI宣布在ChatGPT和Sora中推出原生圖像生成功能。這次,OpenAI CEO山姆·奧特曼也現(xiàn)身直播,稱這是“最有趣、最酷炫的產(chǎn)品之一”和“巨大的進步”。
據(jù)介紹,OpenAI此次推出的圖像生成功能,借助GPT-4o原生多模態(tài)模型,能夠實現(xiàn)精確、準確、逼真的輸出。
“我們一直認為圖像生成應是語言模型的一項主要功能,因此我們將最先進的圖像生成器集成到GPT-4o 中?!?a class="keyword-search" >奧特曼表示,這意味著自由創(chuàng)作達到了新高度。

圖像文本合體輸出
多輪對話能保持一致性
奧特曼認為,圖像生成已經(jīng)出現(xiàn)一段時間,但它并沒有發(fā)揮出真正的力量,在處理人們用于分享和創(chuàng)造信息的圖像生成方面顯得力不從心。
此次GPT-4o更新的圖像生成功能在準確渲染文本、精確遵循指令,以及多輪對話保持一致性方面表現(xiàn)突出。
“一圖勝千言,但有時在正確的位置生成幾個詞可以提升圖像的意義。”GPT-4o可以將語言文字與圖像結合,使圖像生成成為一種視覺交流的工具。
根據(jù)將這句話分成七行,并讓人物左右手分別拿有單詞的指令,GPT-4o生成了如下照片,可以說精準完成文字在圖像中的呈現(xiàn)。

在OpenAI的示例里,光影等細節(jié)也能在生成的圖像中呈現(xiàn)出來,甚至還可以用它來畫漫畫。比如要求GPT-4o制作一幅四格漫畫,四周留有一些邊距,然后每格都有對應的文字內(nèi)容。

可以說,GPT-4o最后生成的圖片基本完成了指令的要求,尤其是漫畫中對文字的輸出基本沒有錯誤,這下漫畫師又要瑟瑟發(fā)抖了。

哪怕是文本內(nèi)容非常多的菜單或者邀請函設計,同時對它的風格、背景等提出要求,GPT-4o也不在話下。

由于圖像生成是GPT-4o的原生功能,還可以通過自然對話來進一步優(yōu)化圖像。它不僅能理解單輪對話,還能理解多輪對話,并在多次生成之間能夠保持主體的一致性。
奧特曼在直播中就展示了這一能力,針對他和同事上傳的自拍,要求GPT-4o轉換成動漫風格,它則基本保持了每個人物的動作、手勢、表情等特征。

接著,奧特曼要求在這張圖像上加上“feel the agi”等內(nèi)容,生成的圖像三個人物主體基本保持了一致性,不細看的話感覺差不多(左邊人物發(fā)型和臉部、中間人物眼睛和右邊人物手勢位置等出現(xiàn)一定變化),同時還對圖片結構進行了主動調(diào)整,從橫圖變成了豎圖。

再看一個更加復雜的示例,讓GPT-4o詳細解釋牛頓三棱鏡實驗并生成信息圖,它則結合自有知識庫對具體原理進行了介紹。

然后提出,生成一個人在在華盛頓廣場公園的一張圓桌上,正在筆記本上畫這個圖的視角。前述那張信息圖則到了這個人的手上,而且文本內(nèi)容基本沒有發(fā)生變化。

現(xiàn)在來“大變活人”,讓牛頓上場。還是展示同樣的場景,年輕的牛頓坐在桌子旁,拿著棱鏡,演示實驗,沒有看到筆記本,GPT-4o再次按照指令完成了任務。

OpenAI還提到,其它模型在處理5-8個對象時會遇到困難,但GPT-4o可以處理多達10-20個不同的對象,且能體現(xiàn)對象與其特征的關系,使得控制更加精確,并呈現(xiàn)出細節(jié)。
比如酒杯里面的一滴紅酒,GPT-4o生出來的圖像看起來確實只有一滴紅酒。對于數(shù)學方程的復雜描述,也能準確生成圖像。

此外,GPT-4o還可以分析和學習用戶上傳的圖像,將其詳細信息無縫集成到其上下文中,為圖像生成提供信息。OpenAI還強調(diào),由于是在大量多樣化的圖像風格上進行訓練,GPT-4o生成的圖片逼真度和風格更為自然。

奧特曼表示,GPT-4o的圖像生成能力得益于用全模態(tài)模型進行訓練。“它不僅是一個語言模型,還是一個圖像、音頻等所有模態(tài)的模型,可以理解和生成,可以在模態(tài)之間無縫切換?!?/p>
具體來說,OpenAI根據(jù)圖像和文本的聯(lián)合分布對模型進行了訓練,不僅學習了圖像與語言的關系,還學習了圖像之間的關系。同時,結合后訓練,使得最終模型具有不錯的視覺流暢性,并能夠生成有用且上下文一致的圖像。

免費用戶要再等等
OpenAI多模態(tài)融合向前一步走
GPT-4o圖像生成功能將從今天開始將作為ChatGPT中的默認圖像生成器推出,優(yōu)先每月200美元的Pro訂閱用戶,并在不久后提供給Plus和免費用戶、企業(yè)用戶和開發(fā)者。
同時,它也可以在Sora中使用。此前,OpenAI專門推出了圖像生成應用DALL·E,而這款產(chǎn)品的用戶同樣也可以通過專用的DALL·E GPT訪問。
這意味著,ChatGPT在多模態(tài)融合趨勢方面又向前邁出了一步,此前大家對它的認知多是對話式的語言聊天工具,現(xiàn)在它已經(jīng)具備音視頻對話、圖像理解和生成等多模態(tài)能力。
“隨著我們的模型越來越強大,它對世界的了解也在加深。此前只能通過文本或代碼來表達,現(xiàn)在這些模型可以將所知道的內(nèi)容可視化,并以視覺方式呈現(xiàn)出來?!眾W特曼說。
他希望,ChatGPT將向每個人提供創(chuàng)建工作圖像的能力,讓人們能夠創(chuàng)造他們需要和想要的東西,使其不僅成為想象力的工具,也成為學習和交流的工具。
“這代表OpenAI正在朝著真正的多模態(tài)模型邁進,ChatGPT可以做一切事情,并給了用戶更多的控制權?!眾W特曼表示,“這代表我們在允許創(chuàng)作自由方面達到了新的高度”。
但從OpenAI的直播演示來看,圖像生成等待的時間會比較長,往往需要長達一分鐘,甚至更長時間。“我們的模型并不完美,目前存在多個限制,我們將通過模型改進來解決這些問題?!監(jiān)penAI表示。
“我們希望該工具不會創(chuàng)造令人反感的東西,將知識自由和控制權交到用戶手中是正確的做法,但我們會觀察進展并傾聽社會的聲音?!眾W特曼還呼吁,為AI設定非常寬泛界限是正確的,而且隨著越來越接近通用人工智能,這一點變得越來越重要。
在安全標準方面,OpenAI發(fā)布了多項舉措。GPT-4o生成的圖像會具備C2PA標識,這將識別圖像是否來自GPT-4o,并構建了內(nèi)部搜索工具,以驗證內(nèi)容是否來自該模型。同時,開發(fā)推理模型,對文本和輸出圖像進行審核,以符合政策。
目前,多模態(tài)融合是大模型發(fā)展的趨勢之一。隨著OpenAI在圖像理解和生成層面完成布局,下一步可能就是集成Sora,實現(xiàn)視頻的理解和生成的大一統(tǒng)。
此前預告的GPT-5作為融合大模型,是否會在多模態(tài)層面實現(xiàn)完整布局,又是值得期待的更新了。


運營編輯 |曹倩審核|孟莎莎



熱門跟貼