
智東西
編譯 金碧輝
編輯 程茜
智東西4月24日報道,今日凌晨,OpenAI發(fā)布圖像生成模型gpt-image-1,目前已經(jīng)面向全部開發(fā)者開放API。該模型不僅能夠生成高質量圖像,而且可以完成一些更為高級定制的功能,比如可以通過設置參數(shù)來控制審核敏感度,同時還可以控制質量、生成速度、背景、輸出格式等。
與ChatGPT之前的圖像生成功能相比,gpt-image-1不僅允許開發(fā)者控制生成圖像的敏感度、生成效率、背景、輸出格式、渲染質量和壓縮質量,而且在以下幾個技術層面做了升級,對敏感度進行分級控制;使單張圖像生成耗時從ChatGPT時期的平均3.2秒縮短至0.8秒,完成生成效率優(yōu)化;擴展輸出格式至靜態(tài)圖、動態(tài)圖、MP4、PSD等格式,升級到多格式輸出支持;將分辨率細化為三檔,進行渲染質量分級;開發(fā)平衡算法,做到智能降噪。
此外,新模型支持一次性生成多張圖像,使用多張圖像作為提示詞進行合成,實現(xiàn)類似Photoshop的蒙版功能以及更改圖片透明度等功能,這些都是之前版本所不具備的。
目前,gpt-image-1已通過API向全球開發(fā)者開放使用。在價格方面,其API使用費用為文本輸入每100萬token 5美元(折合人民幣約為36.05元),圖像輸入每100萬token 10美元(折合人民幣約為72.1元)。圖像輸出每100萬token 40美元(折合人民幣約為288.39元)。按實際使用情況估算,生成低質量1024×1024圖像成本約為每張0.02美元(折合人民幣約為0.15元),中等質量圖像約為每張0.07美元(折合人民幣約為0.50元),高質量圖像約為每張0.19美元(折合人民幣約為1.37元)。Adobe、Figma等眾多知名企業(yè)已將該模型集成到其產(chǎn)品中。

▲gpt-image-1模型的API價格
OpenAI聯(lián)合創(chuàng)始人兼CEO薩姆·阿爾特曼(Sam Altman)今天早晨在社交平臺X上贊揚了該模型,并透露gpt-image-1模型與ChatGPT版本在圖像生成速度、背景、格式上有不同之處。

▲圖為薩姆·阿爾特曼今天早晨在社交平臺X上的發(fā)言
一、三大核心亮點:多圖生成、圖像編輯、圖像變體
據(jù)OpenAI介紹,gpt-image-1是OpenAI目前最新且最先進的圖像生成模型。
該模型第一個亮點是可以通過設置n參數(shù)來進行圖像生成端點,并根據(jù)文本提示創(chuàng)建圖像。

▲圖為gpt-image-1模型生成圖像的具體參數(shù)
輸入具體參數(shù)就可以生成一張圖像質量高、高保真的圖像。同時gpt-image-1能涵蓋豐富多樣的視覺風格,滿足不同的創(chuàng)作需求。
第二個亮點是可以利用用戶已經(jīng)上傳的一個或多個參考圖像來創(chuàng)建新圖像。

▲圖為gpt-image-1模型使用4個輸入圖像來生成包含參考圖像中物品的禮品籃的新圖像。
第三個亮點是能利用精確的圖像編輯功能對用戶上傳的圖像和蒙版進行“修復”(inpainting)操作,蒙版透明區(qū)域將被替換,黑色區(qū)域保持不變,且蒙版和要編輯的圖像必須格式和大小相同,蒙版圖像還必須包含alpha通道。

▲圖為gpt-image-1模型利用圖像編輯功能進行“修復”過的新圖像。
此外,據(jù)OpenAI透露,API返回的是base64編碼的圖像數(shù)據(jù),圖像數(shù)據(jù)默認格式為png,但用戶也可以請求生成jpeg或webp格式。如果使用jpeg或webp格式,用戶還可以指定output compression參數(shù)來控制壓縮級別(0-100%)。例如,輸入“output compression=50”的指令gpt-image-1模型將把圖像壓縮50%。
還需要注意的包括,方形圖片以標準質量生成的速度最快,默認大小是1024×1024。

▲圖為自定義輸出的具體細節(jié)。
二、支持高級功能定制,可精細化控制生成效果
基于gpt-image-1,開發(fā)者可以通過指定質量、大小、格式、壓縮以及是否需要透明背景來自定義輸出。例如,默認情況下API返回單個圖像,但開發(fā)者可以設置“n”參數(shù)在單個請求中一次生成多個圖像。
目前,圖像生成功能僅可通過Image API使用,OpenAI官方表示正積極努力將支持擴展到Responses API。
在價格方面,該模型通過生成專門的圖像token來生成圖像,延遲和最終成本都與渲染圖像所需的token數(shù)量成正比,較大的圖像尺寸和較高的清晰度設置會消耗更多的token從而產(chǎn)生較高的成本。

▲圖為gpt-image-1模型根據(jù)消耗的不同的token數(shù)量可能產(chǎn)生不同費用。
Image API提供了三個不同功能的端點:第一個端點“Generations”可根據(jù)文本提示從頭開始生成圖像,第二個端點“Edits”能使用新的提示部分或完全修改現(xiàn)有圖像,第三個端點“Variations”則用于生成現(xiàn)有圖像的變體。
gpt-image-1具有高質量的圖像生成和在圖像創(chuàng)作中使用世界知識的能力。據(jù)OpenAI介紹,用戶也可以將專門的圖像生成模型DALL·E 2和DALL·E 3與圖像API結合使用。

▲圖為gpt-image-1模型、DALL·E 2和DALL·E 3的端點以及用例。
三、復雜需求處理時間長,多輪生成難以保證一致性
盡管gpt-image-1模型功能強大且用途廣泛,但仍存在一些限制。
在內容審核方面,所有的提示和生成的圖像都將根據(jù)OpenAI官網(wǎng)的內容發(fā)布政策進行過濾。在使用gpt-image-1進行圖像生成時,開發(fā)者可以使用“moderation”參數(shù)控制審核的嚴格程度,該參數(shù)支持“auto”(默認,標準過濾,限制創(chuàng)建某些可能不適合年齡的內容類別)和“l(fā)ow”(限制較少的過濾)兩個值。
gpt-image-1在其他方面也有一些限制。比如,該模型在處理復雜的提示可能需要長達2分鐘的時間,存在消息延遲現(xiàn)象;同時,在文本渲染上,gpt-image-1相比DALL·E系列有顯著改進,但在精確的文本放置和清晰度方面仍可能存在問題;在一致性上,gpt-image-1盡管能夠生成一致的圖像,但在多輪生成中,對于重復出現(xiàn)的角色或品牌元素,可能偶爾難以保持視覺一致性;在構圖控制上,盡管gpt-image-1在遵循指令方面有所改進,但在結構化或對布局敏感的構圖中,精確放置元素可能仍有困難。
結語:OpenAI新模型API,解鎖圖像創(chuàng)作更多可能
OpenAI推出的gpt-image-1模型為開發(fā)者帶來了強大的圖像生成工具,其豐富的功能和特性有望在圖像創(chuàng)作、設計等多個領域得到廣泛應用。
盡管存在一些限制,但隨著技術的不斷發(fā)展和優(yōu)化,未來其圖像生成能力可能會進一步提升和完善,或為用戶帶來更多的驚喜和可能。
來源:OpenAI
熱門跟貼