打開網(wǎng)易新聞 查看精彩圖片

OpenAI 深夜放大招!GPT-4o原生圖像生成 API 正式開放,高清、可控、強(qiáng)編輯!

一句話形容:這是比web端更Pro的版本!

打開網(wǎng)易新聞 查看精彩圖片

API換了一個(gè)新名字叫gpt-image-1,這意味著,之前在 ChatGPT 里讓無數(shù)人驚艷的圖像生成能力,現(xiàn)在可以被全球開發(fā)者集成到自己的應(yīng)用和工作流里了

但是:要使用gpt-image-1,開發(fā)者需要先完成 [組織驗(yàn)證,僅支持OpenAI官方支持的國(guó)家和地區(qū)驗(yàn)證]

根據(jù)OpenAI的說法上個(gè)月 ChatGPT 圖像功能剛推出時(shí),第一周就有 1.3 億用戶創(chuàng)作了超過 7 億張圖片。這次 API 開放的gpt-image-1,正是驅(qū)動(dòng) ChatGPT 圖像體驗(yàn)的那個(gè)原生多模態(tài)模型

下面我給給大家詳細(xì)解讀一下這個(gè)API

API 版有啥不一樣?

相比 ChatGPT 版本,API 版給了開發(fā)者更多精細(xì)控制的選項(xiàng):

審核敏感度可調(diào):通過moderation參數(shù)(可選auto默認(rèn) 或low低限制)控制內(nèi)容過濾的嚴(yán)格程度

平衡質(zhì)量與速度:可以指定qualitylow,medium,high,auto)來權(quán)衡生成速度和圖像細(xì)節(jié)

輸出定制化:支持指定圖像尺寸(1024x1024方形,1024x1536豎版,1536x1024橫版,auto默認(rèn))、輸出格式(png,jpeg,webp)、壓縮率(jpeg/webp可設(shè) 0-100%),甚至背景透明(background: 'transparent')!這對(duì)需要 P 圖、做素材的場(chǎng)景簡(jiǎn)直是福音(透明背景建議mediumhigh質(zhì)量)

gpt-image-1核心優(yōu)勢(shì):

? 高保真、更準(zhǔn)確:圖像質(zhì)量和細(xì)節(jié)表現(xiàn)出色
視覺風(fēng)格多樣:能駕馭多種藝術(shù)風(fēng)格
?? 精準(zhǔn)圖像編輯:強(qiáng)大的編輯能力
豐富世界知識(shí):能理解并運(yùn)用現(xiàn)實(shí)世界知識(shí)創(chuàng)作
?? 文字渲染更強(qiáng):在圖像中準(zhǔn)確渲染文字的能力有顯著提升。

生態(tài)合作:已有多家大廠和初創(chuàng)在用

OpenAI 展示了眾多合作伙伴的早期應(yīng)用案例,覆蓋創(chuàng)意工具、電商、教育、企業(yè)軟件、游戲等領(lǐng)域:

創(chuàng)意設(shè)計(jì):Adobe (Firefly, Express)、Figma、Canva 都在集成,讓用戶直接在工具內(nèi)生成、編輯圖像,調(diào)整風(fēng)格、增刪物體、擴(kuò)展背景等

adobe:

打開網(wǎng)易新聞 查看精彩圖片

Figma:

打開網(wǎng)易新聞 查看精彩圖片

營(yíng)銷與內(nèi)容創(chuàng)作:Airtable 助力營(yíng)銷團(tuán)隊(duì)管理素材工作流;HubSpot 探索生成營(yíng)銷/銷售資料;OpusClip Thumbnail 為 YouTube 創(chuàng)作者生成定制化縮略圖;GoDaddy 嘗試生成 Logo、去背景、生成社媒帖子

Airtable:

打開網(wǎng)易新聞 查看精彩圖片

OpusClip:

打開網(wǎng)易新聞 查看精彩圖片

效率工具:Gamma 每天生成超 500 萬張 AI 圖片用于演示和網(wǎng)站;Wix 將其集成到 AI 設(shè)計(jì)平臺(tái) Wixel

Gamma:

打開網(wǎng)易新聞 查看精彩圖片

Wix:

打開網(wǎng)易新聞 查看精彩圖片

電商:Photoroom 利用它推出 Product Beautifier、Product Staging 等工具,幫賣家快速生成專業(yè)商品圖、場(chǎng)景圖

打開網(wǎng)易新聞 查看精彩圖片

虛擬形象與視頻:HeyGen 用它增強(qiáng)虛擬人編輯;InVideo 用它改進(jìn)視頻中的文字生成和編輯控制

打開網(wǎng)易新聞 查看精彩圖片

知識(shí)平臺(tái):Quora 將gpt-image-1設(shè)為默認(rèn)圖像模型,提升平臺(tái)圖像質(zhì)量

打開網(wǎng)易新聞 查看精彩圖片

生活服務(wù):Instacart 測(cè)試用它生成食譜和購(gòu)物清單的圖片

API 核心功能一覽

目前圖像生成主要通過Images API提供(未來會(huì)支持Responses API):

圖像生成 (Generations):根據(jù)文本提示 從零生成圖像??稍O(shè)置n一次生成多張

圖像編輯 (Edits)

a.基于參考圖生成:可傳入一張或多張現(xiàn)有圖片 作為參考,結(jié)合提示生成新圖(例如,提供幾個(gè)單品圖,生成包含這些單品的禮品籃圖)

b.局部修改 (Inpainting):上傳原圖和一張蒙版圖 (mask),蒙版的透明區(qū)域會(huì)被根據(jù)提示重新繪制,黑色區(qū)域保持不變。注意:prompt需要描述完整的最終圖像,而非僅修改區(qū)域。蒙版圖需與原圖尺寸格式一致,且?guī)?Alpha 通道

模型選擇:

雖然 API 也支持 DALL·E 2 (支持 Variations 功能) 和 DALL·E 3 (高質(zhì)量),但 OpenAI推薦使用gpt-image-1,因?yàn)樗谥噶钭裱⑽淖咒秩?、?xì)節(jié)編輯和利用世界知識(shí)方面更勝一籌。

成本

gpt-image-1按 Token 計(jì)費(fèi),分為三部分:

【文本輸入 Token : $5 / 1M tokens】

【圖像輸入 Token (用于編輯的參考圖)|: $10 / 1M tokens|】

【圖像輸出 Token (生成的圖像): $40 / 1M tokens】

實(shí)際換算下來,生成一張方形圖的大致成本:

  • ? Low Quality: 約 $0.02 (272 tokens)

  • ? Medium Quality: 約 $0.07 (1056 tokens)

  • ? High Quality: 約 $0.19 (4160 tokens),人民幣超過1元了

不同尺寸和質(zhì)量的 Token 數(shù)不同,具體可查閱文檔。成本與圖像尺寸、質(zhì)量成正比

局限性提醒

雖然強(qiáng)大,gpt-image-1仍有一些需注意的限制:

延遲:復(fù)雜提示可能需要長(zhǎng)達(dá) 2 分鐘處理

文字渲染:雖有改進(jìn),但精確放置和清晰度仍可能遇到挑戰(zhàn)

一致性:跨多代生成保持角色或品牌元素的一致性有時(shí)會(huì)困難

構(gòu)圖控制:對(duì)于需要精確布局的場(chǎng)景,模型可能難以完全按指令放置元素

體驗(yàn)及圖像生成指南

前往 [Playground]

https://platform.openai.com/playground) 體驗(yàn)

另外OpenAI提供了詳細(xì)的API 圖像生成指南

https://platform.openai.com/docs/guides/image-generation?image-generation-model=gpt-image-1

one more thing

Sam Altman 親自發(fā)話:Plus 用戶速率翻倍!

就在大家消化圖像 API 消息的同時(shí),OpenAI CEO Sam Altman 又在 X 上宣布了一個(gè)好消息:

"我們已將 ChatGPT Plus 訂閱用戶的 o3和 o4-mini-high 的速率限制提高了一倍。盡情享用吧!我們確實(shí)在努力聽取反饋!"

打開網(wǎng)易新聞 查看精彩圖片

他還提到,這背后是在速率限制、新功能發(fā)布和延遲之間做的艱難權(quán)衡,并表示 "GPU 正在路上,希望情況會(huì)變得更好"

參考:

https://openai.com/index/image-generation-api/

?星標(biāo)AI寒武紀(jì),好內(nèi)容不錯(cuò)過?

用你的在看告訴我~

求贊