前段時(shí)間,GPT-4o 火出了圈,其斷崖式提升的生圖、改圖能力讓每個(gè)人都想嘗試一下。雖然 OpenAI 后來宣布免費(fèi)用戶也可以用,但出圖慢、次數(shù)受限仍然困擾著沒有訂閱 ChatGPT 的普通人。

那除了 GPT-4o,我們還有沒有其他選擇呢?去 Artificial Analysis 的文生圖大模型競(jìng)技場(chǎng)找一下就知道了。

在這個(gè)競(jìng)技場(chǎng)上,我們發(fā)現(xiàn)前段時(shí)間排到第二名的模型 —— 擁有 17B 參數(shù)的HiDream-I1和 GPT-4o 得分很接近。

打開網(wǎng)易新聞 查看精彩圖片

AI 基準(zhǔn)測(cè)試和分析平臺(tái) Artificial Analysis 發(fā)推宣布 HiDream-I1 成為文生圖開源模型新 SOTA。這個(gè)平臺(tái)采用競(jìng)技場(chǎng)模式來評(píng)估模型,即同時(shí)給兩張不同模型生成的圖像,讓人類從中選出和 prompt 最貼合的。

值得一提的是,這個(gè)模型在上線的 24 小時(shí)之內(nèi)就登頂了 Artificial Analysis 競(jìng)技場(chǎng)榜首,也是首個(gè)登頂該榜單的中國(guó)自研生成式 AI 模型。

通過一些對(duì)比圖可以看到,HiDream-I1 的生成效果似乎不輸 GPT-4o,比之前「把 Midjourney 打下神壇」的 FLUX1.1 [pro] 效果還要好。重點(diǎn)是,這三個(gè)模型里,只有 HiDream-I1 是開源的,而且是允許商用的那種開源(MIT 協(xié)議)。

打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片

  • HiDream-I1 模型:https://huggingface.co/HiDream-ai/HiDream-I1-Full
  • HiDream-I1 代碼:https://github.com/HiDream-ai/HiDream-I1

而且,開源這個(gè)模型的國(guó)內(nèi)公司 —— 智象未來剛剛宣布,他們即將開源的另一個(gè)模型 ——HiDream-E1還支持交互式圖像編輯,可以像 GPT-4o 那樣把你提供的圖修改為任意風(fēng)格、任意內(nèi)容。二者合在一起,實(shí)現(xiàn)了類似于 GPT-4o 圖像生成和編輯的「言出法隨」效果,填補(bǔ)了「開源版 GPT-4o」的空白。

打開網(wǎng)易新聞 查看精彩圖片

HiDream-E1 的圖像編輯效果,模型將于近期開源。

那么,HiDream-I1 的效果究竟好在哪兒?我們可以多看一些案例詳細(xì)分析。

HiDream-I1 生圖效果如何?

GPT-4o、FLux 之所以能夠走紅,其生成畫面的真實(shí)感、細(xì)膩度和遵循指令的能力起到了重要作用。

為了測(cè)試 HiDream-I1 能不能擔(dān)得起「開源版 GPT-4o」這個(gè)稱號(hào),我們參考前段時(shí)間 OpenAI 官宣 GPT-4o 新能力時(shí)發(fā)布的一些 prompt 測(cè)試了一下。

打開網(wǎng)易新聞 查看精彩圖片

GPT-4o 博客中給到的生成案例與 prompt。

HiDream-I1 生成的結(jié)果如下:

打開網(wǎng)易新聞 查看精彩圖片

提示詞:寫實(shí)的照片,一匹馬從右到左奔馳在一個(gè)巨大的,平靜的海面上,準(zhǔn)確地描繪了濺起的水花,反射,和馬蹄下微妙的漣漪圖案??鋸堮R的動(dòng)作,但其他一切都應(yīng)該是靜止的,安靜的,以顯示與馬的力量形成對(duì)比。干凈的構(gòu)圖,電影般的。廣闊的全景構(gòu)圖,展示遠(yuǎn)處的地平線。大氣透視創(chuàng)造深度。放大后的馬與浩瀚的海洋相比顯得微不足道。

打開網(wǎng)易新聞 查看精彩圖片

提示詞:真實(shí)水果與微型行星(木星、土星、火星、地球)混合而成的果盤照片,保持真實(shí)的反射、光照、陰影與原圖一致,構(gòu)圖干凈,紋理真實(shí),細(xì)節(jié)渲染清晰

打開網(wǎng)易新聞 查看精彩圖片

提示詞:一個(gè)真實(shí)的水下場(chǎng)景,海豚從一輛廢棄的地鐵車廂的窗戶游進(jìn)來,氣泡和水流的細(xì)節(jié)被精確地模擬出來。

打開網(wǎng)易新聞 查看精彩圖片

提示詞:這是一張狗仔隊(duì)風(fēng)格的偷拍照片,卡爾?馬克思匆忙穿過美國(guó)購(gòu)物中心的停車場(chǎng),他帶著驚訝的表情瞥了一眼,試圖避免被拍到。他手里拿著幾個(gè)锃亮的購(gòu)物袋,里面裝滿了奢侈品。他的外套在風(fēng)中飄動(dòng),其中一個(gè)包在搖擺,好像他正在大步前進(jìn)。模糊的背景與汽車和發(fā)光的商場(chǎng)入口,以強(qiáng)調(diào)運(yùn)動(dòng)。相機(jī)發(fā)出的閃光部分過度曝光了圖像,給人一種混亂的小報(bào)感。

整體上看,HiDream-I1 生成的圖在真實(shí)感、細(xì)膩度上和 GPT-4o 是非常接近的,有時(shí)還能更勝一籌。在和 Flux 相比時(shí),這個(gè)特點(diǎn)更加明顯。

比如在下面這個(gè)例子中,HiDream-I1 生成的圖像具有更多精細(xì)的元素,包括紋理、背景細(xì)節(jié)以及物體之間的層次感(貓毛在光的照耀下根根分明,給人一種強(qiáng)烈的生機(jī)感;咖啡壺的不銹鋼材質(zhì)恰到好處地反射光線,呈現(xiàn)出真實(shí)的質(zhì)感)。相比之下,F(xiàn)lux 雖然也能生成具有良好細(xì)節(jié)的圖像,但在細(xì)節(jié)材質(zhì)上不如 HiDream-I1 細(xì)膩豐富。

打開網(wǎng)易新聞 查看精彩圖片

提示詞:一只可愛的橙色貓咪坐在咖啡研磨機(jī)旁,用爪子慢吞吞地轉(zhuǎn)動(dòng)著研磨機(jī)的把手。貓咪專注的表情和溫柔的咕嚕聲在舒適寧?kù)o的廚房里被捕捉到。柔和、溫暖的光線透過窗戶,在貓和磨床上投射出柔和的光芒,增強(qiáng)了寧?kù)o的氛圍。這一場(chǎng)景以寫實(shí)的風(fēng)格呈現(xiàn),強(qiáng)調(diào)平靜和親密。

在色彩的呈現(xiàn)上,HiDream-I1 的表現(xiàn)也更出色,能夠生成層次分明、色調(diào)多樣的圖像(仔細(xì)看下圖中狼的臉部毛發(fā),HiDream-I1、GPT-4o 的顏色層次都更豐富)。Flux 的色彩使用雖然也相當(dāng)豐富,但在某些場(chǎng)景下,色彩的搭配和過渡顯得較為單一,缺乏一定的飽和度和層次感。

打開網(wǎng)易新聞 查看精彩圖片

提示詞:一只穿著音樂家燕尾服的 3D 狼。像人一樣兩條腿直立站著,拿著吉他,周圍是放大器和舞臺(tái),這里散發(fā)著藝術(shù)和優(yōu)雅的氣息。

此外,這種真實(shí)感、細(xì)膩感還來自模型對(duì)客觀規(guī)律的理解。從下圖可以看出,HiDream-I1 對(duì)客觀規(guī)律的理解較為精確。無論是物體的擺放、人物的動(dòng)作姿勢(shì),還是環(huán)境中的光影效果,HiDream-I1 都能展現(xiàn)出符合現(xiàn)實(shí)世界的自然規(guī)律。而 Flux 則在這方面存在一定局限,特別是在處理動(dòng)態(tài)場(chǎng)景和復(fù)雜物理互動(dòng)時(shí),模型的表現(xiàn)不夠真實(shí),常常出現(xiàn)不符合物理定律的情況。

打開網(wǎng)易新聞 查看精彩圖片

提示詞:一只穿著音樂家燕尾服的 3D 貓,兩條腿直立,拿著小提琴,周圍是旋轉(zhuǎn)的音符和大鋼琴,散發(fā)著藝術(shù)和優(yōu)雅的氛圍,聚光燈照亮了現(xiàn)場(chǎng),創(chuàng)造了一個(gè)戲劇性和精致的環(huán)境。

即使是遇到復(fù)雜的提示詞,這些特點(diǎn)依然能夠在 HiDream-I1 生成的圖中得到保留。這是模型復(fù)雜文本理解、遵循能力的體現(xiàn)。

打開網(wǎng)易新聞 查看精彩圖片

HiDream-I1 生成的圖像。提示詞:中世紀(jì)城堡的石砌城墻,身披鎧甲的戰(zhàn)士面向鏡頭,躍動(dòng)的火焰在他身后勾勒出粗獷的面部輪廓?;鹦请S風(fēng)濺落在生銹的鎖子甲上,右手不自覺地握緊腰間劍柄,深褐色的斗篷在熱浪中劇烈翻卷。燃燒的箭矢在遠(yuǎn)處塔樓持續(xù)墜落,橙紅火光與靛藍(lán)夜空形成強(qiáng)烈對(duì)比,照亮了城墻垛口剝落的青苔和戰(zhàn)士眉骨處的陳舊傷疤。

在各項(xiàng)基準(zhǔn)測(cè)試數(shù)據(jù)中,以上視覺效果得到了印證:

  • 首先是HPSv2.1,這是一個(gè)基于人類偏好選擇數(shù)據(jù)集訓(xùn)練的偏好預(yù)測(cè)模型,能夠?qū)ν惶崾鞠庐a(chǎn)生的不同圖像進(jìn)行評(píng)分比較。在這個(gè)基準(zhǔn)上,HiDream-I1 在多種風(fēng)格(如動(dòng)漫、概念藝術(shù)、繪畫和真實(shí)攝影)上達(dá)到最優(yōu)。這說明,HiDream-I1 生成的各種風(fēng)格圖像都更符合人類審美
  • 其次是GenEval 和 DPG-Bench,前者通過檢測(cè)對(duì)象和顏色分類來驗(yàn)證生成圖像與文本提示之間的匹配程度,后者專注于檢測(cè)生成圖像中的多個(gè)對(duì)象、詳細(xì)屬性和復(fù)雜關(guān)系(當(dāng)提示又長(zhǎng)又復(fù)雜的時(shí)候適合用這個(gè)基準(zhǔn)評(píng)測(cè))。在這兩個(gè)基準(zhǔn)上,HiDream-I1 都達(dá)到了最優(yōu)。這說明,HiDream-I1 的指令遵循能力很強(qiáng)

打開網(wǎng)易新聞 查看精彩圖片

HiDream-I1 在 HPSv2.1 上的得分?jǐn)?shù)據(jù)。

打開網(wǎng)易新聞 查看精彩圖片

HiDream-I1 在 GenEval 上的得分?jǐn)?shù)據(jù)。

打開網(wǎng)易新聞 查看精彩圖片

HiDream-I1 在 DPG-Bench 上的得分?jǐn)?shù)據(jù)。

為了提升生圖效果

智象未來做了哪些技術(shù)改進(jìn)?

強(qiáng)大的指令遵循能力和逼真、細(xì)膩的生成效果本質(zhì)上都要?dú)w功于技術(shù)改進(jìn)。

為了提高模型理解文本的能力,HiDream-I1 采用了新的被稱為「Sparse Diffusion Transformer(Sparse DiT)」的架構(gòu)設(shè)計(jì)。這個(gè)架構(gòu)在 DiT 框架下融合了 Sparse Mixture-of-Expert (MoE)技術(shù),讓不同的專家模型處理不同類型的文本輸入,各有專精。

同時(shí),這個(gè)架構(gòu)設(shè)計(jì)還帶來了一個(gè)額外的好處 —— 在提高模型性能的同時(shí)控制運(yùn)算開銷,使得 HiDream-I1 用起來性價(jià)比很高。對(duì)于關(guān)注開源模型算力消耗的個(gè)人開發(fā)者、創(chuàng)業(yè)公司來說,這是一個(gè)很有用的優(yōu)化。

打開網(wǎng)易新聞 查看精彩圖片

HiDream-I1 模型架構(gòu)圖。

圖像質(zhì)量的提升則要?dú)w功于研究者在擴(kuò)散模型蒸餾中融入生成對(duì)抗學(xué)習(xí),借助 GAN 捕捉細(xì)節(jié)、銳化邊緣的能力,在蒸餾擴(kuò)散模型的同時(shí)進(jìn)一步提升了生成圖像的真實(shí)感和清晰度,實(shí)現(xiàn)速度與質(zhì)量的雙重優(yōu)化。

值得一提的是,這樣訓(xùn)練出來的 HiDream-I1 具有很強(qiáng)的可擴(kuò)展性。所以在模型訓(xùn)練出來后不久,智象未來就將其擴(kuò)展到了交互式圖像編輯大模型 HiDream-E1,讓圖像編輯場(chǎng)景也有了「開源版 GPT-4o」可用。

HiDream 系列模型開源

影響力已初步彰顯

無論從實(shí)測(cè)效果還是基準(zhǔn)測(cè)試結(jié)果來看,智象未來的 HiDream-I1 都已經(jīng)非常接近 GPT-4o,站穩(wěn)了國(guó)內(nèi)圖像生成第一梯隊(duì)。

打開網(wǎng)易新聞 查看精彩圖片

而且,由于模型是開源的,其國(guó)際影響力也在逐步顯現(xiàn)。在開源后兩天,文生圖大模型競(jìng)技場(chǎng)上的另一家模型公司 ——Recraft AI 就宣布,他們已經(jīng)集成了 HiDream-I1,還手把手教網(wǎng)友怎么選用這個(gè)模型。

打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片

在 HuggingFace Trending 榜單上,HiDream-I1 飆升到了第二名。這說明 HiDream-I1 的下載量、點(diǎn)贊數(shù)都很可觀,在社區(qū)中非常受歡迎。

打開網(wǎng)易新聞 查看精彩圖片

當(dāng)然,沒有本地部署需求的朋友也可以在智象未來的官方平臺(tái) Vivago 上體驗(yàn) HiDream-I1。該平臺(tái)上有更完整的工作流,支持在生成圖像的基礎(chǔ)上進(jìn)行視頻制作等二次創(chuàng)作。

詳情請(qǐng)看:https://mp.weixin.qq.com/s/73wmyV70jT6SfWfsfoR_YQ
打開網(wǎng)易新聞 查看精彩圖片
詳情請(qǐng)看:https://mp.weixin.qq.com/s/73wmyV70jT6SfWfsfoR_YQ

據(jù)悉,過段時(shí)間,智象未來還將發(fā)布多模態(tài) Agent 產(chǎn)品。它的核心是讓大家用對(duì)話聊天的形式來生成圖片 / 視頻,并使用自然語言對(duì)圖片 / 視頻內(nèi)容進(jìn)行相應(yīng)的編輯,從而漸進(jìn)式地生成有故事情節(jié)的內(nèi)容。便利之處在于不需要用戶自己去跨平臺(tái)選擇調(diào)用需要的功能以及調(diào)節(jié)復(fù)雜的參數(shù)。

對(duì)于這樣的模型改進(jìn)、產(chǎn)品開發(fā)理念,智象未來 CTO 姚霆曾做出過解釋 —— 在應(yīng)用端,真實(shí)感、指令遵循和敘事性的能力是用戶愿意為之付費(fèi)的基礎(chǔ),所以智象未來在改進(jìn)模型的過程中始終關(guān)注這三大屬性。如今,他們把這三點(diǎn)做到了新的高度,還開源了模型,可以說為想在這一領(lǐng)域開發(fā)應(yīng)用的開發(fā)者或公司掃除了基礎(chǔ)障礙。

智象的研發(fā)人員透露,下一個(gè)開源模型--HiDream-E1 即將開源,相關(guān)基準(zhǔn)測(cè)試數(shù)據(jù)也將在近日發(fā)布。期待這個(gè)模型帶來優(yōu)秀的編輯體驗(yàn)。