97人妻人人爽人人精品,亚洲国产另类久久久精品性下载,久久热精品国产,欧美激情日韩另类综合一区,农村女人一级毛片20岁的

前段時(shí)間，GPT-4o 火出了圈，其斷崖式提升的生圖、改圖能力讓每個(gè)人都想嘗試一下。雖然 OpenAI 后來宣布免費(fèi)用戶也可以用，但出圖慢、次數(shù)受限仍然困擾著沒有訂閱 ChatGPT 的普通人。

那除了 GPT-4o，我們還有沒有其他選擇呢？去 Artificial Analysis 的文生圖大模型競(jìng)技場(chǎng)找一下就知道了。

在這個(gè)競(jìng)技場(chǎng)上，我們發(fā)現(xiàn)前段時(shí)間排到第二名的模型 —— 擁有 17B 參數(shù)的HiDream-I1和 GPT-4o 得分很接近。

AI 基準(zhǔn)測(cè)試和分析平臺(tái) Artificial Analysis 發(fā)推宣布 HiDream-I1 成為文生圖開源模型新 SOTA。這個(gè)平臺(tái)采用競(jìng)技場(chǎng)模式來評(píng)估模型，即同時(shí)給兩張不同模型生成的圖像，讓人類從中選出和 prompt 最貼合的。

值得一提的是，這個(gè)模型在上線的 24 小時(shí)之內(nèi)就登頂了 Artificial Analysis 競(jìng)技場(chǎng)榜首，也是首個(gè)登頂該榜單的中國(guó)自研生成式 AI 模型。

通過一些對(duì)比圖可以看到，HiDream-I1 的生成效果似乎不輸 GPT-4o，比之前「把 Midjourney 打下神壇」的 FLUX1.1 [pro] 效果還要好。重點(diǎn)是，這三個(gè)模型里，只有 HiDream-I1 是開源的，而且是允許商用的那種開源（MIT 協(xié)議）。

HiDream-I1 模型：https://huggingface.co/HiDream-ai/HiDream-I1-Full
HiDream-I1 代碼：https://github.com/HiDream-ai/HiDream-I1

而且，開源這個(gè)模型的國(guó)內(nèi)公司 —— 智象未來剛剛宣布，他們即將開源的另一個(gè)模型 ——HiDream-E1還支持交互式圖像編輯，可以像 GPT-4o 那樣把你提供的圖修改為任意風(fēng)格、任意內(nèi)容。二者合在一起，實(shí)現(xiàn)了類似于 GPT-4o 圖像生成和編輯的「言出法隨」效果，填補(bǔ)了「開源版 GPT-4o」的空白。

HiDream-E1 的圖像編輯效果，模型將于近期開源。

那么，HiDream-I1 的效果究竟好在哪兒？我們可以多看一些案例詳細(xì)分析。

HiDream-I1 生圖效果如何？

GPT-4o、FLux 之所以能夠走紅，其生成畫面的真實(shí)感、細(xì)膩度和遵循指令的能力起到了重要作用。

為了測(cè)試 HiDream-I1 能不能擔(dān)得起「開源版 GPT-4o」這個(gè)稱號(hào)，我們參考前段時(shí)間 OpenAI 官宣 GPT-4o 新能力時(shí)發(fā)布的一些 prompt 測(cè)試了一下。

GPT-4o 博客中給到的生成案例與 prompt。

HiDream-I1 生成的結(jié)果如下：

提示詞：寫實(shí)的照片，一匹馬從右到左奔馳在一個(gè)巨大的，平靜的海面上，準(zhǔn)確地描繪了濺起的水花，反射，和馬蹄下微妙的漣漪圖案?？鋸堮R的動(dòng)作，但其他一切都應(yīng)該是靜止的，安靜的，以顯示與馬的力量形成對(duì)比。干凈的構(gòu)圖，電影般的。廣闊的全景構(gòu)圖，展示遠(yuǎn)處的地平線。大氣透視創(chuàng)造深度。放大后的馬與浩瀚的海洋相比顯得微不足道。

提示詞：真實(shí)水果與微型行星（木星、土星、火星、地球）混合而成的果盤照片，保持真實(shí)的反射、光照、陰影與原圖一致，構(gòu)圖干凈，紋理真實(shí)，細(xì)節(jié)渲染清晰

提示詞：一個(gè)真實(shí)的水下場(chǎng)景，海豚從一輛廢棄的地鐵車廂的窗戶游進(jìn)來，氣泡和水流的細(xì)節(jié)被精確地模擬出來。

提示詞：這是一張狗仔隊(duì)風(fēng)格的偷拍照片，卡爾?馬克思匆忙穿過美國(guó)購(gòu)物中心的停車場(chǎng)，他帶著驚訝的表情瞥了一眼，試圖避免被拍到。他手里拿著幾個(gè)锃亮的購(gòu)物袋，里面裝滿了奢侈品。他的外套在風(fēng)中飄動(dòng)，其中一個(gè)包在搖擺，好像他正在大步前進(jìn)。模糊的背景與汽車和發(fā)光的商場(chǎng)入口，以強(qiáng)調(diào)運(yùn)動(dòng)。相機(jī)發(fā)出的閃光部分過度曝光了圖像，給人一種混亂的小報(bào)感。

整體上看，HiDream-I1 生成的圖在真實(shí)感、細(xì)膩度上和 GPT-4o 是非常接近的，有時(shí)還能更勝一籌。在和 Flux 相比時(shí)，這個(gè)特點(diǎn)更加明顯。

比如在下面這個(gè)例子中，HiDream-I1 生成的圖像具有更多精細(xì)的元素，包括紋理、背景細(xì)節(jié)以及物體之間的層次感（貓毛在光的照耀下根根分明，給人一種強(qiáng)烈的生機(jī)感；咖啡壺的不銹鋼材質(zhì)恰到好處地反射光線，呈現(xiàn)出真實(shí)的質(zhì)感）。相比之下，F(xiàn)lux 雖然也能生成具有良好細(xì)節(jié)的圖像，但在細(xì)節(jié)材質(zhì)上不如 HiDream-I1 細(xì)膩豐富。

提示詞：一只可愛的橙色貓咪坐在咖啡研磨機(jī)旁，用爪子慢吞吞地轉(zhuǎn)動(dòng)著研磨機(jī)的把手。貓咪專注的表情和溫柔的咕嚕聲在舒適寧?kù)o的廚房里被捕捉到。柔和、溫暖的光線透過窗戶，在貓和磨床上投射出柔和的光芒，增強(qiáng)了寧?kù)o的氛圍。這一場(chǎng)景以寫實(shí)的風(fēng)格呈現(xiàn)，強(qiáng)調(diào)平靜和親密。

在色彩的呈現(xiàn)上，HiDream-I1 的表現(xiàn)也更出色，能夠生成層次分明、色調(diào)多樣的圖像（仔細(xì)看下圖中狼的臉部毛發(fā)，HiDream-I1、GPT-4o 的顏色層次都更豐富）。Flux 的色彩使用雖然也相當(dāng)豐富，但在某些場(chǎng)景下，色彩的搭配和過渡顯得較為單一，缺乏一定的飽和度和層次感。

提示詞：一只穿著音樂家燕尾服的 3D 狼。像人一樣兩條腿直立站著，拿著吉他，周圍是放大器和舞臺(tái)，這里散發(fā)著藝術(shù)和優(yōu)雅的氣息。

此外，這種真實(shí)感、細(xì)膩感還來自模型對(duì)客觀規(guī)律的理解。從下圖可以看出，HiDream-I1 對(duì)客觀規(guī)律的理解較為精確。無論是物體的擺放、人物的動(dòng)作姿勢(shì)，還是環(huán)境中的光影效果，HiDream-I1 都能展現(xiàn)出符合現(xiàn)實(shí)世界的自然規(guī)律。而 Flux 則在這方面存在一定局限，特別是在處理動(dòng)態(tài)場(chǎng)景和復(fù)雜物理互動(dòng)時(shí)，模型的表現(xiàn)不夠真實(shí)，常常出現(xiàn)不符合物理定律的情況。

提示詞：一只穿著音樂家燕尾服的 3D 貓，兩條腿直立，拿著小提琴，周圍是旋轉(zhuǎn)的音符和大鋼琴，散發(fā)著藝術(shù)和優(yōu)雅的氛圍，聚光燈照亮了現(xiàn)場(chǎng)，創(chuàng)造了一個(gè)戲劇性和精致的環(huán)境。

即使是遇到復(fù)雜的提示詞，這些特點(diǎn)依然能夠在 HiDream-I1 生成的圖中得到保留。這是模型復(fù)雜文本理解、遵循能力的體現(xiàn)。

HiDream-I1 生成的圖像。提示詞：中世紀(jì)城堡的石砌城墻，身披鎧甲的戰(zhàn)士面向鏡頭，躍動(dòng)的火焰在他身后勾勒出粗獷的面部輪廓?；鹦请S風(fēng)濺落在生銹的鎖子甲上，右手不自覺地握緊腰間劍柄，深褐色的斗篷在熱浪中劇烈翻卷。燃燒的箭矢在遠(yuǎn)處塔樓持續(xù)墜落，橙紅火光與靛藍(lán)夜空形成強(qiáng)烈對(duì)比，照亮了城墻垛口剝落的青苔和戰(zhàn)士眉骨處的陳舊傷疤。

在各項(xiàng)基準(zhǔn)測(cè)試數(shù)據(jù)中，以上視覺效果得到了印證：

首先是HPSv2.1，這是一個(gè)基于人類偏好選擇數(shù)據(jù)集訓(xùn)練的偏好預(yù)測(cè)模型，能夠?qū)ν惶崾鞠庐a(chǎn)生的不同圖像進(jìn)行評(píng)分比較。在這個(gè)基準(zhǔn)上，HiDream-I1 在多種風(fēng)格（如動(dòng)漫、概念藝術(shù)、繪畫和真實(shí)攝影）上達(dá)到最優(yōu)。這說明，HiDream-I1 生成的各種風(fēng)格圖像都更符合人類審美
其次是GenEval 和 DPG-Bench，前者通過檢測(cè)對(duì)象和顏色分類來驗(yàn)證生成圖像與文本提示之間的匹配程度，后者專注于檢測(cè)生成圖像中的多個(gè)對(duì)象、詳細(xì)屬性和復(fù)雜關(guān)系（當(dāng)提示又長(zhǎng)又復(fù)雜的時(shí)候適合用這個(gè)基準(zhǔn)評(píng)測(cè)）。在這兩個(gè)基準(zhǔn)上，HiDream-I1 都達(dá)到了最優(yōu)。這說明，HiDream-I1 的指令遵循能力很強(qiáng)

HiDream-I1 在 HPSv2.1 上的得分?jǐn)?shù)據(jù)。

HiDream-I1 在 GenEval 上的得分?jǐn)?shù)據(jù)。

HiDream-I1 在 DPG-Bench 上的得分?jǐn)?shù)據(jù)。

為了提升生圖效果

智象未來做了哪些技術(shù)改進(jìn)？

強(qiáng)大的指令遵循能力和逼真、細(xì)膩的生成效果本質(zhì)上都要?dú)w功于技術(shù)改進(jìn)。

為了提高模型理解文本的能力，HiDream-I1 采用了新的被稱為「Sparse Diffusion Transformer（Sparse DiT）」的架構(gòu)設(shè)計(jì)。這個(gè)架構(gòu)在 DiT 框架下融合了 Sparse Mixture-of-Expert （MoE）技術(shù)，讓不同的專家模型處理不同類型的文本輸入，各有專精。

同時(shí)，這個(gè)架構(gòu)設(shè)計(jì)還帶來了一個(gè)額外的好處 —— 在提高模型性能的同時(shí)控制運(yùn)算開銷，使得 HiDream-I1 用起來性價(jià)比很高。對(duì)于關(guān)注開源模型算力消耗的個(gè)人開發(fā)者、創(chuàng)業(yè)公司來說，這是一個(gè)很有用的優(yōu)化。

HiDream-I1 模型架構(gòu)圖。

圖像質(zhì)量的提升則要?dú)w功于研究者在擴(kuò)散模型蒸餾中融入生成對(duì)抗學(xué)習(xí)，借助 GAN 捕捉細(xì)節(jié)、銳化邊緣的能力，在蒸餾擴(kuò)散模型的同時(shí)進(jìn)一步提升了生成圖像的真實(shí)感和清晰度，實(shí)現(xiàn)速度與質(zhì)量的雙重優(yōu)化。

值得一提的是，這樣訓(xùn)練出來的 HiDream-I1 具有很強(qiáng)的可擴(kuò)展性。所以在模型訓(xùn)練出來后不久，智象未來就將其擴(kuò)展到了交互式圖像編輯大模型 HiDream-E1，讓圖像編輯場(chǎng)景也有了「開源版 GPT-4o」可用。

HiDream 系列模型開源

影響力已初步彰顯

無論從實(shí)測(cè)效果還是基準(zhǔn)測(cè)試結(jié)果來看，智象未來的 HiDream-I1 都已經(jīng)非常接近 GPT-4o，站穩(wěn)了國(guó)內(nèi)圖像生成第一梯隊(duì)。

而且，由于模型是開源的，其國(guó)際影響力也在逐步顯現(xiàn)。在開源后兩天，文生圖大模型競(jìng)技場(chǎng)上的另一家模型公司 ——Recraft AI 就宣布，他們已經(jīng)集成了 HiDream-I1，還手把手教網(wǎng)友怎么選用這個(gè)模型。

在 HuggingFace Trending 榜單上，HiDream-I1 飆升到了第二名。這說明 HiDream-I1 的下載量、點(diǎn)贊數(shù)都很可觀，在社區(qū)中非常受歡迎。

當(dāng)然，沒有本地部署需求的朋友也可以在智象未來的官方平臺(tái) Vivago 上體驗(yàn) HiDream-I1。該平臺(tái)上有更完整的工作流，支持在生成圖像的基礎(chǔ)上進(jìn)行視頻制作等二次創(chuàng)作。

詳情請(qǐng)看：https://mp.weixin.qq.com/s/73wmyV70jT6SfWfsfoR_YQ

據(jù)悉，過段時(shí)間，智象未來還將發(fā)布多模態(tài) Agent 產(chǎn)品。它的核心是讓大家用對(duì)話聊天的形式來生成圖片 / 視頻，并使用自然語言對(duì)圖片 / 視頻內(nèi)容進(jìn)行相應(yīng)的編輯，從而漸進(jìn)式地生成有故事情節(jié)的內(nèi)容。便利之處在于不需要用戶自己去跨平臺(tái)選擇調(diào)用需要的功能以及調(diào)節(jié)復(fù)雜的參數(shù)。

對(duì)于這樣的模型改進(jìn)、產(chǎn)品開發(fā)理念，智象未來 CTO 姚霆曾做出過解釋 —— 在應(yīng)用端，真實(shí)感、指令遵循和敘事性的能力是用戶愿意為之付費(fèi)的基礎(chǔ)，所以智象未來在改進(jìn)模型的過程中始終關(guān)注這三大屬性。如今，他們把這三點(diǎn)做到了新的高度，還開源了模型，可以說為想在這一領(lǐng)域開發(fā)應(yīng)用的開發(fā)者或公司掃除了基礎(chǔ)障礙。

智象的研發(fā)人員透露，下一個(gè)開源模型--HiDream-E1 即將開源，相關(guān)基準(zhǔn)測(cè)試數(shù)據(jù)也將在近日發(fā)布。期待這個(gè)模型帶來優(yōu)秀的編輯體驗(yàn)。