打開網(wǎng)易新聞 查看精彩圖片

新智元報(bào)道

編輯:犀牛 定慧

【新智元導(dǎo)讀】Midjourney V7 Alpha來了,帶著「最聰明、最美麗」的承諾和讓人驚嘆的「草稿模式」。本文將通過未編輯的圖片并排對(duì)比V7、V6和GPT-4o,深入剖析V7的個(gè)性化設(shè)置和語音控制功能。

終于,Midjourney帶著V7 Alpha回來了!兌現(xiàn)了

但GPT4o生圖的「余威」還在,

所有人的注意力都被即將到來的新模型所吸引,除非V7有一些實(shí)質(zhì)性的提升,否則AI在生圖上的故事要翻篇了。

V7 Alpha是否帶來了革命性的變化,還是針對(duì)GPT4o生圖迫不得已的出手?

打開網(wǎng)易新聞 查看精彩圖片

最聰明美麗的版本!「草稿模式」可語音控制

V7版本確實(shí)很能打,Midjourney稱V7 Alpha版本是最聰明、最美麗、最連貫的模型。 光說不練假把式,先來看看網(wǎng)友用V7創(chuàng)作的作品,整體感受一下這個(gè)模型。 網(wǎng)友@IterIntellectus認(rèn)為gpt4o很棒,但只是個(gè)玩具,V7是另外一回事,絕對(duì)令人難以置信。 他用V7創(chuàng)作了四個(gè)不同風(fēng)格的作品,印象派風(fēng)格、暗黑奇幻風(fēng)格、古典主義巴洛克雕塑風(fēng)格和日系漫畫風(fēng),最后漫畫風(fēng)里的「五條悟」和動(dòng)畫里的一模一樣。

打開網(wǎng)易新聞 查看精彩圖片

網(wǎng)友@PJaccetturo沒有使用任何參考資料,只是提供簡單的提示「村莊、備戰(zhàn)、武士」,就可以生成電影級(jí)別的鏡頭圖片。

打開網(wǎng)易新聞 查看精彩圖片

網(wǎng)友@doganuraldesign和@ai_for_success用V7制作的人物肖像,幾乎以假亂真,你能分辨出這是AI生成還是真人嗎?

打開網(wǎng)易新聞 查看精彩圖片

網(wǎng)友@8co28用V7制作了動(dòng)畫的分鏡草稿,這些草稿的精美程度可以用來直接制作動(dòng)畫了。

打開網(wǎng)易新聞 查看精彩圖片

效果確實(shí)很驚艷,Midjourney強(qiáng)調(diào)這次V7有兩大更新:

  1. V7是第一個(gè)默認(rèn)開啟模型個(gè)性化設(shè)置的模型。

    什么意思?就是在生成圖像前,必須解鎖個(gè)性化設(shè)置才能使用。這大約需要5分鐘。相當(dāng)于更好的「定制化」,讓模型提前了解用戶的喜好和審美。

  2. 另一個(gè)是「草稿模式」,被V7稱為旗艦功能。

    草稿模式的價(jià)格只有標(biāo)準(zhǔn)模式的一半,渲染圖片的速度卻快了10倍。它的速度快到你可以通過對(duì)話來控制它。

點(diǎn)擊「草稿模式」,再點(diǎn)麥克風(fēng)按鈕,就能開啟「語音模式」——你可以大聲思考,圖像就像流動(dòng)的夢(mèng)境一樣在你眼前生成。

比如像這樣讓貓咪吃草莓。

打開網(wǎng)易新聞 查看精彩圖片

草稿模式的圖像質(zhì)量低于標(biāo)準(zhǔn)模式,但兩者的繪畫行為和美學(xué)非常一致。

打開網(wǎng)易新聞 查看精彩圖片

可以使用各種語言跟它對(duì)話,快速將創(chuàng)意變成現(xiàn)實(shí)。

打開網(wǎng)易新聞 查看精彩圖片

以下視頻是草稿模式下可能實(shí)現(xiàn)的效果預(yù)覽,可以通過和模型「對(duì)話」來共同創(chuàng)作,看起來是很夢(mèng)幻的交互形式。

 Midjourney V7重磅上線,硬剛GPT-4o強(qiáng)強(qiáng)對(duì)決!AI生圖王者爭霸實(shí)測來襲
打開網(wǎng)易新聞 查看更多視頻
Midjourney V7重磅上線,硬剛GPT-4o強(qiáng)強(qiáng)對(duì)決!AI生圖王者爭霸實(shí)測來襲

V7 Alpha后的路線圖:預(yù)計(jì)在接下來的 60 天內(nèi),每隔一到兩周就會(huì)有新功能推出。

誰能定義AI視覺的未來,V7 、V6 、GPT4o誰更強(qiáng)?

V7的效果確實(shí)很棒,但是每個(gè)產(chǎn)品發(fā)布前,都免不了會(huì)在社交媒體上炒作一番。 如何確定V7很強(qiáng),當(dāng)然是和別的模型比較一下。 網(wǎng)友@Zapidroid使用相同的提示詞,并排圖像比較了相同提示詞下,V6、V7和GPT-4o的效果。他認(rèn)為GPT4o依然更勝一籌。 以下為相同提示詞的生成效果,圖片從左到右依次為V6、V7和GPT-4o生成的圖像。 你認(rèn)為哪個(gè)模型更好?歡迎在評(píng)論區(qū)討論。

A young Indian woman with dark hair in an open ponytail and a black jacket stands on a university campus, looking directly at the camera. The image has a 1990s-style movie still aesthetic, with a close-up portrait on a sunny day.

一位留著深色頭發(fā)、扎著開放式馬尾辮、身穿黑色夾克的印度年輕女子站在大學(xué)校園里,直視鏡頭,畫面有90年代風(fēng)格的電影依然唯美,還有一張陽光明媚的日子里的特寫肖像。

打開網(wǎng)易新聞 查看精彩圖片

A majestic barn owl perched on an ancient, moss-covered tree branch, surrounded by the misty forest. The scene is bathed in soft light filtering through the dense foliage, creating a magical and ethereal atmosphere. Photorealistic style with attention to detail of the feathers and textures.

一只雄偉的谷倉貓頭鷹棲息在一根古老的苔蘚覆蓋的樹枝上,周圍是迷蒙的森林。場景沐浴在柔和的光線中,透過茂密的樹葉過濾,營造出一種神奇而空靈的氛圍。寫實(shí)風(fēng)格,注重羽毛和紋理的細(xì)節(jié)。

打開網(wǎng)易新聞 查看精彩圖片

A person's hand points towards the window of an airplane, which is seen from inside with its wing visible in profile. The sky outside shows a clear horizon at dawn or dusk. In front of them lies a vast expanse of ocean.

一個(gè)人的手指向飛機(jī)的窗戶,從里面可以看到飛機(jī)的機(jī)翼。外面的天空在黎明或黃昏時(shí)顯示出清晰的地平線。在他們面前是一片廣闊的海洋。

打開網(wǎng)易新聞 查看精彩圖片

Close-up of an anime woman's face with a shocked expression, dark hair, in the anime style. Colorful animation stills, close-up intensity, soft lighting, low-angle camera view, and high detail.

動(dòng)漫女性面部特寫,表情震驚,深色頭發(fā),動(dòng)漫風(fēng)格。彩色動(dòng)畫劇照,特寫強(qiáng)度,柔和的燈光,低角度相機(jī)視圖,高細(xì)節(jié)。

打開網(wǎng)易新聞 查看精彩圖片

A close-up of broccoli being sautéed in oil, with the vegetable's green florets contrasting against a dark brown sauce. A large spoon is partially visible inside a stainless steel pot filled with caramelized and shiny black glaze on top, against a white background.

花椰菜在油中炒的特寫鏡頭,蔬菜的綠色小花與深棕色醬汁形成對(duì)比。一個(gè)不銹鋼鍋里部分可見一個(gè)大勺子,上面裝滿焦糖和閃亮的黑色釉,背景是白色的。

打開網(wǎng)易新聞 查看精彩圖片

A wide image taken with the phone of a glass whiteboard, in a room overlooking the Bay Bridge. The field of view shows a woman writing, sporting a tshirt with a large OpenAI logo. The handwriting looks natural and a bit messy, and we see the photographer's reflection.

在俯瞰海灣大橋的房間里,用手機(jī)用玻璃白板拍攝的一張寬照片。視野顯示一個(gè)女人在寫作,穿著一件印有大OpenAI標(biāo)志的t恤。筆跡看起來很自然,有點(diǎn)凌亂,我們看到了攝影師的倒影。

打開網(wǎng)易新聞 查看精彩圖片

看完以上對(duì)比后,你認(rèn)為哪個(gè)模型更好?

雖然無法下論斷V7和GPT4o誰更強(qiáng),但是V7確實(shí)要比V6版本優(yōu)化不少。

當(dāng)然,也有人對(duì)V7的一些效果提出了質(zhì)疑,比如圖片生成中一個(gè)重要的考點(diǎn)「文字生成」。

網(wǎng)友@sleone_76嘗試使用Midjourney v7和ChatGPT-4執(zhí)行相同的提示,Midjourney V7的文字生成仍然完全失敗。

sleone_76說他很失望,對(duì)于一個(gè)專門從事圖像創(chuàng)作并承諾使用V7可以更好地生成文本的團(tuán)隊(duì)來說,這應(yīng)該是最基本的要求。

打開網(wǎng)易新聞 查看精彩圖片

Midjourney V7的推出無疑為已經(jīng)夠火的圖像生成賽道又添了把火。

不管是通過對(duì)話實(shí)現(xiàn)創(chuàng)意想法的「草稿模式」還是可以個(gè)性化定制的智能美感,都展現(xiàn)了V7的強(qiáng)大實(shí)力。

但將其與GPT-4o放在一起同臺(tái)競技時(shí),它并未「遙遙領(lǐng)先」。尤其是文字生成等短板依然刺眼。

不過,Midjourney承諾未來60天將會(huì)有新功能放出,不知道那時(shí)它是否會(huì)重回文生圖領(lǐng)域的王者。

參考資料:

https://twitter.com/Zapidroid/status/1908058828295250205

https://twitter.com/doganuraldesign/status/1908061707160924593

https://www.midjourney.com/updates/v7-alpha