文 | 鏡相工作室

1966年,一個(gè)簡(jiǎn)單的符號(hào)">"出現(xiàn)在計(jì)算機(jī)屏幕上。這個(gè)被稱為"命令提示符"的符號(hào),成為了人類與計(jì)算機(jī)對(duì)話的開(kāi)端。半個(gè)世紀(jì)后,當(dāng)研究人員發(fā)現(xiàn)通過(guò)精心設(shè)計(jì)的提示詞能夠指引AI完成各種任務(wù)時(shí),"prompt"成為了人工智能時(shí)代最重要的術(shù)語(yǔ)之一。

現(xiàn)在,當(dāng)我們與AI對(duì)話,說(shuō)出的每一句話都是一個(gè)prompt。無(wú)論是讓AI生成一幅畫作,寫一段代碼,還是完成一篇文章,都需要通過(guò)prompt來(lái)表達(dá)我們的想法。這種人類與AI的對(duì)話方式,正在悄然改變我們的工作與生活。

這也是《The Prompt》這個(gè)欄目的由來(lái)。在這里,我們將與AI領(lǐng)域的創(chuàng)業(yè)者對(duì)話,發(fā)掘具有創(chuàng)新力的AI產(chǎn)品,記錄技術(shù)變革帶來(lái)的驚喜時(shí)刻。我們希望內(nèi)容本身,也能成為一個(gè)prompt,為讀者打開(kāi)思考的空間,在技術(shù)浪潮中,找到觀察和理解AI的支點(diǎn)。

文丨董慧 編輯丨趙磊

2024年下半年在社交平臺(tái)上最火的圖片,一類是hello kitty整頓職場(chǎng),坐在起火的電腦前平靜地喝咖啡,掄起大錘砸辦公室;另一類是“夢(mèng)核”膠片風(fēng),色彩濃郁、對(duì)比度高,構(gòu)圖荒誕,被稱為“夢(mèng)境模擬器”——這兩種風(fēng)格的圖片都由AI設(shè)計(jì)軟件Recraft生成,后者來(lái)源于Recraft的預(yù)設(shè)風(fēng)格“Hard Flash”。

打開(kāi)網(wǎng)易新聞 查看精彩圖片
打開(kāi)網(wǎng)易新聞 查看精彩圖片

圖片均由Recraft生成,使用風(fēng)格分別是Photorealism、Hard Flash。

2024年12月,我們和Rectaft創(chuàng)始人兼CEO Anna Veronika Dorogush進(jìn)行了對(duì)話。

Dorogush畢業(yè)于莫斯科國(guó)立大學(xué)應(yīng)用數(shù)學(xué)和計(jì)算機(jī)科學(xué)專業(yè)。創(chuàng)業(yè)之前, 她在谷歌、微軟和俄羅斯最大搜索引擎Yandex都工作過(guò),但她更想創(chuàng)造屬于自己的產(chǎn)品。辭職時(shí),她并沒(méi)有想好自己到底要做什么,2022年夏天的文生圖浪潮——Stable Diffusion在8月份開(kāi)源發(fā)布,DALL-E 2逐步開(kāi)放訪問(wèn),Midjourney開(kāi)始beta測(cè)試,讓她決定投身于此。

與Midjourney不同,Recraft成立的初衷是“專注于為平面設(shè)計(jì)師提供AI輔助工具”。起初獲取用戶很難,設(shè)計(jì)師常常說(shuō)Recraft很好,但自己不會(huì)用,“這讓我們很痛苦,因?yàn)樗麄兙褪悄繕?biāo)用戶”。于是她們決定自研模型。

2024年,Recraft自研模型Recraft V3在公開(kāi)排行榜上排名第一,超過(guò)了Midjourney、Ideogram、FLUX等一眾圖像生成模型。Recraft也在嘗試讓設(shè)計(jì)師對(duì)生成的圖像擁有更多的控制,比如生成風(fēng)格一致的系列圖像,效果模擬(Mock up,指可以將平面圖拓展到立體產(chǎn)品上),局部修改等,這也讓Recraft被稱為AI版的Photoshop。

目前,Recraft團(tuán)隊(duì)仍然不大,20多人——Dorogush覺(jué)得已經(jīng)不小。她們的總部在英國(guó),注冊(cè)地在美國(guó)特拉華州,沒(méi)有繼續(xù)在俄羅斯創(chuàng)業(yè)的原因是AI制裁。

至于Hard flash模式的流行,完全是意料之外的事。Dorogush說(shuō),自己本來(lái)以為,這么小眾的風(fēng)格肯定很少人使用。

以下是鏡相工作室和Anna Veronika Dorogush的對(duì)話,略經(jīng)編輯:

打開(kāi)網(wǎng)易新聞 查看精彩圖片

Recraft 創(chuàng)始人兼CEO:Anna Veronika Dorogush

“用戶喜好很難預(yù)測(cè),但找到受眾,使用潮就會(huì)出現(xiàn)”

鏡相工作室:中國(guó)社交媒體上很多人使用Recraft,特別是Hard Flash風(fēng)格。你們有注意到中國(guó)用戶在增加,或者這種風(fēng)格被更頻繁地使用嗎?

Dorogush:我們確實(shí)注意到了。一開(kāi)始我們不太明白是什么原因,直到后來(lái)和一位創(chuàng)業(yè)公司的朋友聊天——他們公司有個(gè)中國(guó)背景的創(chuàng)始人。他向我們解釋說(shuō),這其實(shí)是一種文化現(xiàn)象。在中國(guó),閃光燈攝影是生活的一部分,人們經(jīng)常拍照,也習(xí)慣這種風(fēng)格。對(duì)他們來(lái)說(shuō),這種風(fēng)格非常熟悉、自然(feel right)。

這是文化的,也是地域性的。說(shuō)實(shí)話,我們推出這個(gè)風(fēng)格的時(shí)候,完全不了解這一點(diǎn),這也讓我學(xué)到了很多。

鏡相工作室:你學(xué)到的是什么?

Dorogush:學(xué)到的是,不同的風(fēng)格對(duì)不同的人來(lái)說(shuō)有不同的含義,這很難預(yù)測(cè)。

在推出新風(fēng)格時(shí),我們會(huì)精心設(shè)計(jì),確保它們能在專業(yè)場(chǎng)景中派上用場(chǎng)。有些風(fēng)格適合用在網(wǎng)站上,有些更適合博客,我們挑選這些風(fēng)格就是希望人們能在這些場(chǎng)景中使用它們。還有一些風(fēng)格雖然不太常見(jiàn),但很時(shí)尚,效果很驚艷,比如Hard Flash——它太不尋常了,有復(fù)古感,不是標(biāo)準(zhǔn)構(gòu)圖,而是有不同的角度。

一開(kāi)始,我們覺(jué)得有些風(fēng)格,比如工作室或企業(yè)照片風(fēng)格,肯定會(huì)很受歡迎。有些風(fēng)格我們預(yù)計(jì)可能用的人不多,但可以用在特別場(chǎng)合,Hard Flash就是這樣。但對(duì)那些習(xí)慣用閃光燈拍照的人來(lái)說(shuō),這種風(fēng)格特別對(duì)味,所以后來(lái)Hard Flash掀起了使用熱潮。這件事讓我明白,用戶喜好很難預(yù)測(cè),但一旦某個(gè)風(fēng)格找到了自己的受眾,(使用潮)就會(huì)發(fā)生。

打開(kāi)網(wǎng)易新聞 查看精彩圖片
打開(kāi)網(wǎng)易新聞 查看精彩圖片
打開(kāi)網(wǎng)易新聞 查看精彩圖片

用戶會(huì)使用Hard Flash風(fēng)格生成超現(xiàn)實(shí)主義圖片,并稱之為“夢(mèng)核”。

鏡相工作室:Recraft其他寫實(shí)攝影風(fēng)格,比如Organic Calm和Evening Light,也都很獨(dú)特。你們是怎么做到的?

Dorogush:在創(chuàng)建風(fēng)格時(shí),我們會(huì)做很多實(shí)驗(yàn),讓這些風(fēng)格要么能解決某些任務(wù),要么看起來(lái)獨(dú)特,不死板、老套。我們還有一個(gè)特定的創(chuàng)造力指標(biāo),你可以在工具中看到,在生成圖像時(shí),有一個(gè)創(chuàng)造力控制(creativity handle),能讓照片更標(biāo)準(zhǔn),或不那么標(biāo)準(zhǔn)。這是我們團(tuán)隊(duì)設(shè)計(jì)師的選擇。

鏡相工作室:Recraft還有一些很有創(chuàng)意的功能,比如讓圖片一鍵擁有萬(wàn)圣節(jié)、圣誕節(jié)風(fēng)格,用戶還可以直接讓Recraft生成meme圖,團(tuán)隊(duì)如何設(shè)計(jì)這些功能?

Dorogush:這是整個(gè)團(tuán)隊(duì)都在參與的創(chuàng)造性過(guò)程,如果有人提出足夠有趣的想法,我們就會(huì)去實(shí)現(xiàn)它。你看頁(yè)面的抓手(grabbing hand),會(huì)發(fā)現(xiàn)它有6根手指。Recraft的工具中有一些幽默、意想不到的東西,這是文化的一部分。

鏡相工作室:是你們公司文化的一部分?

Dorogush:是的,我們正在構(gòu)建能讓人們生活、工作更有趣的東西,讓使用Recraft成為一種愉快的體驗(yàn)。

“所有用戶都是自然增長(zhǎng)”

鏡相工作室:創(chuàng)業(yè)之前,你有很豐富的工作經(jīng)歷,為什么會(huì)想在2022年創(chuàng)業(yè)?

Dorogush:我覺(jué)得自己是個(gè)產(chǎn)品人(product person)。我曾在谷歌、微軟和Yandex工作過(guò)。在這些公司里,我從零開(kāi)始構(gòu)建了很多產(chǎn)品,都是我自己想出來(lái)的,開(kāi)發(fā)并讓它們發(fā)展壯大,最終它們成長(zhǎng)為一些成功的項(xiàng)目。外界所知道的例子是Cat Boost,它是一個(gè)開(kāi)源庫(kù),但我在這些公司內(nèi)部還有其他產(chǎn)品。我喜歡做這些事,一直想建立屬于自己的東西,所以我決定創(chuàng)建一家公司。

一開(kāi)始我并不知道具體要做什么。好幾個(gè)月的時(shí)間,我一直在探索不同的選擇,和人交談,做實(shí)驗(yàn)和原型。然后2022年夏天,圖像生成浪潮開(kāi)始了,很明顯,你可以在設(shè)計(jì)領(lǐng)域做一些事情。

我有一個(gè)姐妹是平面設(shè)計(jì)師,幫我了解了這個(gè)領(lǐng)域;我們公司最早的成員之一也是設(shè)計(jì)師,現(xiàn)在他是我們的設(shè)計(jì)主管。我們經(jīng)常和他交談,探索要做什么,他也一直在Figma上制作原型。這就是公司開(kāi)始的故事。

鏡相工作室:包括Midjourney在內(nèi)的許多文生圖公司,目標(biāo)受眾都是普通人,為什么你要把目標(biāo)群體定位為專業(yè)設(shè)計(jì)師?

Dorogush:我認(rèn)為在AI的影響下,設(shè)計(jì)世界正在發(fā)生變化。AI為設(shè)計(jì)專業(yè)人士提供了新的可能性,讓設(shè)計(jì)變得更容易上手,更多的人可以進(jìn)入這個(gè)領(lǐng)域。它也讓專業(yè)用戶能夠做到以前做不到的事情。

目前在設(shè)計(jì)領(lǐng)域取得成功的公司并不多。因此,我們以及我們的每一個(gè)設(shè)計(jì)選擇、每一項(xiàng)正在開(kāi)發(fā)的新技術(shù),都在塑造著行業(yè)的未來(lái)。這種能夠參與定義行業(yè)發(fā)展的機(jī)會(huì)讓我很激動(dòng)。

鏡相工作室:這樣的選擇有商業(yè)化的考慮嗎?或許專業(yè)設(shè)計(jì)師更愿意為AI工具付費(fèi),而普通人想嘗試,但不會(huì)在AI工具上花太多錢。

Dorogush:隨著ChatGPT的出現(xiàn),消費(fèi)者為AI工具付費(fèi)已經(jīng)成為常態(tài)。不僅是專業(yè)人士,每個(gè)人都開(kāi)始理解現(xiàn)在計(jì)算成本很高,所以支付一些訂閱費(fèi)是正常的。

對(duì)于普通用戶來(lái)說(shuō),他們使用AI來(lái)做實(shí)驗(yàn)和尋找靈感。大多數(shù)情況下,文生圖的功能就足夠了。但在專業(yè)設(shè)計(jì)領(lǐng)域,你腦子里有想法,想要達(dá)到這個(gè)結(jié)果,僅僅靠文生圖是不夠的,你需要為用戶提供很多控制,讓他們能夠向模型解釋他們到底想要什么。這是一個(gè)不同的任務(wù),也是我們的技術(shù)與其他圖像生成公司的不同之處。我們不僅僅是構(gòu)建文生圖,我們?cè)跇?gòu)建新的方式來(lái)控制生成。

打開(kāi)網(wǎng)易新聞 查看精彩圖片
打開(kāi)網(wǎng)易新聞 查看精彩圖片
打開(kāi)網(wǎng)易新聞 查看精彩圖片
打開(kāi)網(wǎng)易新聞 查看精彩圖片
打開(kāi)網(wǎng)易新聞 查看精彩圖片

Recraft上有不同風(fēng)格預(yù)設(shè),以上圖片為同一提示詞“Hello Kitty is wearing headphones and reading a book on the sofa. The background is a warm room with a fireplace”,分別應(yīng)用Hard Flash、Retro Snapshot、Multicolor、Grain 2.0、Neon Calm風(fēng)格。

鏡相工作室:Recraft有超過(guò)200萬(wàn)用戶,付費(fèi)情況如何?

Dorogush:我們從2024年9月開(kāi)始實(shí)行基于點(diǎn)數(shù)(credit)的訂閱制,現(xiàn)在已經(jīng)有一批訂閱用戶。我們有免費(fèi)產(chǎn)品,每天有50次免費(fèi)生成機(jī)會(huì),對(duì)于想要看看AI能提供什么的人來(lái)說(shuō),應(yīng)該足夠了。但對(duì)于需要生成大量圖像的專業(yè)人士來(lái)說(shuō),這是不夠的,所以他們會(huì)付費(fèi)訂閱。

鏡相工作室:除了喜歡Hard Flash的中國(guó)用戶,你們有沒(méi)有發(fā)現(xiàn)其他意想不到的事或者用戶群體?

Dorogush:意想不到的是增長(zhǎng)。通常情況下我們的用戶增長(zhǎng)是波浪式的,因?yàn)槲覀兯性鲩L(zhǎng)都是自然的,要么來(lái)自于人們與朋友或同事分享,要么來(lái)自于社交媒體上分享。當(dāng)某個(gè)有社交影響力的人發(fā)現(xiàn)了這個(gè)工具,開(kāi)始發(fā)帖,那么在這個(gè)特定的地理區(qū)域,我們就會(huì)有一大波新用戶。我們?cè)诓煌瑖?guó)家都經(jīng)歷過(guò)這樣的增長(zhǎng)浪潮,你永遠(yuǎn)不知道它什么時(shí)候會(huì)發(fā)生。

剛開(kāi)始我們確實(shí)想以一種可控的方式增長(zhǎng),這樣就知道明天的增長(zhǎng)會(huì)和昨天一樣好。但我們還沒(méi)有做到,AI領(lǐng)域的大多數(shù)公司也都沒(méi)有做到,他們都是自然增長(zhǎng)。

鏡相工作室:我很驚訝,很多中國(guó)AI公司在社交媒體上花了很多錢做廣告。

Dorogush:如果效果好的話那很好。我跟其他AI創(chuàng)業(yè)公司和大公司都聊過(guò),對(duì)很多公司來(lái)說(shuō),包括我們自己,帶來(lái)一個(gè)用戶的成本比這個(gè)用戶能為工具帶來(lái)的收益還要高——很多用戶只是在免費(fèi)試用這個(gè)工具,使用廣告在數(shù)據(jù)上是說(shuō)不通的,我們需要尋找其他的營(yíng)銷渠道。

但自然增長(zhǎng)比任何營(yíng)銷都要好。我們最好的增長(zhǎng)來(lái)自于發(fā)布最新模型——在圖像質(zhì)量公開(kāi)的基準(zhǔn)測(cè)試中,Recraft的模型是世界最好的。看起來(lái),做到最好就是最好的營(yíng)銷。當(dāng)我們獲得第一名后,我們獲得了很多新用戶,并且僅僅因?yàn)檫@個(gè)原因,我們每天仍在獲得很多新用戶。

用8個(gè)月自研模型,每個(gè)人都睡眠不足

鏡相工作室:為什么你們想要設(shè)計(jì)自己的模型?

Dorogush:文生圖模型有兩種模式,通過(guò)API調(diào)用現(xiàn)有模型,或是訓(xùn)練自己的模型。API調(diào)用只能實(shí)現(xiàn)基礎(chǔ)的文本到圖像轉(zhuǎn)換。這對(duì)靈感工具來(lái)說(shuō)足夠了,但要做專業(yè)工具就不夠用——無(wú)法精確控制元素位置,也無(wú)法保持特定的風(fēng)格一致性,讓模型用你的特定風(fēng)格生成圖像。

我們一開(kāi)始是在對(duì)開(kāi)源模型進(jìn)行微調(diào),但后來(lái)發(fā)現(xiàn)即便付出最大努力,開(kāi)源模型的質(zhì)量還是達(dá)不到用戶預(yù)期,用戶留存率也很低。于是我們決定自己訓(xùn)練模型,我們想讓模型通過(guò)額外的輸入來(lái)實(shí)現(xiàn)控制,讓用戶能夠精確控制位置、風(fēng)格、顏色等元素。

在2024年1月,我們發(fā)布了第一個(gè)自研模型之后,一切都改變了。用戶留存率穩(wěn)定了,他們開(kāi)始持續(xù)使用這個(gè)工具。這讓我們明白,高質(zhì)量的圖像生成能力對(duì)用戶有多重要。

鏡相工作室:你們的自研模型Recraft V3在Artificial Analysis Text to Image Model Leaderboard上獲得了第一名,超過(guò)了Midjourney、Flux和Stable Diffusion??吹浇Y(jié)果時(shí),你和團(tuán)隊(duì)的感受如何?

打開(kāi)網(wǎng)易新聞 查看精彩圖片

Artificial Analysis Text to Image Model Leaderboard排名

Dorogush:那真是太棒了,我和團(tuán)隊(duì)到現(xiàn)在還為此感到非常高興。那是非常艱難的幾個(gè)月,我們計(jì)劃了發(fā)布時(shí)間,給自己設(shè)定了嚴(yán)格的DDL,機(jī)器學(xué)習(xí)團(tuán)隊(duì)、后端以及前端團(tuán)隊(duì)一起工作。但后來(lái)機(jī)器學(xué)習(xí)團(tuán)隊(duì)無(wú)法按時(shí)完成,我們延遲了幾天。沒(méi)法在預(yù)定DDL前發(fā)布模型,讓人壓力非常大。到了發(fā)布時(shí),每個(gè)人都超級(jí)疲憊,睡眠不足。所以在公開(kāi)基準(zhǔn)測(cè)試中獲得第一名,對(duì)團(tuán)隊(duì)來(lái)說(shuō)意義重大。

這個(gè)結(jié)果也改變了我們這次發(fā)布時(shí)的宣傳策略。這次發(fā)布本來(lái)包含幾個(gè)部分,一是從文字到圖像的基礎(chǔ)模型;二是 Recraft 作為世界第一也是唯一一個(gè)長(zhǎng)文本生成模型,它能在圖片中精準(zhǔn)定位內(nèi)容,可以按照你告訴模型的方式,將文本或其他圖像放在圖片的特定位置。(作者注:2024年12月的火山引擎大會(huì)上,即夢(mèng)AI也實(shí)現(xiàn)了圖片中的文字生成。)

我們本來(lái)打算發(fā)布一個(gè)展示文本定位功能的視頻,但當(dāng)模型在基準(zhǔn)測(cè)試中獲勝后,整個(gè)世界開(kāi)始關(guān)注Recraft,我們想,好吧不發(fā)布這個(gè)視頻了,讓我們把重點(diǎn)放在新模型和它測(cè)試中的優(yōu)勢(shì)上。

鏡相工作室:那獲得第一之后,你和團(tuán)隊(duì)能好好休息了嗎?

Dorogush:我們不只有一個(gè)模型,而是一整套模型,有很多預(yù)設(shè)風(fēng)格和功能,除了文生圖,還有圖生圖功能(我們把它叫做微調(diào))、改變圖像長(zhǎng)寬比、局部修復(fù)、外部擴(kuò)展,所以即使在主要模型發(fā)布之后,仍然有很多工作要做。但在主要模型發(fā)布兩周之后,團(tuán)隊(duì)的大部分成員都休息了幾天。

鏡相工作室:公開(kāi)信息顯示你們是一個(gè)很小的團(tuán)隊(duì)。

Dorogush:我們并沒(méi)有那么小,最開(kāi)始只有5個(gè)人,但現(xiàn)在有超過(guò)20人,核心是工程和機(jī)器學(xué)習(xí)團(tuán)隊(duì),我們也有設(shè)計(jì)團(tuán)隊(duì)。現(xiàn)在我們還組建了營(yíng)銷團(tuán)隊(duì),負(fù)責(zé)社交媒體運(yùn)營(yíng)和博客文章。隨著產(chǎn)品發(fā)展和用戶規(guī)模的擴(kuò)大,我們?cè)诠δ荛_(kāi)發(fā)和技術(shù)創(chuàng)新上的人才需求也在不斷增長(zhǎng)。

鏡相工作室:Recraft如何做到讓AI能夠生成帶有長(zhǎng)文本的圖像?

Dorogush:當(dāng)你生成帶有文本的圖像時(shí),只提供提示詞,和提供提示詞加上文本位置,模型看到的數(shù)據(jù)量是不同的。模型獲得的輸入數(shù)據(jù)越多,就越容易產(chǎn)生精確的輸出。因此,我們?cè)噲D給模型提供盡可能多的信息,即文本位置。對(duì)模型來(lái)說(shuō),遵循指令比僅僅理解提示詞要容易得多。

這中間包含了很多不同的模型和工作,比如幫助處理數(shù)據(jù)的模型,由非專業(yè)設(shè)計(jì)師的標(biāo)注人員和專業(yè)設(shè)計(jì)師參與的標(biāo)注工作,訓(xùn)練OCR模型,新構(gòu)建的數(shù)據(jù)集等等。

我們是第一家這樣做的公司。我相信其他模型提供商也會(huì)嘗試構(gòu)建類似的東西,我們對(duì)此很開(kāi)放。我們?cè)敢馀c所有人分享這些信息,所以其他公司可能也會(huì)使用相同的技術(shù)來(lái)生成文本。

作者注:Recraft 團(tuán)隊(duì)在《How To Create SOTA Image Generation with Text: Recraft’s ML Team Insights》中解釋過(guò)他們的訓(xùn)練原理,包括文字生成器和圖像生成器,他們通過(guò)繪制文本布局,來(lái)給模型提供更詳細(xì)的輸入條件,實(shí)現(xiàn)圖像中的文本生成。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

Recraft生成帶有長(zhǎng)文本圖像的流程圖解

鏡相工作室:你知道中國(guó)公司字節(jié)跳動(dòng)最近也發(fā)布了長(zhǎng)文本生成功能的文生圖模型嗎?他們也允許用戶生成帶有中英文文本的圖像。

Dorogush:我不確定有多少公司能復(fù)制(replicate)我們。現(xiàn)在圖像生成領(lǐng)域非常擁擠,有很多公司在微調(diào)Stable Diffusion,通過(guò)API使用現(xiàn)有模型,用戶看到很多工具卻不知道該嘗試哪個(gè)。但實(shí)際上只有少數(shù)幾家公司,包括我們?cè)趦?nèi),真正在從頭訓(xùn)練模型,能夠提供極高質(zhì)量的圖像生成。

對(duì)Recraft來(lái)說(shuō),主要挑戰(zhàn)是要突破這些噪音,讓人們開(kāi)始嘗試它。

鏡相工作室:為什么這么少公司選擇創(chuàng)建自己的模型,是因?yàn)樘y了還是成本太高?

Dorogush:兩者都是。這確實(shí)非常困難,你需要有一個(gè)超強(qiáng)的團(tuán)隊(duì),組建這樣的團(tuán)隊(duì)就很難,而且訓(xùn)練自己的模型也很貴。你要么已經(jīng)是一家大公司,要么需要從投資者那里籌集資金,向投資者證明你有一個(gè)團(tuán)隊(duì),能夠利用這些錢提供世界最好的模型,這很有挑戰(zhàn)性。

鏡相工作室:我們注意到,Recraft生成默認(rèn)是外國(guó)面孔而不是亞洲面孔,而且生成的亞洲人有點(diǎn)不自然。這和數(shù)據(jù)集有關(guān)嗎?

Dorogush:這是數(shù)據(jù)集的偏差。構(gòu)建策略需要優(yōu)化一些東西,否則模型就會(huì)默認(rèn)傾向于它在數(shù)據(jù)集中看到的東西。比如如果你不微調(diào)模型來(lái)生成全身人像,它會(huì)默認(rèn)生成半身像照片,因?yàn)閿?shù)據(jù)集中有太多的人像照片,需要去平衡這一點(diǎn)。

而要做到這一點(diǎn),需要提供指標(biāo)(metric),確保模型在不同方面產(chǎn)生足夠的多樣性,包括面部類型、人物形象等所有方面。

現(xiàn)在我們有一系列質(zhì)量指標(biāo),包括藝術(shù)質(zhì)指標(biāo),解剖學(xué)正確指標(biāo)(作者注:指能夠生成準(zhǔn)確的人體結(jié)構(gòu),比如5根手指),低層次細(xì)節(jié)質(zhì)量指標(biāo)。我們正在建立多樣性的指標(biāo),這對(duì)圖像生成來(lái)說(shuō)是一個(gè)非常重要的部分。但對(duì)于每個(gè)指標(biāo),你都需要標(biāo)注它,讓它正確運(yùn)行。我們正在一步一步地建立它,2025年這些問(wèn)題將會(huì)得到解決。

在找投資上,“我們覺(jué)得很安全”

鏡相工作室:有人說(shuō)Recraft是Photoshop的AI版本。你怎么看這個(gè)說(shuō)法?

Dorogush:是,也不是。我們確實(shí)在為專業(yè)設(shè)計(jì)師構(gòu)建工具,設(shè)計(jì)師會(huì)同時(shí)使用Photoshop和Illustrator,前者用于柵格圖像,后者用于矢量圖像,我們同時(shí)支持柵格和矢量圖像。實(shí)際上對(duì)于柵格還是矢量,局部修復(fù)、微調(diào)、擦除器等操作是一樣的。

不同在于,Recraft以AI為中心。這是一種新的工作方式,AI將開(kāi)始成為設(shè)計(jì)師的首選工具。我不認(rèn)為Adobe會(huì)消失,但越來(lái)越多的新用戶將能夠在沒(méi)有這些工具的情況下工作。

所以我們不是在和Photoshop競(jìng)爭(zhēng),而是為設(shè)計(jì)師提供額外的工具選擇,讓設(shè)計(jì)師更有效地解決任務(wù),獲得更多靈感和可能性。未來(lái)我們希望成為設(shè)計(jì)師的主力工具,讓他們不必頻繁切換軟件。

鏡相工作室:Recraft是第一家生成矢量格式圖像的文生圖模型,Midjourney等模型都不能做到這一點(diǎn),Recraft是如何做到的,這很難嗎?

Dorogush:這的確是個(gè)難題,但我相信如果Midjourney投入大量資源和人才來(lái)解決這個(gè)任務(wù),他們可能會(huì)做到。

矢量格式主要對(duì)設(shè)計(jì)師重要,而普通用戶不太需要,因?yàn)槭噶渴且环N有限制的格式,雖然可以無(wú)限縮放,但無(wú)法呈現(xiàn)復(fù)雜漸變和照片級(jí)的真實(shí)感。所以這其實(shí)是產(chǎn)品定位的問(wèn)題——Midjourney的大多數(shù)用戶不需要矢量功能,但我們的用戶是設(shè)計(jì)師,他們需要。如果投入大量的工作,有意地專注于這個(gè)問(wèn)題,其他公司也可以做到,但對(duì)他們來(lái)說(shuō)可能偏離策略。

鏡相工作室:現(xiàn)在有很多設(shè)計(jì)師擔(dān)心自己會(huì)被AI取代,你接觸到的設(shè)計(jì)師用戶是如何看待AI工具的?

Dorogush:有一種想法認(rèn)為AI取代設(shè)計(jì)師,參與設(shè)計(jì)過(guò)程的人數(shù)可能會(huì)減少,但實(shí)際情況并非如此。AI存在了兩年,設(shè)計(jì)領(lǐng)域并沒(méi)有以任何方式萎縮,人數(shù)還在增長(zhǎng)。有一個(gè)全新的職業(yè)叫做AI設(shè)計(jì)師,在 Fiverr上(一個(gè)自由職業(yè)者在線服務(wù)市場(chǎng)平臺(tái)),AI設(shè)計(jì)師數(shù)量已經(jīng)達(dá)到傳統(tǒng)圖形設(shè)計(jì)師的五分之一。

說(shuō)回用戶,我們的用戶對(duì)這項(xiàng)新技術(shù)非常滿意。他們認(rèn)為自己是第一批創(chuàng)新者,與技術(shù)和行業(yè)一起發(fā)展,為創(chuàng)新感到自豪。他們還認(rèn)為AI非常富有啟發(fā)性,因?yàn)樵谖纳鷪D時(shí),AI會(huì)提供一些意想不到的結(jié)果。他們的效率也因此提升,我經(jīng)常聽(tīng)到這樣的故事,比如一位演示文稿設(shè)計(jì)師分享,現(xiàn)在一天就能完成以前需要一周的工作,他們能夠用AI產(chǎn)出更多、更高質(zhì)量的結(jié)果,獲得更多的報(bào)酬。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

使用的風(fēng)格為Hard Flash,提示詞為“In the snow, a group of friends are having a snowball fight.”

鏡相工作室:版權(quán)一直是AI圖像生成的一個(gè)重要問(wèn)題,包括數(shù)據(jù)集版權(quán)以及生成圖像的版權(quán)。去年在中國(guó)還發(fā)生過(guò)一起訴訟,4名設(shè)計(jì)師將一家圖像生成公司告上了法庭。你們遇到過(guò)這個(gè)問(wèn)題嗎?你對(duì)版權(quán)怎么看?

Dorogush:這個(gè)行業(yè)的法律目前還沒(méi)有完全準(zhǔn)備好應(yīng)對(duì)AI,它的發(fā)展方向取決于公司如何處理它。

比如,如何為AI生成的東西申請(qǐng)版權(quán)。一般邏輯是,申請(qǐng)版權(quán),需要證明你在構(gòu)建一個(gè)角色或你想要申請(qǐng)版權(quán)的東西上投入了大量努力,比如處理圖像的歷史記錄能夠證明,但對(duì)于AI生成圖像,目前還沒(méi)有這樣的規(guī)定。

另一個(gè)問(wèn)題是 AI 與插畫師社區(qū)的關(guān)系。AI行業(yè)沒(méi)有很好地處理這個(gè)問(wèn)題,讓他們產(chǎn)生了很多恐懼和憤怒。問(wèn)題在于公司沒(méi)有與插畫師社區(qū)合作,為他們提供價(jià)值。提供價(jià)值有不同的方式。一種方式是幫助他們實(shí)驗(yàn)自己的風(fēng)格,另一個(gè)方向是補(bǔ)償藝術(shù)家,我們也在這兩個(gè)方向努力。我希望在未來(lái)一年或幾年內(nèi),行業(yè)在這方面會(huì)有所改變,藝術(shù)界的所有參與者,或者說(shuō)整個(gè)藝術(shù)界都能從AI中獲得足夠的價(jià)值,他們也會(huì)對(duì)這一切的發(fā)展感到滿意。

鏡相工作室:下一步,Recraft打算做什么?

Dorogush:我們正在構(gòu)建兩個(gè)部分。一個(gè)是技術(shù),也就是帶有控制的模型。它包含圖像生成,也包括各種用AI進(jìn)行的圖像編輯和設(shè)計(jì)編輯。

現(xiàn)在,行業(yè)和模型、技術(shù)都還沒(méi)有達(dá)到那個(gè)水平,設(shè)計(jì)師要獲得需要的結(jié)果還很難。人們可能覺(jué)得它就是寫一個(gè)提示詞,AI就能產(chǎn)出你想要的圖像。但事實(shí)并非如此。它需要大量的迭代,在很多情況下,這甚至是不可能的。所以我們明年的目標(biāo)是解決這個(gè)問(wèn)題。目標(biāo)是構(gòu)建能夠?yàn)橛脩籼峁┳銐蚩刂频哪P?,讓他們能夠獲得他們需要的結(jié)果。

第二個(gè)部分是工作流程。現(xiàn)在,作為一個(gè)設(shè)計(jì)師,你在使用Recraft,你也在使用其他一堆工具,你要為所有工具付費(fèi),而且要在它們之間切換。我們真的想消除這種情況。我們希望我們的用戶能夠在Recraft中完全解決他們的任務(wù),而不需要來(lái)回切換。

鏡相工作室:現(xiàn)在有更多投資者想投資Recraft嗎?

Dorogush:我們?cè)谕顿Y者方面一直很幸運(yùn),而且我們從一開(kāi)始就證明了自己的實(shí)力。

投資者關(guān)注幾個(gè)方面。一個(gè)是增長(zhǎng),公司在用戶和付費(fèi)用戶數(shù)量方面是否在增長(zhǎng),我們確實(shí)在增長(zhǎng)。另一個(gè)是變現(xiàn),我們最近開(kāi)始變現(xiàn),也有愿意付費(fèi)的用戶。

第三是創(chuàng)新和創(chuàng)新的速度。我們建立了其他公司沒(méi)有的技術(shù),是在圖像生成領(lǐng)域和設(shè)計(jì)領(lǐng)域創(chuàng)新最快的公司之一。我們團(tuán)隊(duì)中有極其有才華的人——有編程世界的冠軍、決賽選手,有國(guó)際機(jī)器學(xué)習(xí)競(jìng)賽的冠軍,這對(duì)公司來(lái)說(shuō)也很重要,它能幫助我們能夠以如此快的速度做到我們正在做的事情。我們基本上滿足了所有條件。

在公司的創(chuàng)建歷史中,來(lái)自世界頂級(jí)風(fēng)投公司的興趣一直很多。一開(kāi)始就是這樣,現(xiàn)在也是。所以我們?cè)趯ふ彝顿Y方面感到安全,如果我們決定需要籌集資金,我相信我們應(yīng)該能夠做到。

(作者注:2024年1月,Recraft完成1100萬(wàn)歐元A輪融資,由 Khosla Ventures 和前 GitHub 首席執(zhí)行官 Nat Friedman 領(lǐng)投,RTP Global、Abstract VC、Basis Set Ventures、Elad Gil 和其他天使投資人參投)