a16z 發(fā)布的 2025 年全球 100 大 AI 消費級應用報告中,Captions 被認為是最會賺錢的 AI 音視頻應用之一。

憑借 AI 生成 3D 虛擬形象、AI 剪輯、AI 對口型等功能,Captions 在 2023 年實現(xiàn)快速增長,僅移動端下載量就超過 1000 萬次。

2024 年 7 月,Captions 獲得了 Index Ventures 領投,a16z 等跟投的 6000 萬美元 C 輪融資,這輪融資后,它的估值達到 5 億美元。據(jù)第三方數(shù)據(jù),其年營收估算高達 900 萬美元。

Captions 目前的用戶數(shù)量超過了 1000 萬(大部分是創(chuàng)作者),月活用戶達到 300 萬,而且這些用戶中很大一部分是付費用戶。在獲得這些成就的同時,它的團隊成員還沒超過 100 人。

打開網(wǎng)易新聞 查看精彩圖片

最關鍵的是,Captions 的競爭對手是 CapCut(剪映國際版)。

Captions 的創(chuàng)立源于創(chuàng)始人 Gaurav Misra 領導 Snap 設計工程團隊的經(jīng)歷。期間他見證了社交媒體視頻的演變——從 TikTok 到 Instagram Reels,再到 YouTube Shorts。他注意到"口播視頻"這類創(chuàng)作者直面鏡頭的新形式正在崛起。2020 年,Misra 離開 Snap,與辭去高盛職務的前同事 Dwight Churchill 共同創(chuàng)立 Captions。

最近兩位聯(lián)合創(chuàng)始人 Gaurav Misra 和 Dwight Churchill 接受了著名科技播客 Colossus、Lenny 的采訪,就 AI 應用如何尋找 PMF、如何做產(chǎn)品增長與功能迭代等進行了深入的探討,F(xiàn)ounder Park 對兩期播客進行了編譯處理。

Founder Park 正在搭建開發(fā)者社群,邀請積極嘗試、測試新模型、新技術的開發(fā)者、創(chuàng)業(yè)者們加入,請掃碼詳細填寫你的產(chǎn)品/項目信息,通過審核后工作人員會拉你入群~

進群之后,你有機會得到:

  • 高濃度的主流模型(如 DeepSeek 等)開發(fā)交流;

  • 資源對接,與 API、云廠商、模型廠商直接交流反饋的機會;

  • 好用、有趣的產(chǎn)品/案例,F(xiàn)ounder Park 會主動做宣傳。

01兩天時間開發(fā),成功的關鍵是抓住了痛點

Colossus:談談你們?yōu)槭裁催x擇在那時(2020 年)開始,業(yè)務是如何發(fā)展的?

Gaurav:我們創(chuàng)辦公司時,第一個推出的應用就是 Captions,它是一個為內(nèi)容創(chuàng)作者打造的視頻創(chuàng)作平臺。

我之前在 Snap 工作過,Snap 曾多次嘗試過類似的事情,但都不算成功。視頻編輯器的商業(yè)化程度很高,你能做的創(chuàng)新幾乎都來自盡可能壓低成本,要在這一領域競爭確實非常困難。

我們最初的想法是通過 AI 來輔助創(chuàng)作視頻,利用這個差異化點,人們才會選擇我們。我們發(fā)現(xiàn)市場上有語音轉文本的需求,那時這個技術已經(jīng)相當成熟,但普通人并不了解它的精準度有多高,尤其是在處理專有名詞和一些冷僻術語時。

所以,我們的第一個產(chǎn)品,核心功能其實是「自動給視頻加字幕」,它是用一個周末的時間臨時拼湊出來的,然后我們就把它放到了 AppStore 上。當?shù)诙煸缟闲褋?,發(fā)現(xiàn)它已經(jīng)沖到 AppStore 榜單的頂端了,而我們沒做任何宣傳。我醒來后,給 Dwight 發(fā)了一條短信,「現(xiàn)在每分鐘人們用這個應用制作 600 個視頻。」

這幾乎是一個瞬間成功的故事。但即便是在周末短短兩天的工作中,我們也將應用設計得足夠好,以便能持續(xù)收集數(shù)據(jù),并且通過這些數(shù)據(jù)不斷訓練更好的模型,來提供更優(yōu)質的用戶體驗。

從第一天起,我們的計劃就是:這是一款AI應用,用戶使用時,數(shù)據(jù)會用來不斷改進模型,從而提升用戶體驗。

隨著時間推移,我們?yōu)閼眉尤肓烁嗟墓δ?,涵蓋了從腳本創(chuàng)作到錄制、視頻編輯,再到視頻分發(fā)的整個領域;AI 在所有環(huán)節(jié)中都發(fā)揮作用,而這些環(huán)節(jié)中都有數(shù)據(jù)可以收集,用來改進模型。

這正是我們的獨特之處,因為其他公司并沒有像我們這樣注重數(shù)據(jù)收集,更多的是只關注生成輸出。因此,他們不得不從互聯(lián)網(wǎng)上抓取數(shù)據(jù)來提升他們的模型。而我們更注重的是通過擴大用戶基礎,讓數(shù)據(jù)能支持模型更好、更精確的發(fā)展。

通過將視頻數(shù)據(jù)直接輸入到視頻生成模型中,為我們帶來了顯著的優(yōu)勢。我覺得這種模式類似于 Facebook 或 Google 的商業(yè)模式——提供一個免費的大眾消費產(chǎn)品,而數(shù)據(jù)則被用來推動 B2B 付費產(chǎn)品的發(fā)展。

Colossus:過去,分發(fā)渠道通常非常貴,但當工具變得好 10 倍、甚至 100 倍時,分發(fā)可能會相對容易,我認為你們就是從中受益的一方。看到收入、用戶以及這一切快速增長是什么樣的感覺?

Gaurav:對于任何做產(chǎn)品的人來說,我覺得沒有什么比看到「我做了一件事,第二天就產(chǎn)生了影響」更激動人心了。我認為我們能做到這一點是因為建立了一個優(yōu)秀的團隊,吸引到很多優(yōu)秀的人才,這使我們有了成功的基礎。

但對我來說,最有趣的部分也許是,你看到市場上的全新領域被解鎖,而這些領域目前沒有任何競爭者

正是這種情況導致了快速的增長:我們在一段時間內(nèi)是唯一可以做某些事情的公司。隨著更多使用場景的解鎖,競爭會逐漸增多,但那可能是幾年后。

至少現(xiàn)在,我們看到的現(xiàn)象是:我們通過解鎖更多的使用場景,激發(fā)了新的市場。到目前為止,我們認為已經(jīng)解鎖的市場還只是 1% 到 5% 的范圍。隨著市場的增長,更多全新的領域會被打開。

是的,他們完全愿意付費,他們蜂擁而至——我們甚至不需要推銷它,而我們是唯一的選擇。這樣一來,增長會非??臁N艺J為,這可能是我最興奮的地方。

02
TikTok 多次想「消滅」我們Colossus:你感覺你們現(xiàn)在和其他公司之間處于軍備競賽中嗎?Gaurav:在某種程度上是的。很多新公司都在出現(xiàn),大家都在做相同的事情。舉個例子,我曾在 Snap 工作,而有其他五個人也從 Snap 離職,嘗試創(chuàng)辦同樣的公司。但我喜歡這一點——因為從某種意義上來說,大多數(shù)人都在模仿我們,這其實是個好兆頭,說明我們做的事情是對的。我們盡量避免過多關注其他公司。我們的產(chǎn)品策略和我們構建的東西,完全是由我們的使命和愿景來決定的,而不是看別人怎么做。別人可能根本沒有一個完整的戰(zhàn)略。我們的重點是專注于我們的北極星,無論是從技術角度,還是從產(chǎn)品和用戶體驗的角度。我覺得這才是最有趣的地方。什么時候我們能有機會從底層到頂層,重新發(fā)明整個技術棧,甚至包括硬件層面的創(chuàng)新呢?比如說 NVIDIA 驅動中的 bug,還有硬件層面的一些問題。我們有機會從根本上重新發(fā)明用戶體驗——人們將如何與這些東西交互。我覺得很多人還沒有意識到這一點。大家只是把模型拿過來,放到 UI 上,然后讓用戶「按一下按鈕,輸出結果」。如果它有更多互動呢?如果你能看到生成過程中的每一步,或者在生成過程中進行預覽,并根據(jù)自己的需求實時調(diào)整呢?還有很多未解鎖的潛力。無論是設計師了解技術,還是技術人員學習市場營銷,這個領域的演進和整合將會更加深刻。這就是我們專注的方向。Dwight:我認為軍備競賽的核心在于,我們要確保提供的產(chǎn)品遠遠超出客戶今天的需求每當我們發(fā)布新功能時,它都會在第一天就直接投入商業(yè)化使用,而不是先與一小部分人測試,看是否真的解決了問題。我們是在為他們的工作打造這些產(chǎn)品。無論是大企業(yè)還是免費的消費者,我們都深度融入他們的工作流程。最終,正如 Gaurav 所說,通過重新發(fā)明設計模式和用戶與新模型互動的方式,我們在鋪設未來工作方式的道路。這就是我認為的軍備競賽,但它并不僅僅是與其他公司之間的競爭。Colossuss:當一個公司被別人當成「敵人」時,它就進入了某種成熟階段。你們是如何應對這個的?Gaurav:當然有。在這種情況下,我們通常會說,「我們只管自己的使命,不去擔心別人做什么?!沟呛芏嗳舜_實關心我們在做什么。我們處于一個競爭與合作并存的位置,和很多社交網(wǎng)絡都有合作關系,因為我們對它們的增長有幫助。我們創(chuàng)造內(nèi)容,而所有社交網(wǎng)絡都需要內(nèi)容。當 Instagram 推出 Reels 時,它們的大部分內(nèi)容搬運自 TikTok,帶著 TikTok 的水印。但在我們的平臺上,我們每天生成成千上萬條沒有水印的內(nèi)容,這些內(nèi)容會被上傳到社交媒體。我們最終成為了許多社交網(wǎng)絡的有價值合作伙伴。從這個角度來看,我們看到了社交網(wǎng)絡格局的變化。很多風險資本家會問:「如果 Facebook 抄襲你們怎么辦?如果 Google 抄襲你們怎么辦?」我認為我們開始看到的現(xiàn)象是,Google 和 Facebook 不再是抄襲公司了;現(xiàn)在 TikTok 扮演這個角色。TikTok 成了 Facebook 曾經(jīng)的模樣,在每一個市場中「捕捉、消滅、摧毀一切」。他們的領導層非常清楚我們的存在,并且他們曾多次嘗試「消滅」我們。值得肯定的是,他們是第一個意識到我們存在的公司。Colossuss:他們試圖「消滅」你們的表現(xiàn)是什么樣的?是單純地抄襲產(chǎn)品嗎?

Gaurav:就是字面上的抄襲我們的 App Store 描述、我們的網(wǎng)站,把這些內(nèi)容一字不差地放進他們的新聞稿,精準復制我們的品牌色,假裝是我們。竟然有這么大的公司采取這種策略,真是瘋狂。

但歸根結底,他們創(chuàng)造的軟件是平庸的;它之所以有效,是因為他們通過 TikTok 擁有了強大的分發(fā)渠道。我認為我們會勝出,因為我們有更好的產(chǎn)品。

03

MVP 模式,每周都有產(chǎn)品迭代

Lenny:作為 Captions 的領導者,面對各類熱點不斷,有沒有新工具、流程或方法,來幫助大家持續(xù)保持專注,避免被每一個新奇事物吸引干擾,從而真正把產(chǎn)品做出來呢?

Gaurav:這關乎漸進性。我們目標就是每周推出產(chǎn)品工程上要求每位工程師每周推出有市場價值的產(chǎn)品——展示給用戶,他們可能僅憑這個產(chǎn)品就訂閱、付費或者使用應用。

像文字處理器里自動排版、文本對齊這種基礎功能,其實不會吸引用戶使用產(chǎn)品。但如果是獨特的功能,就算應用里缺少常見功能,用戶也會因為獨特功能而使用應用,比如忽略它的文本對齊,只是為了使用你在產(chǎn)品中打造的這些新工具和新功能。所以我們力求每位工程師每周推出一個這樣有市場價值的功能。

當然,很多功能可能并不奏效,但也有不少有效。對有效的功能,我們加大投入開發(fā)。人們常抱怨產(chǎn)品剛推出時不完善,確實,我們推出的是極致精簡的最小可行產(chǎn)品(MVP),刪減設計直到產(chǎn)品保留最核心的可用性,然后我們把產(chǎn)品推出。

如果一切順利,人們會使用這個產(chǎn)品,盡管它可能存在各種問題。然后人們會抱怨,我們就會得到一長串問題清單,這樣我們就明確下一步工作方向。所以,這就是一個起點。只要每周推出產(chǎn)品,就會有大量功能、產(chǎn)品及發(fā)展方向涌現(xiàn),之后舍棄大部分,僅對保留的部分進行拓展。這種方法非常有效,能讓團隊保持專注。

Lenny:對很多公司而言,要求每位工程師每周推出有市場價值的功能或產(chǎn)品,聽上去會讓一些人感到壓力巨大,可能也有人覺得這正是理想的工作方式、是公司應有的產(chǎn)品打造模式。那你們?nèi)绾未_保質量,讓所有產(chǎn)品保持連貫一致呢?

Gaurav:大多數(shù)時候,質量是不能妥協(xié)的。雖說在質量上存在戰(zhàn)略性妥協(xié),但通常得設定質量標準,功能應該是可用的。人們常犯的錯是,時間緊迫時,工程師、產(chǎn)品經(jīng)理、設計師傾向降低質量標準,而非縮小產(chǎn)品范圍。

我們采用的方法是縮小產(chǎn)品功能范圍。審視每個需要花費時間來開發(fā)的元素,想想去掉它,產(chǎn)品還能用嗎?重復這個過程,直到去掉所有可去的部分,當再去任何東西產(chǎn)品就無法使用時,這便成為了一周的項目。

這種方法真的很有效,它能讓你聚焦于你真正想要實現(xiàn)的核心內(nèi)容。比如開發(fā)視頻添加圖片的功能,常規(guī)設計流程可能包含從相冊導入、去背景、調(diào)色調(diào)飽和度等。但其實可以去掉背景去除、色調(diào)飽和度調(diào)整等額外功能,只保留核心的從相冊選圖并添加到視頻的功能就夠了,可能只是需要一個包含很多選擇的選擇器,可以從云端甚至硬盤獲取圖片,沒有 UI 也無妨。

如果這個核心功能不可用,基于它構建的其他功能也沒有意義,這就是我們開發(fā)產(chǎn)品的方式。

Lenny:最后一句話對這個過程至關重要。這是在你對某件事投入大量精力之前,先推出小的迭代功能的核心思想,目的是先弄清楚這個功能有價值嗎,它值得花幾周時間去開發(fā)嗎?

Gaurav:完全正確。這種方法最棒的地方在于,用戶使用產(chǎn)品后,最先抱怨的就是最困擾他們的問題。是色調(diào)飽和度、背景去除,還是從云端選圖方面的問題?你會收到關于這些方面的最多抱怨。我們會覺得很好,因為人們直接指出問題,比如「這功能太糟了,連背景去除都沒有,算什么圖片添加功能」。收集這些反饋后,下周更新時就能推出用戶抱怨的功能。

Lenny:這樣一來,用戶就會感嘆:「哇,這團隊更新速度真快,對我的問題回應太及時了!」用戶對產(chǎn)品抱怨,往往是產(chǎn)品與市場契合的常見跡象,因為抱怨意味著他們在意產(chǎn)品,所以說有人抱怨其實是個很好的信號。

Gaurav:非常正確。如果沒有人抱怨,那就意味著一個危險的信號。

Lenny:我非常欣賞每位工程師每周推出有市場價值產(chǎn)品這個方法,這和我們開頭討論的如何在眾多產(chǎn)品中脫穎而出直接相關。答案之一就是不斷推出產(chǎn)品,持續(xù)驚艷用戶,比如推出超棒的新視頻功能,吸引大家目光。

Gaurav:沒錯。我認為這絕對是關鍵,而且有足夠的空間和范圍來實現(xiàn)這一點。在正常時期,可能無法如此迅速地制定出這么多產(chǎn)品規(guī)劃。但我認為,由于背后有如此多的創(chuàng)新,所以才有這樣的空間,產(chǎn)品規(guī)劃似乎是無限的。

Lenny:你們的工程師在多大程度上使用 Cursor 等工具,AI對你們的團隊有多大幫助?

Gaurav:100%! 每個人都在使用,非常有用。而且我們還在使用 Devin,它更高級,可以解決漏洞問題。

Lenny:Devin 的成本是每月 500 美元,就像在 Slack 上與AI工程師聊天。你認為這種 AI 管理者的層級結構會取代傳統(tǒng)管理嗎?

Gaurav沒錯,未來可能會有多個 Devin 協(xié)同工作,甚至有專門的管理者來管理這些 Devin。

Lenny:我在設想,管理者層級結構會逐漸被AI管理者取代,這將是最終的變革。

04

兩條產(chǎn)品路線圖:公開和私密的

Lenny:在你們運營、打造產(chǎn)品的流程或架構方面,還有哪些獨特、有趣且值得他人借鑒學習之處呢?

Gaurav:我們的產(chǎn)品開發(fā)流程很有意思。有設計、產(chǎn)品經(jīng)理團隊,這倆還處在初創(chuàng)階段。還有工程團隊,涵蓋 iOS、安卓、網(wǎng)頁端、后端、機器學習、研究等領域。開發(fā)產(chǎn)品時,通常會采用產(chǎn)品經(jīng)理主導的方式,先明確要解決的問題、涉足的新方向,然后制定產(chǎn)品規(guī)格說明書;有時則相反,在情況不確定的情況下先設計很多不同的內(nèi)容,再與產(chǎn)品經(jīng)理探討并且審視這些設計,挖掘有趣的想法,這常能發(fā)現(xiàn)僅關注指標和數(shù)據(jù)難以察覺的東西。這就像是把流程顛倒了一下,但往往容易找到獨特的想法。

在制定路線圖方面,我們也很獨特。一般公司只有一個路線圖,我們卻分為兩個不同的部分。公開路線圖收集用戶反饋,梳理功能需求,比如背景去除、撤銷重做、上傳長視頻功能等等,依據(jù)影響人數(shù)、市場規(guī)模等因素排序,按計劃逐個實現(xiàn)。但這些功能是競爭對手也都知道的,需求是公開的,難以憑借這個取得決定性優(yōu)勢。

所以我們還有秘密路線圖,上面的功能是從來沒有人提過需求的。給用戶展示,他們可能表示不需要,不會用。但這是基于我們對問題、用戶群體和技術的獨特理解想出的創(chuàng)意,是真正能改變用戶使用產(chǎn)品方式和行為習慣的創(chuàng)意。人們一直用一種方式做事,如果我們能向他們展示另一種方式,并且一旦他們嘗試了就再也回不去,這就是一款成功產(chǎn)品的意義,這就是成功。

我們把這類創(chuàng)意放在秘密路線圖里。這些內(nèi)容我們從不公開討論,也不會告訴任何人,我們直接宣布并把它們呈現(xiàn)給用戶,然后觀察效果。全公司每季度頭腦風暴產(chǎn)生這類創(chuàng)意,涵蓋各個團隊。大家提出想法后投票、排名,產(chǎn)品團隊再考量可行性、技術等許多細節(jié),整合各方信息(如社交媒體熱門內(nèi)容、技術進展),形成一個獨特的內(nèi)部路線圖。思考如何利用這些不同的技術進步來創(chuàng)造價值。這就是我們的總體方法。很多時候,最大的成功往往來自于秘密路線圖,這才是能改變游戲規(guī)則的東西,而不是用戶的常規(guī)需求。

Lenny:我很喜歡「秘密路線圖」這個稱呼,感覺特別有趣。確實,這是個秘密。我不會打聽路線圖上的內(nèi)容。我好奇的是,能否說說從秘密路線圖中誕生的,對你們而言十分關鍵的一個功能是什么呢?

Gaurav:太多了。舉個早期的例子。應用剛取得成功時,最早添加的 AI 功能中有個「眼神交流」功能。很多新手錄制視頻可能照著屏幕外的腳本或提詞器念,效果不佳。我們開發(fā)的這個功能,能讓眼睛看起來像直視攝像頭,而且我們是第一家開發(fā)這個功能的公司,是與英偉達合作完成的這個項目。

最初聯(lián)系英偉達時,他們不太理解這個需求,但出于如何將技術應用到實際產(chǎn)品里感興趣,就很爽快地答應合作。我們發(fā)現(xiàn)了創(chuàng)作者領域這個獨特應用場景,把這個頭腦風暴產(chǎn)生的創(chuàng)意納入計劃并推出,結果大獲成功,展示它的視頻廣告在社交媒體廣泛傳播,幾乎被翻譯成各種語言,至今仍然能有數(shù)百萬瀏覽量,轉發(fā)也能獲得大量瀏覽,因為大家覺得創(chuàng)意很棒。如今很多應用都有了這個功能,這就是秘密路線圖誕生的創(chuàng)意之一。

05

不能為了用 AI 而用 AI

Lenny:現(xiàn)在的技術能夠讓我們打造出以前無法實現(xiàn)的所有東西。但難處在于,讓人們關注并持續(xù)使用產(chǎn)品。畢竟現(xiàn)在打造產(chǎn)品容易,而且各類產(chǎn)品都很棒、有趣。如何讓人們關注并長期使用產(chǎn)品,你有哪些經(jīng)驗可以分享呢?

Gaurav:沒錯,當下確實有很多炒作,在一定程度上推動了不少公司發(fā)展。從用戶獲取和營銷的角度來看,幾年前,如果你的產(chǎn)品很新穎,去推銷,用戶可能不買賬;現(xiàn)在只要說「用 AI 重新打造」,就會吸引很多人嘗試。當然,得兌現(xiàn)承諾,做不到用戶就會流失;做到了,就有機會大規(guī)模獲客。這種情況能持續(xù)多久不好說,但當下確實是一個不同的時期。

我也認為,打造產(chǎn)品的核心是解決問題。有個誤區(qū)就是,很多人誤把產(chǎn)品做得酷炫,以為這樣就能留住用戶。可如果只是建了個「游樂場」,用戶玩一陣就走,算不上生意。所以,解決實際問題始終至關重要。

Lenny:解決人們的問題,說起來容易做起來難,但確實重要。我好奇像你這樣的人,如何做到不被海量信息壓垮,如何明確關注重點并保持專注。對于那些每日面對新熱點,感覺無所適從、被信息淹沒的人,你有什么建議?

Gaurav:這在某種程度上確實是產(chǎn)品開發(fā)的新問題,你可選的路徑、想法太多,可做的事情也太多了。優(yōu)先級排序向來重要,如今更關鍵。

首先必須弄清楚哪些事情是不需要關注的。我們一般通過找用戶需求來確定優(yōu)先級,而檢驗用戶需求最簡方法是看事物的傳播性。人們樂于分享、談論的東西,往往蘊含真正有趣的核心元素。雖說這些元素未必適用于所有方面,可能只是一次性使用場景,無法用于構建訂閱業(yè)務,但能引發(fā)共鳴。識別出該核心元素并融入業(yè)務,是確定有效事項的好辦法。

而且我們現(xiàn)在有這些工具,我們不需要打造任何東西,你只需要談論一下,人們就會分享,分享這個想法。你甚至可以在真正打造產(chǎn)品之前,就衡量出這個產(chǎn)品可能會受到怎樣的歡迎。所以這是我們用于確定優(yōu)先級的一個很好的工具。

我們花了很多時間在社交媒體上。顯然,我們的應用經(jīng)常用于社交媒體,所以我們的很多員工都會花很多時間在社交媒體上。我們會關注有哪些趨勢,正在發(fā)生什么事情?;谶@些,我們可以很好地判斷出哪些東西可能會引起人們的共鳴。

Lenny:感覺你們在維持產(chǎn)品熱度、持續(xù)引發(fā)用戶興趣上做得很棒。畢竟當下新鮮事層出不窮。你們是如何讓人們始終覺得「哇,他們做的東西真有意思」,并一直保持這種有趣感的呢?

Gaurav:關鍵在于不能為了用AI而用 AI,不能只圖興奮、炒作和新奇,而要用能切實解決實際問題的 AI。打造產(chǎn)品的基本原理沒有改變,分三步:明確用戶的問題、運用技術解決問題、找到有這個問題的用戶。做到這三點,在任何環(huán)境都能打造出好產(chǎn)品

現(xiàn)在的不同之處在于技術方面發(fā)生了太多變化,能做出從前做不出的產(chǎn)品、解決從前解決不了的問題,這就是機會。在視頻領域,機會無窮,我們雖然剛開始,但是目標明確,我們不打造專業(yè)工具,不是為專業(yè)人士打造產(chǎn)品,而是面向那些以往因為缺工具、技能或時間無法制作視頻的人,幫他們跨越技能和時間差距,比如沒時間但要成果的企業(yè)主??傊鉀Q的問題還有很多。

Lenny:你們的團隊有沒有和基礎模型公司進行合作呢?AIAgent 有沒有參與到你們的規(guī)劃里?

Gaurav:老實說,我希望能朝著這個方向發(fā)展,但主要因為上下文的問題,目前還沒有實現(xiàn)。理解用戶和應用場景所需的上下文很抽象,即便我覺得我很了解我們的用戶,但我很難確切地用語言表達清楚為什么會這樣。我花了很多時間和產(chǎn)品經(jīng)理、設計師交流,傳授我自己積累的經(jīng)驗也是個挑戰(zhàn),畢竟我自己都很難用語言表達清楚。如此一來,向 LLM 提供這些上下文信息更是難上加難。這是我需努力克服的問題。

以我在 Snap 工作時為例,我認為 Snap 和它的 CEO Evan Spiegel 最獨特的地方之一,就是他對用戶有著無人能及的理解。在公司成立的十年里,沒有人能像他那樣理解用戶。他會提出一些大家都不認同的想法,然后我們推出這些想法所對應的產(chǎn)品,結果卻大受歡迎,一個接一個的成功。大家都會鼓掌稱贊,但沒人知道原因。很多事情都是事后才恍然大悟。比如 Snap 曾宣稱自己是相機公司,遭到大家嘲笑,我們是要做數(shù)碼相機之類的東西嗎?為什么是相機公司呢?實則 Snapchat 打開直接進入相機界面這一微小決定,成了公司的競爭優(yōu)勢。因為當你的朋友正在做一些有趣的事情,你需要立刻捕捉這個瞬間的時候,Instagram 等應用打開不是相機界面,人們就會選擇 Snapchat。Instagram 無法模仿,否則指標會下降。所以這種對用戶的深刻理解,我也是很久后才領會,影響深遠。

06

AI 創(chuàng)業(yè),
先解決有邊界的問題

Colossus:你們是這一波創(chuàng)業(yè)最早AI商業(yè)化的公司之一,在創(chuàng)建 AI 公司的過程中,哪些經(jīng)驗或教訓是與普通軟件公司不同的?

Gaurav:首先需要問的問題是,我們到底在 AI 革命中實現(xiàn)了什么?今天的 AI 和之前的 AI 有何區(qū)別?

現(xiàn)在的這場 AI 革命,核心其實是更大規(guī)模模型的訓練。要做到這一點,我們需要更好的硬件、更先進的機器學習架構:Transformer、Diffusion model 等新型架構的突破;還有一些其他新技術的引入。

事實證明,當我們將模型做得越來越大時,它們能解決更多問題——無論是文本生成、朝著 AGI(通用人工智能)發(fā)展,還是視頻生成、媒體生成等領域的應用。關鍵是,最終重要的因素是數(shù)據(jù);很多公司現(xiàn)在都在抓取互聯(lián)網(wǎng)的數(shù)據(jù),然而互聯(lián)網(wǎng)數(shù)據(jù)總有上限。

從長遠看,我們需要找到可持續(xù)的數(shù)據(jù)源,以支持更大規(guī)模模型的訓練。我認為這是決定哪些公司會在AI領域脫穎而出的根本問題。

對我們來說,專注于視頻生成和視頻編輯,問題就變得非常具體:視頻數(shù)據(jù)比文本或音頻數(shù)據(jù)尺寸更大、更稀缺、創(chuàng)建難度高,因此訓練成本更大。在這個領域,我們面臨的挑戰(zhàn)是,如何創(chuàng)建一個數(shù)據(jù)飛輪,使我們能持續(xù)地獲取越來越多的數(shù)據(jù),進而推動模型不斷壯大,從而保持在技術前沿。

我還想特別指出,當前市場上不同 AI 公司的基本區(qū)別。

以文本生成公司為例,很多公司其實并不單純解決文本生成問題,嚴格來說,它們是在解決一個完全不同的挑戰(zhàn)——智能問題。

智能問題至今沒有被解決。雖然我們在模型中發(fā)現(xiàn)了某種程度上的智能,但距離真正的智能仍有很長的路要走。也許我們永遠無法讓 AI 模型達到人類智能的水平。那么是否有可能有比最聰明的人還要智能的 AI?也有可能。但那是一個我們尚未到達的邊界。

但如果我們看待音頻生成、視頻生成或音樂生成等問題,它們更多的是在解決一個已經(jīng)被「解答」的問題。

以視頻為例,CGI 技術(計算機生成圖像)已經(jīng)存在,我們可以制作虛擬人物、場景。AI 的作用,實際上是讓我們更容易、更高效地解決這些問題——不僅是「稍微」提高,而是提高數(shù)百倍。這意味著,視頻生成技術將變得更加易用,市場也會更廣泛。

這是一個根本的區(qū)別。

我們把 AI 公司分為兩類——一種是致力于解決 AGI 問題的公司,另一種是從事媒體內(nèi)容生成的公司。前者更像是在追逐一個無邊界的智能問題,投入大量資本,訓練出一個好模型,但這個模型很可能很快被下一個更新的模型所取代,而這個過程可能永無止境。

但如果是從事媒體生成的公司,它們創(chuàng)造的實際上是一個資產(chǎn),而且很可能很快就會達到一個「足夠好」的水平,甚至接近完美。到那時,技術就是一個穩(wěn)定的資產(chǎn),開發(fā)成本巨大,但一旦存在,它將持續(xù)創(chuàng)造價值,并且不會輕易貶值。

那哪些因素會讓這些模型越來越好呢?我認為,首先是更多的數(shù)據(jù)精細調(diào)優(yōu),針對具體的應用場景(比如廣告、電影、社交媒體等)進行優(yōu)化。

但也許在不久的將來,技術會達到一個「非常好、非常真實」的水平。我們現(xiàn)在正在思考的一個重要問題是,如何啟動數(shù)據(jù)飛輪,推動技術達到那個階段。

Colossus:想象力與輸出之間的代溝已經(jīng)不存在了,唯一的問題是成本。所以,實際上你們的目標就是降低成本。你認為這一目標何時能夠實現(xiàn)?

Gaurav:很多人都看過威爾·史密斯吃意大利面的視頻 meme,它很快就從非常糟糕變得質量非常不錯。

我覺得大概一年到一年半的時間,視頻生成的內(nèi)容就會達到「非常真實」的水平。將文本模型與視頻模型作比較,文本模型的規(guī)?,F(xiàn)在已經(jīng)進入了 4000 億參數(shù)的范圍,人們已經(jīng)更好地理解如何擴大語言模型的規(guī)模,而擴散模型的參數(shù)規(guī)模仍然只有幾十億,還遠未達到文本模型的水平。

但隨著技術的進步,視頻模型毫無疑問會越來越好。而且專家們已經(jīng)知道如何去優(yōu)化,只是很少有公司擁有足夠的資金和專業(yè)知識來實現(xiàn)這一目標。所以這是一個需要時間的問題,而非一個沒有解的問題,我們會看到這些模型變得越來越好,特別是在視頻領域。

Dwight:視頻模型對視覺工作的影響——重塑工作流程、更新設計思維等方面,實際上涉及的是設計問題和產(chǎn)品問題的結合。雖然目前仍處于非常早期的階段,但我認為,我們離徹底改變?nèi)藗內(nèi)粘9ぷ鞣绞降臅r刻已經(jīng)不遠了。

Colossus:你們的AI模型訓練的具體過程是什么樣的?模型訓練的目標是什么?這與「預測下一個 Token」有多相似或不同?在視頻中,所謂的「預測下一個 X」是如何工作的?

Gaurav:我們訓練的模型是擴散模型(Diffusion Model)。這些模型的訓練方式是從噪聲開始(字面意義上的噪聲),就像你在電視上看到的靜態(tài)圖像一樣。在每一步中,根據(jù)提供的文本,模型會查看噪聲,并嘗試在噪聲中預測出一個清晰的圖層。例如,「穿藍色襯衫的男人」,于是模型開始從噪聲中繪制出一個穿藍色襯衫的男人。隨著模型訓練的每一步,它會不斷揭示出「穿藍色襯衫的男人」更多的細節(jié)。這就是文本條件化(text conditioning)幫助它決定如何達到「穿藍色襯衫的男人」這個目標的方式。

我們?nèi)匀惶幱跀U散模型訓練的早期階段,目前我們處于數(shù)十億參數(shù)的范圍內(nèi)。Meta 的 MovieGen 模型大概有 30 億個參數(shù)。

但很多工作都集中在這些模型的擴展上。與文本不同,視頻本身很大,它消耗的空間和訓練所需算力都非常龐大。我們光下載視頻的費用就可能達到一百萬美元,它帶來了不同的挑戰(zhàn)。

Colossus:視頻模型相對于文本模型在資源上的上限如何?在風險投資領域,人們有一個重要討論就是GPU集群的規(guī)模需要多大。為了讓視頻模型達到完美的程度,它們是否比文本模型更消耗 GPU 資源?

Gaurav:它實際上是比文本更容易解決的問題。文本問題涉及的是智能,而視頻問題更多的是渲染,而我們已經(jīng)知道渲染的成本。

那么,我們是否能做得更高效呢?這是可能的。今天的視頻渲染模式可能不是最有效率的,或許 AI 的渲染比常規(guī)渲染更便宜、更快速。

盡管現(xiàn)在還是初期階段,但我們大致了解它應該往什么方向發(fā)展,現(xiàn)在我們不需要做上百次的擴散就能得到一個清晰的圖像,隨著技術的提高,擴散模型的成本效率可能會高一個數(shù)量級,例如 10 倍。

Colossus:我很喜歡你之前對智能的無界問題和視頻等有界問題的框架劃分。

Gaurav:我認為這個框架同樣適用于技術領域。即使在文本處理方面,你也可以把它應用到某些有界的問題上解決。

比如,我們是否需要通用人工智能來解決編碼問題?不一定,因為它所做的事情本質上就是在翻譯。想想計算機的演變過程。我們過去曾經(jīng)使用穿孔卡片,后來寫匯編語言。然后我們寫 C++,接著出現(xiàn)了像 Python 這樣的現(xiàn)代編程語言。

然后我們就可以說,「新的編程語言就是英語?!惯@并不是一個瘋狂的跳躍。它其實是一個非常有界的問題——本質上是在發(fā)明一種新的編程語言,而且這種語言對人們來說更加易于理解,因為大家本來就已經(jīng)懂得它。

07

專注「角色生成模型」,更容易達到 PMF

Colossus:在構建產(chǎn)品過程中,你們做出了哪些權衡?視頻是一個很大的類別,既有《指環(huán)王》級別的電影,也有普通視頻內(nèi)容。

Gaurav:我們有意識地將目標范圍縮小了很多,正如你所說,視頻涵蓋的范圍太廣,問題也太多,我們不可能解決所有問題。所以我們的重點是圍繞「交流」來制作視頻,這些視頻的主要是內(nèi)容是人物口播。大部分內(nèi)容傾向于營銷、銷售、教育,或者培訓。

我們要做的是制作能夠講述真實故事的視頻,不只是「兔子在火星上跳躍」之類的內(nèi)容。我們的目的是講述故事、推銷產(chǎn)品,或表達其他需要溝通的信息。

這使我們在產(chǎn)品與市場契合度(PMF)上有很大潛力。我們是目前唯一一家訓練「生成角色」這一類基礎模型的公司。盡管市場上有其他公司,但他們并沒有訓練基礎模型,所以我們將對這個領域未來的發(fā)展拭目以待。

Colossus:目前這些模型能做的,或者在一年后可能能做的,有哪些限制?比如說,人與物品的互動。

Gaurav:我認為在六個月內(nèi)就會實現(xiàn),我們很快就會看到這一技術的初步版本。

Colossus:那是怎么運作的?是通過某種方式創(chuàng)建這個物體的 3D 表現(xiàn)嗎?要創(chuàng)造這樣的效果,需要哪些步驟?

Gaurav:你得找到已有的人與物體互動的視頻——比如一個人在喝罐裝可口可樂,然后你要識別這些物體,并用它們作為條件輸入。

以 Fiji 水瓶為例,它有一個非常獨特的設計。除非模型之前見過這個瓶子,否則它可能無法準確地復現(xiàn)它,僅用文本描述可能不足以傳達它的外觀。所以你可以使用圖像來做提示:「這是一個 Fiji 水瓶的圖片」,然后附加文字說明:「穿藍色襯衫的人拿著 Fiji 水瓶?!鼓P蛯⑼ㄟ^這些信息推測出其他細節(jié)。

因為模型已經(jīng)看過瓶子,所以當你給出這個瓶子某個角度的圖片,它可以推測出從另一個角度看起來的樣子。如果你旋轉它或移動它,模型也能猜測它從其他角度的樣子,準確度相當高。當然,如果我們提供多角度的瓶子圖像,這能進一步提高準確性。

Colossus:你認為隨著生成這些視頻的成本和門檻降低,它們的價值會如何變化?你們所做的事情是否會引發(fā)其他連鎖反應?

Gaurav:回顧 2010 年代,那是設計大發(fā)展的階段,不僅 Canva 和 Figma 在那個時期出現(xiàn),還有很多公司在做「只需點擊幾下就能制作精美網(wǎng)頁」這類工具,而且它們都不是 AI 驅動的。

那是一個大規(guī)模的趨勢:如果你想在互聯(lián)網(wǎng)上賣東西,或者經(jīng)營任何業(yè)務,你就需要一個設計得很漂亮的網(wǎng)站;如果你的網(wǎng)頁看起來像是 90 年代的產(chǎn)物,沒人會買任何東西。

Dwight:我覺得現(xiàn)在這類網(wǎng)站又回潮了。

Colossus:是的,所有的東西都是周期性的。

Gaurav:視頻是最近十年發(fā)展起來的,我們將看到越來越多的人采納它,因為視頻生態(tài)中的創(chuàng)作者比例會增加。

所以我并不認為視頻的價值會下降,如果你想做營銷或者銷售,擁有高質量的視頻是必須的。但我認為視頻的其他方面將變得更加有價值。

舉個例子,肖像的生成。如果模型可以隨意生成不存在的人的肖像,而這些虛擬人看起來非常好,適合代表你的品牌——你可以擁有這個虛擬人的肖像作為公司知識產(chǎn)權,讓他成為公司的代言人。

但這意味著普通肖像的價值會降到零,因為任何人都能憑空創(chuàng)造一個肖像。所以,這對肖像的成本或者在高端領域的影響會是什么?我認為這會取決于誰更出名——那些廣為人知的肖像,現(xiàn)在會變得更有價值。

Colossus:這些技術有哪些限制?

Gaurav:我們都看過視頻模型在處理人物時的困難。

Colossus:手指。

Gaurav:對,手指。還有手臂。

Dwight:喝水。

Gaurav:運動。

Colossus:吃意大利面。

Gaurav:我們采取了一種獨特的角度,專門訓練模型來生成「人」。我們的數(shù)據(jù)全是關于人的,我們專注于生成人的視頻。我們也計劃使用「條件輸入」技術——例如提供一個骨架:「這是我想要你表演的 TikTok 舞蹈。」模型就會完成它。

這使模型更好地學習人體結構,了解什么是正常的,什么是不正常的。有時候模型會生成 6 個手指的人,這種情況確實存在。當然,這并不是因為訓練數(shù)據(jù)造成的,而是它可能并沒有見過足夠多、各種配置下的手,去理解所有的細節(jié)。所以,我們的目標是解決人物生成的問題。

Dwight:稀缺性也是一個關鍵點。一部邁克爾·貝的電影:有 2.5 億美元的預算,可以在電影里把洛杉磯的一半都炸掉,但是像變形金剛這樣的大片,票價也只有 25 美元。

低預算電影,如果能進院線,它的票價也是一樣的。

所以我很期待能看到低預算的電影制作人和視頻創(chuàng)作者可以制作更多、更復雜的內(nèi)容,不再受預算的限制。這對電影制作人和創(chuàng)作者來說,是一個巨大的突破。這會幫助視頻制作人們提高創(chuàng)作水平。

08

最適合基礎模型的商業(yè)模式是什么?

Colossuss:你認為AI產(chǎn)品在未來如何定價?2500 億美元的埃森哲(咨詢公司),它是靠出售昂貴而重要的勞動價值。你認為 AI 應用程序會將勞動預算取而代之,還是最終會像所有軟件一樣定價?

Gaurav:我不確定我們完全理解這個問題。某種程度上,現(xiàn)在去判斷還太早,因為我們無法完全替代工作流中所有不同環(huán)節(jié)的勞動,我們還不知道人們愿意為此付出多少錢。我們現(xiàn)在可能只處于使用案例圖譜的 3% 或 5% 的地方——非常早期,我們還無法完全取代一些操作性繁重的公司流程。但我們會慢慢去實現(xiàn)這一目標。

一個大問題是,ToC 和 ToB 的定價如何劃分?我認為 ToC 定價已經(jīng)相對明確,趨向于訂閱制,而且似乎人們愿意付出比以前更多的費用。

例如,AppStore 或 Web 應用中的視頻相關應用,歷史上價格大約在每月 7.99 美元到 12.99 美元之間。這是正常的免費增值模式。但是很長一段時間,我們沒有免費產(chǎn)品。

在以前,這是行不通的,人們會說,「我不想付錢,」然后轉向下一個產(chǎn)品?,F(xiàn)在,人們的付費意愿更高,AI 視頻生成產(chǎn)品的價格范圍各不相同,但有些人甚至愿意為消費者訂閱支付每月 2000 美元。

在 ToB 端,一大問題是企業(yè)是否會購買基于授權數(shù)據(jù)訓練的模型,他們對這種模型有一定付費意愿,但這個問題尚未確定。我計劃全面授權,我們大規(guī)模收集數(shù)據(jù),因此可以訓練完全授權的模型,這是我們獨特的優(yōu)勢。

我的感覺是,在最終階段,擁有完全授權的模型會變得很重要,因為你可以輕松地贏得交易,人們會為這種保證和授權的聲譽支付更多費用。

除此之外,真正的問題是你能夠涵蓋多少個使用場景。我們今天覆蓋了 5%,但最終可以覆蓋多少場景?我的猜測是,我們可以做到接近 100%,因為這是一個已解決的問題。

Dwight:目前熱議的話題是基于產(chǎn)出的定價,但我認為,大家可能想得太超前,可能仍然有更多的「超額利潤」可以從傳統(tǒng)訂閱方式中獲取。不過這當然是很酷的,我相信我們會找到某種均衡點。

Colossusss:我想談談商業(yè)模式?;A模型公司面臨兩個問題:巨額的模型預訓練成本和巨額的推理成本。僅憑 20 美元/月的訂閱費用,毛利率都是負的。雖然推理成本在過去 18 個月內(nèi)已經(jīng)下降了 100 倍左右。

AI模型公司會說:「這是一個無止境的競爭,我每次都得花 10 倍的錢去做下一個東西,那我什么時候能賺錢?」似乎解決更有邊界的問題的公司,會有相對正常、優(yōu)秀的商業(yè)模式,有更高的毛利率,你怎么看這個問題?

Gaurav:我們對于公司業(yè)務的思考方式是,解決某個問題會有一個有界限的成本,可能是數(shù)億美元,它可以讓我們得到一個合理的解決方案——能夠生成任何一個 CGI 工作室可能做的東西。我們現(xiàn)在需要的就是這個水平。

基礎模型會繼續(xù)發(fā)展嗎?會的。

我們需要對模型進行微調(diào),但微調(diào)比從零開始訓練一個基礎模型便宜得多。

我們構建了一個數(shù)據(jù)飛輪機制:用海量數(shù)據(jù)來持續(xù)訓練模型(后訓練),讓它能夠感知今天發(fā)生的事情,以及人們今天可能想生成的內(nèi)容。但這只是增量微調(diào),成本相對較低,這構成了業(yè)務的基礎。

此外,推理成本正在下降,AI 公司將越來越像傳統(tǒng)軟件公司。能真正解決某個問題的公司將會擁有一段時間的護城河,我們同時也在建設數(shù)據(jù)護城河,以便始終保持領先。

然后,一旦足夠多的數(shù)據(jù)出現(xiàn),并且足夠多的公司獲得更多資金,嘗試相同的打法,并訓練模型,這就會變成一場軟件競賽。

構建工作流,打造產(chǎn)品,進入各種各樣的應用場景,我認為這才是未來競爭的焦點所在。

隨著時間的推移,必定會出現(xiàn)真正的贏家,贏家將由誰擁有最佳的模型來決定,這個模型能持續(xù)超越所有其他模型;而模型的能力受數(shù)據(jù)獲取,以及它所產(chǎn)生的飛輪效應的影響,這會不斷提升模型的能力。

從本質上講,你可以想象有一系列基礎模型,能解決跨越視頻甚至其他媒體的整個工作流所面臨的問題。包括各種不同類型的應用場景,比如電影、電視、短視頻、配音、后期制作——有很多不同的潛在應用場景。

Dwight:我考慮的是,最終這些業(yè)務的成熟階段會是什么樣子。我相信,這些業(yè)務可以變成非常高毛利的公司,無論是由于 GPU 價格的下跌,還是計算需求本身的下降。

歷史上,隨著一個新技術的發(fā)布,它的價格基本都會快速下降,因為其商業(yè)模型就是通過讓技術變得更高效、更強大等方式來降低某種服務或功能的價格。

有趣的是,當你處于初創(chuàng)階段,真正的問題并不在于盈利或虧損,而是你是否能夠得到足夠的數(shù)據(jù)來保持模型前進,保持業(yè)務增長,能夠更有效地開發(fā)新功能,迎合更多的客戶需求。我認為這才是我們真正面臨的挑戰(zhàn)。

09

創(chuàng)業(yè)公司應該多背負技術債務

Lenny:對于耗時數(shù)周的長期項目,以及像后端工作這類基礎設施方面的事務,你們是如何處理的?能否講講對長期項目的考量,以及怎樣開展那些用戶不太關注的后端工作?

Gaurav:沒錯,通常我們會專門安排時間處理這類事務。比如,對我們而言,第四季度一般是基礎設施建設季,會集中精力打造各類基礎設施。第四季度一般來說,我們已經(jīng)推出了大量產(chǎn)品,對這一年的其他時間的工作也感覺很不錯。事情逐漸進入收尾階段,顯然節(jié)假日也快到了。所以我們會花所有時間來償還技術債務。

實際上,我認為在技術債務這個問題上有一個獨特的思考角度。作為一家初創(chuàng)公司,你的任務就是承擔技術債務,因為這是你比大公司運營得更快的方式。大公司不會承擔技術債務,他們通常會立即償還,或者他們正在償還自己在初創(chuàng)時期積累的技術債務。而且他們當時積累了很多。像我在 Snap 工作時就有不少這類情況,其他公司想必也如此。

我們會思考:這是當下必須解決的問題,還是能讓第 50 名、第 100 名或第 500 名工程師解決的問題?如果能交給未來的工程師,就將問題后置,實際上,我們就是這么做的。如果公司失敗了,那個工程師也永遠不會被招聘進來,那么所有這些也就無關緊要了。從很多方面看,技術債務類似財務債務,承擔財務債務能創(chuàng)造杠桿效應,比如貸款買房,能買到超出當前支付能力的房產(chǎn)。同理,戰(zhàn)略性承擔技術債務,能讓小團隊做出原本做不出的產(chǎn)品,是積極有益的

Lenny:哇,這個想法太酷了。我想到的是,那個未來的工程師可能是一名AI代理工程師。專門解決問題,正好符合你的思路。

Gaurav:完全正確,多年后的第 500 名工程師可能會因為解決了那些早期不太出色的工程師遺留下來的大問題而獲得晉升。

Lenny:顯然,這是有界限的,你肯定不想承擔過多的債務,不然就會引發(fā)大問題。關于如何把握這個平衡,比如承擔多少債務算過多,以及怎樣判斷是否已經(jīng)足夠用于核心功能的工程開發(fā),你有什么想法嗎?

Gaurav:一般而言,經(jīng)驗法則是承擔的每筆債務都要付「利息」。采用快速開發(fā)方式承擔債務,每天會有 1% - 2% 的時間用于處理因之產(chǎn)生的漏洞、問題、重啟和崩潰等狀況。如果債務實在太多,每天可能 80% - 90% 的時間都耗在這些事上,就沒時間開展新工作,只能支付「利息」,這是初創(chuàng)公司失敗的原因。某種程度上存在一條技術債務的「跑道」,一旦債務過重,而且在相應時間內(nèi)沒有創(chuàng)造足夠價值聘請工程師支付「利息」或償還債務,就會陷入困境。

Lenny:我喜歡這個觀點。這是一個很好的啟發(fā),讓我們知道什么時候該對某件事進行投入。有時候你必須做出一些重大的技術決策,可能會影響到未來所有產(chǎn)品的構建方式。對于這些決策,你會花更多時間去認真考慮。

Gaurav:是的,我認為只要這個決策是可逆的(雙門決策),你就可以按自己的想法去做。這是一種經(jīng)典的方法,如果這是一個不可逆的(單門決策),那就值得認真思考,并且盡可能正確地做出決策,至少要考慮到這個不可逆的決策在未來對你的重要程度。

10

產(chǎn)品經(jīng)理應該懂營銷

Lenny:說回 Snap,社交網(wǎng)絡領域中,除 TikTok 外,Snap 基本是最后一個成功推出且站穩(wěn)腳跟的,而我認為 TikTok 更像內(nèi)容平臺,人們互動較少。Snap 于 2011 年推出,距上一個成功的社交網(wǎng)絡已過去約 15 年。除了 Evan 的智慧,從宏觀角度看,你認為 Snap 成為成功的面向消費者的社交網(wǎng)絡的核心因素是什么呢?

Gaurav:Snap 有幾個方面表現(xiàn)出色。社交網(wǎng)絡方面,核心產(chǎn)品與市場的契合度能達到很高水平。從根本上講,人們下載它的原因、它的傳播、用戶邀請朋友或者發(fā)送快拍的方式等等,這種產(chǎn)品與市場的契合度有時候會非常高,以至于實際開發(fā)產(chǎn)品變得很困難,因為你很難判斷你正在開發(fā)的東西是推動了產(chǎn)品的增長,還是實際上在阻礙它。

基本上,你不知道產(chǎn)品的增長是不是與你所做的工作無關,甚至會讓人學到錯誤經(jīng)驗,錯把反常規(guī)的做法當成正確的,即便公司仍在增長。

我認為 Snap 做得好也是它需要做好的,就是持續(xù)創(chuàng)新。面臨激烈競爭,而且社交網(wǎng)絡有壟斷性,F(xiàn)acebook 等很多公司也曾試圖阻止 Snapchat 發(fā)展。而 Snap 避免被壓制的辦法就是創(chuàng)新。其核心在于獨特架構,公司 CEO 注重產(chǎn)品,而且自己就是設計師,組建了核心設計團隊,只有 10-12 個人,規(guī)模相當小,即便公司五六千員工時,設計團隊規(guī)模依然最小。

Lenny:Snap 在有五六千名員工的時候,設計團隊只有 10 到 12 人?而且在很長一段時間里都沒有產(chǎn)品經(jīng)理?

Gaurav:Snap 最初沒有產(chǎn)品經(jīng)理,隨著公司重視盈利,產(chǎn)品經(jīng)理才被引入并發(fā)揮作用,如今各部門都有足夠數(shù)量的產(chǎn)品經(jīng)理。在很長一段時間,尤其創(chuàng)新階段,公司粉絲少,而且公司由設計師主導。但這些設計師不普通,他們還承擔著產(chǎn)品經(jīng)理的職責,這是關鍵。他們身兼設計和產(chǎn)品管理雙重任務,責任重、工作量大,卻讓 CEO 能精細把控應用推出內(nèi)容和位置。因為 CEO 可以和這 10 到 12 名設計師會面,了解每個影響用戶的變化。

當時公司有很多改進工作,比如基礎設施、后端、優(yōu)化排名和性能提升等,不過 CEO 主要關注應用添加的 UI。添加 UI 需要設計,但公司除這幾個能直接與 CEO 溝通的設計師以外沒有其他設計師,這使得公司對推出內(nèi)容把控細致。所有內(nèi)容都需 Evan 批準,未經(jīng)批準不會發(fā)布,所以設計團隊在這方面權力很大。

Lenny:在 Snap,有設計師承擔產(chǎn)品經(jīng)理職責這個亮點??赡芎芏嗳藭X得,那只需聘請設計師就行,傳統(tǒng)產(chǎn)品經(jīng)理只會拖后腿、一味說「不要做什么」。你能否講講這些設計師的能力水平,是什么讓他們在沒有產(chǎn)品經(jīng)理的情況下也能如此成功呢?

Gaurav:是的,當時對設計師的要求不止于設計技能。他們都是無下屬的獨立貢獻者(IC)設計師,所有設計工作親力親為。此外,他們還得有領導能力,能制定路線圖、撰寫文檔,與不同團隊協(xié)作確定發(fā)布計劃,不僅要懂技術工程,還要熟知用戶體驗(UX)、用戶界面(UI)和產(chǎn)品需求,明確做事目的并牢記路線圖,需考慮的事情繁多,工作量極大,這些人工作十分努力。并且他們薪酬豐厚,比一般設計師、產(chǎn)品經(jīng)理或工程師的薪酬高很多,還有季度獎金等各類福利。

而且他們的薪酬也很高。我記得,他們的薪酬比你想象中設計師、產(chǎn)品經(jīng)理或工程師的薪酬要高得多,還有季度獎金之類的各種福利。

Lenny:這很有意思。人們會想為什么沒有產(chǎn)品經(jīng)理呢,畢竟產(chǎn)品經(jīng)理的工作總得有人做,他們并非閑著沒事。要知道,承擔產(chǎn)品經(jīng)理工作的人,得既擅長又熱愛這份工作??珊芏嘣O計師并不想做撰寫文檔之類的,還要協(xié)調(diào)利益相關者并達成共識。

Gaurav:完全正確。這就是為什么很難找到既能夠做設計又能承擔產(chǎn)品經(jīng)理工作的人。實際上,我認為融合不同職能的技能,往往能催生創(chuàng)新,一人身兼兩職或具備相應能力時會有其獨特意義。

以我在 Snap 的經(jīng)歷為例,起初我在工程團隊,最后兩年加入設計團隊,期間創(chuàng)建了「設計工程」職能,即設計師兼工程師,這類人既能構思用戶體驗、完成設計,又能構建發(fā)布產(chǎn)品。我們讓設計師學工程,工程師學設計,目的是在公司規(guī)模擴張時維持創(chuàng)新。

隨著公司工程師從 500 名增長到 3000 名,做事變得困難,項目耗時久、資源投入大,創(chuàng)新試錯成本高。尤其是像 Snap 這樣的公司,因為大家都在模仿它的做法。Evan 并不抵制那些被抄襲的東西,他更多追求擴大市場份額,所以必須不斷創(chuàng)新,創(chuàng)造新的東西,突破界限。于是我們組建小團隊,由設計工程師快速搭建產(chǎn)品早期版本,嵌入 Snapchat 應用,在澳大利亞或幾所高中測試,獲取產(chǎn)品表現(xiàn)數(shù)據(jù),類似初創(chuàng)公司開發(fā)產(chǎn)品的流程,之后再與工程團隊合作規(guī)?;_發(fā)。

這一過程產(chǎn)生了意外好處。在大型組織中,達成共識是難題,產(chǎn)品經(jīng)理重要職責就是促成共識,這工作量很大,因為你要與所有利益相關者溝通,讓他們達成一致。而我們發(fā)現(xiàn),公司規(guī)模大時可通過內(nèi)部傳播達成共識。如果你和某個人分享一些有趣的東西,他們會因為覺得有趣而分享給其他人。我們創(chuàng)建原型產(chǎn)品分享,在公司內(nèi)部引發(fā)傳播,工程師、經(jīng)理等紛紛關注,所以這是一個很好的方法。一旦我們真正了解到這個產(chǎn)品確實有良好的動態(tài)效果,并且我們已經(jīng)進行了測試,這就是一個很好的方式,讓所有人都了解這個產(chǎn)品,并營造出一種「嘿,我們都在朝著這個未來努力」的氛圍。

Lenny: 不少公司都是這樣,比如 Stripe,在聘請第一位產(chǎn)品經(jīng)理前就有數(shù)百名工程師,工程師承擔著產(chǎn)品經(jīng)理的工作,Snap 也是如此。但感覺你的公司不是這樣運作,而是有傳統(tǒng)的產(chǎn)品經(jīng)理、工程師、設計師。能講講為什么決定不采用那種模式嗎?

Gaurav:我確實認為產(chǎn)品經(jīng)理是一個非常有價值的職能。但我認為在 Snap 不聘請產(chǎn)品經(jīng)理可能是一個成功決定,但畢竟相關工作總得有人做,否則無人負責,事情難落實,也缺乏問責機制,這不是合理架構。

話雖如此,設計師如果有產(chǎn)品經(jīng)理思維,就有獨特的優(yōu)勢,同理,工程師具備產(chǎn)品經(jīng)理思維也是一樣。進一步看,產(chǎn)品經(jīng)理如果兼具設計和工程思維,那就更好了。我覺得核心在于,每個人都要全面、基礎地了解自己工作涉及的所有職能。

在 Captions,我們甚至更進一步。為什么產(chǎn)品經(jīng)理不應該了解市場營銷呢?找到有產(chǎn)品所針對問題的用戶,是產(chǎn)品經(jīng)理的關鍵工作。從某種程度上講,產(chǎn)品經(jīng)理應負責到市場營銷環(huán)節(jié)。因為市場營銷是拓展產(chǎn)品覆蓋范圍,比如搜索營銷、臉書廣告,從用戶點擊應用的按鈕開始,所有的數(shù)據(jù)就產(chǎn)生了,開啟了整個用戶旅程,這和產(chǎn)品工作所需技能相似,理解這一節(jié)點的用戶至關重要。

所以我的核心觀點是:各職能部門應盡可能深入了解其他職能,甚至具備相應工作能力。這樣,公司在微觀層面做出的所有決策,就更有可能針對不同人負責的整個業(yè)務流程的各個環(huán)節(jié)進行優(yōu)化。

Lenny:我十分認同。Irene Lee 因為將所有產(chǎn)品經(jīng)理頭銜改為產(chǎn)品營銷經(jīng)理而知名,原因就在于她認為產(chǎn)品經(jīng)理不僅要打造產(chǎn)品,還應負責營銷。對我而言,產(chǎn)品經(jīng)理的工作就是推動產(chǎn)品發(fā)展,被用戶接受并受到喜愛。可人們并非都這么想。

顯然,掌握付費增長、SEO、產(chǎn)品營銷、信息定位等技能并非易事,但這確實是打造產(chǎn)品的關鍵。打造產(chǎn)品不能僅做出產(chǎn)品就聽之任之。我想你招聘產(chǎn)品經(jīng)理時,會尋找有營銷直覺和相關經(jīng)驗的人。

Gaurav:完全正確。至少要具備學習這些的能力和直覺。

Lenny:我在思考產(chǎn)品團隊里產(chǎn)品經(jīng)理、工程師、設計師構成的三角關系。在 Snap,似乎利用了這個三角的邊,比如有設計工程師,還有設計兼產(chǎn)品經(jīng)理。我猜工程師本身也挺有產(chǎn)品導向,近似產(chǎn)品經(jīng)理。那你們有設計工程師兼產(chǎn)品經(jīng)理這種職能嗎?

Gaurav:我覺得工程師兼產(chǎn)品經(jīng)理應該是一種常見的模式,或者說每個工程師都應該努力去理解產(chǎn)品。

11

如何應對一個全是 AI 生成視頻的時代?

Lenny:感覺我們快到或者已經(jīng)到了這種情況:難以分辨視頻是真實還是AI生成的。我很好奇,一是你覺得我們離這種情況還有多遠?二是在一個可以生成任何你想要的視頻的世界里,會有哪些影響?

Gaurav:歸根結底,其實視頻、圖像、音頻無法被信任的時代已經(jīng)存在一段時間了。以前還沒有視頻、音頻或圖像,大多數(shù)情況下,事情都是靠「他說、她說」來證明。如果所有內(nèi)容都能生成而且真假難辨,那么我們可能真的會回到那個舊時代。

我覺得這既可怕,又帶來解決問題的新機會。目前創(chuàng)造完全逼真的視頻已很接近,一些前沿模型差一點就能實現(xiàn),但完全無法區(qū)分真假可能還需要幾年,而且受應用場景驅動。就拿 Captions 公司來說,我們對想要專注的視頻類型有獨特的看法。當下視頻生成大多是無聲、類似備用鏡頭的視頻,很多電影、電視劇、社交媒體帖子或廣告,實際上都包含對話或獨白,是人們相互交流、對著鏡頭說話、互動,這才是關鍵。目前在這個領域開展的工作并不多,這還是個尚未解決的問題。

我們正在努力接近目標,不過當前模型有一些分歧。當前有公司用神經(jīng)渲染技術制作虛擬人視頻,該技術獨立于 Transformer 和擴散模型,和 AI 發(fā)展也沒有關系,只是能碰巧產(chǎn)生半真實的輸出,但存在一定局限性,而且必須對每人單獨訓練,生成針對個人的視頻。還有很多公司做無音頻的通用文本轉視頻,大型生成模型的能力有待提升。在研究領域,雖然這些問題可解決但目前缺乏人們投入時間。

Captions 公司核心專注于用于說話視頻的大型生成模型。從安全角度,我們有獨特的思考框架。一般來說視頻分兩類:

  • 一是記錄類,如個人聚會視頻、記者記錄事件視頻等,主要為了留下回憶; 還有一種非個人版本,比如記錄犯罪事件、自然災害等等,客觀記錄涉及時間地點人物,這是為了留存歷史,我們想知道發(fā)生了什么。AI 生成這一類視頻全是負面影響,生成虛假的現(xiàn)實場景欺騙人沒有任何好處,我們要杜絕被用于這類場景。

  • 二是敘事類,像廣告、社交媒體帖子、電視節(jié)目等,它們是為了娛樂和趣味而設計的,人們不會「相信」,知道這是虛構的。如果能讓更多人講故事、娛樂并傳播信息,就是積極的。

在產(chǎn)品設計上,需思考如何讓產(chǎn)品很難被用在不良用途,同時便于在積極的方面使用,這是真正的挑戰(zhàn)。

Lenny:字節(jié)跳動剛發(fā)布了個超厲害的模型。我看到輸入一張照片,它就能生成這人以多種方式說話的視頻。那這個模型屬于你剛才說的哪一類呢?

Gaurav:我覺得它正屬于我們關注的生成人物說話視頻領域,這也是字節(jié)跳動的目標。它是大型公司發(fā)布的首個能生成對話或獨白視頻的大型模型之一。你見過了我就不細說了。它的表現(xiàn)力強,看起來不像虛擬人視頻,原因是它采用的是真正的大型擴散模型,與多數(shù)做虛擬人技術公司使用的基礎技術有本質區(qū)別。

Lenny:從 Will Smith 的意大利面視頻出現(xiàn)到現(xiàn)在過了多久?看看事情發(fā)展得有多快。

Gaurav:天啊,發(fā)展太快了,太驚人了。我覺得大概一年半到兩年吧。

Lenny:我在想象,如果是一個社交網(wǎng)絡,人們通常想知道這些人是誰。我不在乎陌生人分享狀態(tài)更新,但我能想象一個全是AI生成內(nèi)容的抖音(TikTok)。

Gaurav:完全正確。

Lenny:內(nèi)容完全根據(jù)你的喜好定制,全是隨機視頻。

Gaurav:因為你看抖音的視頻流時,你現(xiàn)在甚至都不知道誰是真實的,對吧?它感覺不真實。

Lenny:我會這樣做,去抖音上傳AI生成視頻,嘗試搭建這樣一個網(wǎng)絡。未來真是瘋狂啊。

打開網(wǎng)易新聞 查看精彩圖片