AI 是否進(jìn)入下半場或許還有爭議,但大模型進(jìn)入淘汰賽已經(jīng)板上釘釘。
在 DeepSeek R1 橫空出世后更是愈演愈烈,今年光是 OpenAI、Anthropic、Google、Meta、Grok 目前已經(jīng)合計(jì)發(fā)了至少 8 款新模型,而國內(nèi)的 AI 六小龍們也有的開始放棄預(yù)訓(xùn)練,將 AGI 的理想主義束之高閣。
在這當(dāng)中,階躍星辰是一家有點(diǎn)特殊的公司。在去年年底之前都鮮有融資消息,但卻在多模態(tài)模型上成為「卷王」,成? 2 年已經(jīng)發(fā)布了 22 款?研基座模型,成為最低調(diào)神秘的 AI 獨(dú)角獸。
階躍星辰創(chuàng)始人兼 CEO 的姜大昕,和這家公司一樣低調(diào),很少出現(xiàn)在 AI 行業(yè)熱鬧的輿論場中。
而昨天,姜大昕與 APPSO 等媒體進(jìn)行一場深度的溝通會,他向我們分享對于 AGI 路徑,多模態(tài)模型等技術(shù)的看法,以及階躍星辰未來的計(jì)劃。

多模態(tài)模型還沒出現(xiàn) GPT-4 時(shí)刻,追求「智能上限」
當(dāng)下 AI 大模型領(lǐng)域的內(nèi)卷沒有盡頭,頭部公司之間不斷上演著「貼臉發(fā)布」的激烈戲碼。
不過姜大昕依然認(rèn)為,「追求智能的上限依舊是現(xiàn)階段 AI 業(yè)內(nèi)的重點(diǎn)。」也就是說,雖然現(xiàn)在市面上模型一大堆,看起來都挺能打,但離真正的「聰明」還差得遠(yuǎn)。
大家都在搶發(fā)新模型,看著熱鬧,但如果只是在現(xiàn)有水平上修修補(bǔ)補(bǔ),那也只是原地踏步的「內(nèi)卷」。
姜大昕覺得,現(xiàn)在最要緊的還是得想辦法把 AI 的「智商」往上再拔一拔,不然離大家心心念念的 AGI(通用人工智能)還遠(yuǎn)著呢。

在 DeepSeek R1 面世,以及大廠高調(diào)入場后,不少初創(chuàng)公司開始放棄研發(fā)基礎(chǔ)模型,不過姜大昕在接受 APPSO 采訪時(shí)表示:
AI 行業(yè)的技術(shù)發(fā)展非???,依然處于非常陡峭的區(qū)間。階躍不想在這個(gè)過程中放棄主流增長或前進(jìn)的趨勢,所以我們還是會堅(jiān)持做基礎(chǔ)模型的研發(fā)。
同時(shí)姜大昕表示,應(yīng)用和模型是相輔相成的,模型可以決定應(yīng)用的上限,應(yīng)用給模型提供具體的應(yīng)用場景和數(shù)據(jù)。
那怎么才能讓 AI 更聰明?姜大昕給出的一個(gè)關(guān)鍵路徑是:「多模態(tài)正是實(shí)現(xiàn) AGI 的必經(jīng)之路。」
很多人說今年的 Agent 元年,姜大昕認(rèn)為 Agent 爆發(fā)需要兩個(gè)必要的條件,一個(gè)是多模態(tài)的能力,另外一個(gè)是慢思考的能力。
多模態(tài),說白了就是讓 AI 不光能看懂文字,還得能看圖、聽聲、理解視頻。
你想想人不就是眼耳口鼻一塊兒上,才能全面理解這個(gè)世界嘛。AI 也得這樣,變成一個(gè)能聽、能看、能說的「多面手」。

階躍星辰可以說是多模態(tài)模型的「卷王」了,幾乎每個(gè)月都發(fā)布一款基礎(chǔ)?模型,其中多模態(tài)模型已經(jīng)有 16 款。覆蓋了從圖像、視頻到語音、音樂的理解和生成,用姜大昕的話說,是堅(jiān)持「原生多模理念」。
不過,姜大昕也挺實(shí)在,他坦陳「多模態(tài)模型領(lǐng)域目前還沒有出現(xiàn) GPT-4 時(shí)刻。」
雖然多模態(tài)現(xiàn)在挺火,各家都在推,但還沒出那種像 GPT-4 在文字領(lǐng)域那樣,一出來就「哇哦」一下,讓所有人都覺得「就是它了」的標(biāo)桿性產(chǎn)品,技術(shù)上還有不少硬骨頭要啃。
AI 升級打怪三部曲
對于模型如何一步步逼近智能的上限,姜大昕描繪了一幅清晰的「三部曲」演進(jìn)路線圖,也可以說,這是階躍星辰理解的 AGI 演進(jìn)方向。

模擬世界(模仿學(xué)習(xí)階段): 這階段的 AI 就像個(gè)剛學(xué)說話的小孩,喂給它海量數(shù)據(jù),它就吭哧吭哧地學(xué),主要任務(wù)是「predict next token」(預(yù)測下一個(gè)詞)或者「predict next frame」(預(yù)測下一幀畫面)。目的是讓AI先學(xué)會這個(gè)世界長啥樣,各種東西有啥特征。
探索世界(強(qiáng)化學(xué)習(xí)階段): 光會模仿還不行,還得培養(yǎng)解決復(fù)雜問題的能力。比如解個(gè)奧數(shù)題、寫段復(fù)雜的代碼,這需要「慢思考」。這時(shí)候就得上強(qiáng)化學(xué)習(xí)了,讓AI在不斷試錯(cuò)中學(xué)會怎么一步步把難題給解開。
歸納世界(機(jī)器自主學(xué)習(xí)階段): 這是最高境界了,AI不光能解決已知問題,還能自己去發(fā)現(xiàn)新規(guī)律,搞點(diǎn)人類沒想到的創(chuàng)新。比如在科研領(lǐng)域幫科學(xué)家發(fā)現(xiàn)新材料、新藥物啥的。
這三個(gè)階段,與 OpenAI 提出的 AGI 五個(gè) Level 在核心理念上不謀而合,現(xiàn)在整個(gè) AI 行業(yè)的發(fā)展,基本就是照著這個(gè)劇本在推進(jìn)。
為什么「理解生成一體化」這么重要?
在多模態(tài),尤其是圖像視頻這塊,姜大昕在溝通會中多次強(qiáng)調(diào)一個(gè)詞:理解生成一體化。
理解生成一體化是計(jì)算機(jī)視覺領(lǐng)域的核心問題,對于實(shí)現(xiàn) AGI 至關(guān)重要。
說白了,就是讓模型既能看懂一幅圖、一段視頻是啥意思,又能根據(jù)這個(gè)理解自己創(chuàng)作出新的、相關(guān)的圖像視頻?,F(xiàn)在很多時(shí)候是「看圖用 A 模型,畫圖用 B 模型」,跟倆部門似的,配合不起來。
他舉了個(gè)例子,比如老師在黑板上寫字,現(xiàn)在的 Sora 能模仿老師寫字的動作,但老師腦子里想的是啥、接下來要寫什么內(nèi)容,這得靠「理解」。如果理解和生成是兩套系統(tǒng),那模型就很難真正「懂」你,生成的玩意兒也可能不著邊際。
語言模型像 ChatGPT 在這方面已經(jīng)做得不錯(cuò)了,但視覺領(lǐng)域因?yàn)閿?shù)據(jù)太復(fù)雜,這事兒還沒完全搞定。階躍星辰在這上面是持續(xù)投入,想把這個(gè)技術(shù)瓶頸給突破了。
強(qiáng)大的模型能力最終需要通過應(yīng)用來體現(xiàn)價(jià)值。階躍星辰采取的是「超級模型與超級應(yīng)用雙輪驅(qū)動」的策略。

在應(yīng)用層面,階躍星辰將「智能終端 Agent」作為重點(diǎn)發(fā)力方向。姜大昕認(rèn)為,智能終端,無論是我們口袋里的手機(jī)、日常駕駛的汽車,還是未來可能普及的機(jī)器人,它們不僅僅是冰冷的硬件,更是「用戶感知和體驗(yàn)的延伸」。
這意味著,AI 如果能與這些終端深度融合,就能更好地「理解用戶需求和任務(wù)上下文」。
比如, OPPO 旗艦 Find X8 Ultra 正式開售首發(fā)的「一鍵閃記」的功能,AI 可以智能識別手機(jī)屏幕上的內(nèi)容,為用戶生成摘要,并將碎片化的信息歸類到不同的記憶合集。

這背后搭載的其實(shí)就是階躍星辰多模態(tài)模型,它能理解屏幕上顯示的內(nèi)容,無論是圖片還是文字,用戶可以就此提問,AI不僅能回答,還能進(jìn)行圖片處理,甚至幫助用戶完成一些應(yīng)用內(nèi)的操作,比如直接跳轉(zhuǎn)到機(jī)票預(yù)訂頁面并填好信息。
這種合作,將大模型的能力和系統(tǒng)更深度融合,嵌入到用戶最高頻的手機(jī)使用場景中,選擇手機(jī)作為切入點(diǎn),其價(jià)值在于手機(jī)天然的多模態(tài)交互屬性和龐大的用戶基數(shù),為模型迭代提供了豐富的真實(shí)數(shù)據(jù)和即時(shí)反饋。
總的來說,階躍星辰的思路挺清晰:技術(shù)上瞄準(zhǔn) AGI,死磕多模態(tài)和理解生成一體化這些硬核問題。應(yīng)用上呢,就找準(zhǔn)智能終端這個(gè)突破口,跟硬件廠商把場景做深做透。
這條路不好走,但姜大昕和他的團(tuán)隊(duì)看起來挺有決心。畢竟,用 AI 解決真實(shí)世界的問題,先在市場獲得用戶認(rèn)可,才有機(jī)會探索 AGI 的天花板,讓我們看看階躍星辰這個(gè)多模態(tài)卷王后面還能拿出什么新東西來。
熱門跟貼