2025,當(dāng)AIGC技術(shù)進(jìn)入全面落地階段,Agent為核心的智能應(yīng)用成為行業(yè)發(fā)展新焦點(diǎn),一個(gè)關(guān)鍵瓶頸問(wèn)題浮出水面:技術(shù)雖然可行,但成本過(guò)高限制了大規(guī)模普及。
在第三屆AIGC產(chǎn)業(yè)峰會(huì)上,PPIO派歐云聯(lián)合創(chuàng)始人兼CEO姚欣提出了“讓免費(fèi)成為可能”的產(chǎn)業(yè)命題,直面當(dāng)下AI應(yīng)用面臨的最大挑戰(zhàn)。
他以移動(dòng)互聯(lián)網(wǎng)發(fā)展歷程為鏡鑒,指出AI行業(yè)同樣需要經(jīng)歷一場(chǎng)“提速降費(fèi)”的洗禮,才能真正實(shí)現(xiàn)應(yīng)用爆發(fā)。而要實(shí)現(xiàn)這一目標(biāo),需要在三年內(nèi)完成“千倍降本”的行業(yè)壯舉。
這不僅是一個(gè)愿景,更是PPIO正在用技術(shù)落地驗(yàn)證的發(fā)展路徑。在全球Token消耗量呈指數(shù)級(jí)增長(zhǎng)的背景下,如何用創(chuàng)新的技術(shù)架構(gòu)實(shí)現(xiàn)成本的大幅下降,或?qū)Q定整個(gè)AI產(chǎn)業(yè)能否真正迎來(lái)普及之年。

為了完整體現(xiàn)姚欣的思考,在不改變?cè)獾幕A(chǔ)上,量子位對(duì)演講內(nèi)容進(jìn)行了編輯整理,希望能給你帶來(lái)更多啟發(fā)。
中國(guó)AIGC產(chǎn)業(yè)峰會(huì)是由量子位主辦的AI領(lǐng)域前沿峰會(huì),20余位產(chǎn)業(yè)代表與會(huì)討論。線下參會(huì)觀眾超千人,線上直播觀眾320萬(wàn)+,累計(jì)曝光2000萬(wàn)+。
話題要點(diǎn)
- 2025年行業(yè)焦點(diǎn)已從大模型本身轉(zhuǎn)向應(yīng)用落地,特別是以Agent為核心的應(yīng)用體系發(fā)展。
- 雖然技術(shù)上可行,但智能體任務(wù)的Token消耗比傳統(tǒng)對(duì)話高出數(shù)百甚至上千倍,導(dǎo)致成本大幅增加。
- 中國(guó)互聯(lián)網(wǎng)用戶習(xí)慣了免費(fèi)模式,約95%的用戶不愿意付費(fèi),這對(duì)AI應(yīng)用普及提出了嚴(yán)峻挑戰(zhàn)。
- AI時(shí)代需要提速降費(fèi),類比移動(dòng)互聯(lián)網(wǎng)發(fā)展過(guò)程,行業(yè)需要實(shí)現(xiàn)“三年千倍降本”才能促進(jìn)大規(guī)模普及。
以下為姚欣演講全文:
Agent落地成本百倍增加,中國(guó)付費(fèi)用戶習(xí)慣難買單
謝謝各位,很榮幸能夠來(lái)參加2025年AIGC的產(chǎn)業(yè)峰會(huì)。我今年的演講主題就是“免費(fèi)”,讓免費(fèi)成為可能。
2025年大家好像形成了一致的觀點(diǎn):如果去年還在講大模型、應(yīng)用能力等,可能今年整個(gè)行業(yè)的關(guān)注度都開(kāi)始轉(zhuǎn)向到應(yīng)用落地,而這里面也在展望著下一代的應(yīng)用體,特別是以Agent為核心的整個(gè)使用、發(fā)展、落地,這可能是2025年我們行業(yè)內(nèi)最關(guān)注的領(lǐng)域。
年初一系列新的應(yīng)用,從DeepSeek的出圈到Manus的落地,我們也能看到一點(diǎn)AI應(yīng)用落地曙光,但其實(shí)成本是不可忽視的存在,也是應(yīng)用落地時(shí)代我們必須得面對(duì)的一件事情,技術(shù)上能達(dá)成,但是不是能不能大規(guī)模使用,成本非常關(guān)鍵。
為什么會(huì)有這樣的變化?同樣都是基于這些模型底層能力,但今天我們要想做一個(gè)智能體,完成一次智能體的任務(wù)調(diào)用,它所需要使用Token的數(shù)量,比之前做一次文字的對(duì)話,這個(gè)數(shù)量可能提升了上百倍,甚至上千倍之多。

左邊這張圖也是上個(gè)月中旬的時(shí)候,英偉達(dá)GTC大會(huì),黃仁勛演示的圖像,他講的是reasoning模型,比如像DeepSeek的R1這種模型,它去回答一個(gè)問(wèn)題,它需要消耗Token的數(shù)量是傳統(tǒng)LLM模型將近20倍之多,這僅僅只是回答一個(gè)簡(jiǎn)單的問(wèn)題。我們?cè)囅胫悄荏w是要代替人去執(zhí)行很多的網(wǎng)頁(yè)的讀取、任務(wù)流的拆解,還做很多邏輯的分析和判斷。由此可知,整個(gè)Agent任務(wù)體的消耗也是非??鋸埖臄?shù)字。
右邊這張圖我們看到了很多reasoning模型,因?yàn)榻裉熘悄荏w的底座很重要是要看這些reasoning模型的使用成本。
在這之中,價(jià)格最低的DeepSeek也要達(dá)到88美金,最高的OpenAI的API要再貴幾十倍以上。巨量消耗必然帶來(lái)成本提升,這也很正常,因?yàn)榻裉煲氆@得更好的效果總得有所付出。這讓我想到在20年前做PPTV的時(shí)候,那個(gè)時(shí)候面臨最大的問(wèn)題——當(dāng)年的互聯(lián)網(wǎng)還停留在文字門戶時(shí)代,主要是用于大家看看網(wǎng)絡(luò)新聞。當(dāng)你要用視頻的時(shí)候,你發(fā)現(xiàn)最大的瓶頸是基礎(chǔ)設(shè)施,基礎(chǔ)設(shè)施根本跟不上應(yīng)用的發(fā)展。我覺(jué)得今天的應(yīng)用開(kāi)發(fā)者應(yīng)該有類似的感受。
第二個(gè)原因,我們來(lái)看看需求側(cè)、使用者的心理。我自己也是一名普通的用戶,曾經(jīng)是一名知名APP的開(kāi)發(fā)者,我覺(jué)得最后必須屈服的一件事情是中國(guó)互聯(lián)網(wǎng)用戶的使用習(xí)慣已經(jīng)被固化了。再準(zhǔn)確講,我們的胃口已經(jīng)被養(yǎng)得非常刁鉆了,“免費(fèi)”基本上是過(guò)去20年從PC互聯(lián)網(wǎng)到移動(dòng)互聯(lián)網(wǎng),中國(guó)互聯(lián)網(wǎng)愿意接受大規(guī)模應(yīng)用的一個(gè)前提。
即使在移動(dòng)互聯(lián)網(wǎng)時(shí)期,開(kāi)始有很多的付費(fèi)模式,內(nèi)容付費(fèi)、知識(shí)付費(fèi)。如果你放到億萬(wàn)的用戶群體,做一個(gè)Super App的話,你會(huì)發(fā)現(xiàn)真正的付費(fèi)用戶還是少數(shù),可能只有3%~5%,95%以上的用戶使用免費(fèi)的商業(yè)模式——通過(guò)看廣告、或者使用上面一些增值業(yè)務(wù),這種方式去使用,這可能是主力。即使在我們公認(rèn)最強(qiáng)勁的內(nèi)容領(lǐng)域、游戲領(lǐng)域,付費(fèi)率依然如此。
只有AI基建提速降費(fèi),才能助推Agent大規(guī)模使用
今天大家都在關(guān)心AI應(yīng)用能不能普及。我覺(jué)得AI應(yīng)用普及的一個(gè)前提是,我們必須讓95%以上的用戶免費(fèi)使用AI。這樣用戶行為才會(huì)是真正大規(guī)模使用的用戶行為。
2025年中國(guó)AI應(yīng)用要怎么迎來(lái)爆發(fā)?背后關(guān)鍵是:AI時(shí)代需要提速降費(fèi)。
提速降費(fèi),在移動(dòng)互聯(lián)網(wǎng)時(shí)代,就是一個(gè)非常重要的名詞。我們的互聯(lián)網(wǎng),包括手機(jī)的資費(fèi)流量,經(jīng)過(guò)了國(guó)家主導(dǎo)多年的提速降費(fèi)。
在2014年,想要使用移動(dòng)流量,在手機(jī)上看個(gè)視頻、新聞,當(dāng)時(shí)1個(gè)GB的流量成本達(dá)到了上百塊錢。到了2021年,整個(gè)成本實(shí)現(xiàn)了90%+的下降,降到了以前的個(gè)位數(shù)。
這件事情極大助推了整個(gè)移動(dòng)互聯(lián)網(wǎng)的普及,移動(dòng)互聯(lián)網(wǎng)的使用流量也實(shí)現(xiàn)了數(shù)千倍的提升。
基礎(chǔ)通信資費(fèi)的提速降費(fèi)過(guò)程中,一系列應(yīng)用迎來(lái)爆發(fā),走到了今天。這是移動(dòng)互聯(lián)網(wǎng)的經(jīng)驗(yàn)。我覺(jué)得今天AI的應(yīng)用普及也得經(jīng)歷一個(gè)類似的過(guò)程。
斯坦福剛剛發(fā)布的AI報(bào)告里提到,以2022年推出的ChatGPT-3.5為例,到了2024年,Llama-3.1的8B版本已經(jīng)可以與之打平,整個(gè)使用成本也從當(dāng)時(shí)的20美金降到了現(xiàn)在的7美分。
從這樣的數(shù)字比例來(lái)講,同樣性能的模型在這兩年多的時(shí)間里面,整體使用價(jià)格大概降到了原來(lái)的1/280。這個(gè)指標(biāo)挺驚人的。
但值得關(guān)注的是,今天模型的性能還在不斷提升,單位模型或者任務(wù)里面的token消耗,在成千倍、上萬(wàn)倍地同步增長(zhǎng)。這樣的情況下,我們意識(shí)到,成本還需要下降得更多。
PPIO認(rèn)為,這個(gè)行業(yè)平均每一年同類模型的性價(jià)比,或者說(shuō)使用成本,要降至上一年的1/10。從去年開(kāi)始,我們看到的是未來(lái)三年千倍降本的趨勢(shì),280多倍,才只是走到了半山腰。
軟硬一體化才能實(shí)現(xiàn)千倍降本
這里讓我想到了喬布斯,喬布斯在2007年推出第一代iPhone,引用了硅谷先驅(qū)Alan Kay的一段話:那些真正熱愛(ài)軟件的人,總會(huì)設(shè)法打造自己的硬件。
我們想想2007年誕生的iPhone,那是第一臺(tái)真正意義上的智能手機(jī),同等性能的智能手機(jī)能大規(guī)模普及要等到幾年以后,為什么2007年就能夠誕生一個(gè)超出當(dāng)時(shí)時(shí)代的智能手機(jī)?最重要的地方是蘋果這家公司,它不僅僅做硬件很優(yōu)秀,做軟件也很優(yōu)秀,更為難得的是能實(shí)現(xiàn)軟硬一體化。由此,它能領(lǐng)先安卓陣營(yíng)四五年,推出一款足夠震撼的智能手機(jī)。
對(duì)應(yīng)來(lái)看,今天如果要想實(shí)現(xiàn)AI大規(guī)模應(yīng)用和大規(guī)模的降本,今天的AI Infra公司必須要成為最懂上層模型和應(yīng)用的底層的硬件基礎(chǔ)設(shè)施公司,這就是PPIO的定位,我們要成為性價(jià)比最高的Infra公司,我們要為這個(gè)行業(yè)帶來(lái)極高彈性的性價(jià)比。
當(dāng)然我們也把整個(gè)業(yè)務(wù)類別和技術(shù)棧不藏私地給大家做介紹和分享,介紹一下我們?cè)趺纯唇裉斓腁I降本。
當(dāng)下AI降本不僅只是簡(jiǎn)單的某一個(gè)軟件技術(shù),做模型壓縮、使用一整套開(kāi)源推理框架,或者說(shuō)具備充足算力、買到了最先進(jìn)的卡。僅僅實(shí)現(xiàn)這些單項(xiàng)能力不足以讓你實(shí)現(xiàn)千倍的降本,要實(shí)現(xiàn)它必須具備端到端全棧能力。
目前迭代最快的應(yīng)該還是上層模型、軟件,我們團(tuán)隊(duì)在兩年多前開(kāi)始追蹤第一代開(kāi)源大模型,持續(xù)跟進(jìn)和積累。PPIO也跟一系列的主流開(kāi)源推理框架,包括vLLM、SGLang等達(dá)成了戰(zhàn)略合作。我們也在開(kāi)源的肩膀上進(jìn)行更多的模型的整合。最近推動(dòng)包括將DeepSeek向主流開(kāi)源框架進(jìn)行融合,讓更多開(kāi)源模型跑在更多的開(kāi)源框架,適配更多硬件,實(shí)現(xiàn)成本進(jìn)一步地優(yōu)化。
僅僅只是實(shí)現(xiàn)模型的推理加速還遠(yuǎn)遠(yuǎn)不夠,今天你要實(shí)現(xiàn)大規(guī)模的用戶調(diào)用,用戶的需求是從全球各地、全國(guó)各地,海量彈性產(chǎn)生的,根本無(wú)法預(yù)知哪里流量多,哪里流量少。
這意味著必須有一整套全局分布式的算力調(diào)度系統(tǒng),而且這種算力調(diào)度系統(tǒng)應(yīng)對(duì)的可能是海量用戶請(qǐng)求,千萬(wàn)級(jí)、甚至上億次用戶請(qǐng)求在快速產(chǎn)生。
今年年初當(dāng)大家在過(guò)春節(jié)的時(shí)候,我們這一系列云公司過(guò)了很多個(gè)不眠夜,DeepSeek-R1選擇春節(jié)期間發(fā)布,把我們所有工程師難倒了。而且春節(jié)期間內(nèi),DeepSeek自己的官方應(yīng)用,七天時(shí)間實(shí)現(xiàn)了1億次用戶下載。但是我們也看到它的官方應(yīng)用遇到了巨大挑戰(zhàn)?;旧厦刻斓搅讼挛绾屯砩系臅r(shí)候,這個(gè)服務(wù)是不可用的。后來(lái)從DeepSeek官方公布的流量圖可以看到,幾乎全天流量都是100%占滿。100%的使用率意味著什么?意味著可能大量用戶請(qǐng)求已經(jīng)被丟棄掉了。
我們團(tuán)隊(duì)脫胎于4.5億用戶的APP,有10多年的云和大規(guī)模應(yīng)用的服務(wù)經(jīng)驗(yàn)。所以PPIO利用大型彈性能力、公有云能力和分布式算力調(diào)度網(wǎng)絡(luò),在春節(jié)期間,在平臺(tái)上實(shí)現(xiàn)了商業(yè)托管DeepSeek服務(wù)99.9%的可用性。這在行業(yè)里面來(lái)看是保持絕對(duì)領(lǐng)先的。
這一系列能力的實(shí)現(xiàn),也離不開(kāi)底層的資源和積累。跟大多數(shù)的云計(jì)算公司都是自建的數(shù)據(jù)中心不一樣,PPIO派歐云的定位是去跟大量的數(shù)據(jù)中心閑置資源進(jìn)行對(duì)接。
我國(guó)是一個(gè)基建大國(guó),數(shù)據(jù)中心的數(shù)量可能是全球之最,大量的城市,甚至包括很多企業(yè)都建設(shè)了大量的數(shù)據(jù)中心、智算中心。這些智算中心的平均利用率只有50%左右,甚至更低。
所以PPIO不生產(chǎn)或者不用制造更多的算力,我們會(huì)去跟今天已有的算力提供方對(duì)接,把他們的閑置算力和未充分使用的算力融合進(jìn)來(lái)?,F(xiàn)在我們已經(jīng)對(duì)接了4000+算力節(jié)點(diǎn),覆蓋1200+城市,可以給全國(guó)用戶提供10毫秒的算力響應(yīng)。
我們也在上層實(shí)現(xiàn)了優(yōu)化和降本的策略,包括剛才提到的算力的分時(shí)調(diào)度、分區(qū)域調(diào)度,將更多東部的請(qǐng)求調(diào)度到能源價(jià)格更加低廉的中西部地區(qū),包括在一個(gè)省內(nèi)進(jìn)行調(diào)度、一個(gè)市內(nèi)進(jìn)行調(diào)度,將更多的需求調(diào)給這些閑置的資源。
其次我們也會(huì)利用好今天大量的硬件。做推理跟做訓(xùn)練,對(duì)算力的要求截然不同。我們希望最快速完成訓(xùn)練,一定用最先進(jìn)的卡、最好的服務(wù),千卡萬(wàn)卡并聯(lián)。但是做推理,很多時(shí)候是單機(jī)就可以實(shí)現(xiàn)的。即使是DeepSeek(671B)這樣的模型,兩臺(tái)服務(wù)器、16張卡也可以實(shí)現(xiàn)最基礎(chǔ)的推理。
因此大量老舊的訓(xùn)練卡,比如像A100等,其實(shí)可以用來(lái)做很好的推理。如何去挖掘這些今天還在發(fā)光發(fā)熱的老舊硬件,把它的性能用于更優(yōu)化的推理,也是我們重點(diǎn)攻關(guān)的方向。
基于這樣的特性,我們能看到在過(guò)去兩年時(shí)間,PPIO派歐云提供的整個(gè)AI推理服務(wù),每一年都能實(shí)現(xiàn)9-10倍的成本的下降。
最后講一個(gè)案例,也算是我們整個(gè)成本下降的曲線,比如以去年6月份發(fā)布的Llama-8B模型為例,剛上線的時(shí)候我們定價(jià)是0.1美金,到去年年底,價(jià)格已經(jīng)降到了4分錢,差不多在未來(lái)兩三個(gè)月內(nèi)會(huì)降到1分錢,一年時(shí)間里面將它的使用成本打到1/10。
在這樣的能力下,我們也支持非常多的Super APP,為海內(nèi)外很多優(yōu)秀的應(yīng)用和AIGC開(kāi)發(fā)者提供服務(wù)。包括我們跟著名的招聘網(wǎng)站、做小說(shuō)推文的APP進(jìn)行合作,也大幅降低了他們的使用成本。同時(shí)也支撐住了百萬(wàn)、甚至千萬(wàn)用戶級(jí)的涌入和增長(zhǎng),實(shí)現(xiàn)了成本和增長(zhǎng)的平衡。
到今天我們平臺(tái)每天Token消耗量已經(jīng)突破了千億次,而且每個(gè)月還在保持超過(guò)50%的增長(zhǎng)。

我相信這張圖也會(huì)像移動(dòng)互聯(lián)網(wǎng)早期一樣,在未來(lái)3年畫出非常陡峭的曲線。PPIO也希望憑借努力能讓免費(fèi)的行業(yè)模式走到更多AI應(yīng)用企業(yè)里去,通過(guò)三年千倍的降本開(kāi)啟AI時(shí)代的提速降費(fèi)。
謝謝大家!
熱門跟貼