京東與美團(tuán)在外賣市場激戰(zhàn)正酣,拼多多通過TEMU拓展海外,阿里巴巴則在AI上發(fā)力,電商行業(yè)的三大巨頭在不同的方向上發(fā)力,而不是在同一市場惡性競爭。
站在未來的某個(gè)時(shí)點(diǎn)會(huì)看2025年,可能是電商行業(yè)的轉(zhuǎn)折之年:歷經(jīng)過去二十年的高速發(fā)展,包括創(chuàng)新、流量等在內(nèi)的行業(yè)紅利消失了,企業(yè)開始尋求的心得增長空間。基于各自的現(xiàn)實(shí),他們做了不同的選擇。

今天聊聊阿里巴巴。對(duì)與企業(yè)來說,最大的現(xiàn)實(shí)就是獨(dú)特的資源與稟賦。阿里巴巴最大的資源是什么?是過去二十年來積累的IT能力。基于這樣的現(xiàn)實(shí),阿里巴巴選擇的方向是云計(jì)算、AI,以及芯片。
4月9日,阿里云在北京開了一場會(huì),名為“AI勢能大會(huì)”。阿里云公共云事業(yè)部總裁劉偉光稱,大模型的社會(huì)價(jià)值正在企業(yè)市場釋放,阿里云將堅(jiān)定投入,打造全棧領(lǐng)先的技術(shù),持續(xù)開源開放,為AI應(yīng)用提速。
劉偉光當(dāng)日的演講描繪了一幅“AI重構(gòu)云計(jì)算、重構(gòu)阿里巴巴、重構(gòu)世界”的藍(lán)圖。下面是劉偉光的演講全文,有刪改。
1
3800億投入AI
大家記得從2022年Chat GPT發(fā)布以后,到2023年到2024年這兩年發(fā)生怎樣的變化,從最初我們看待大語言模型人工智能是一個(gè)離我們生活工作甚至各行各業(yè)都是非常遙遠(yuǎn)的概念,到2024年我們才深深感覺到這是一個(gè)AI應(yīng)用爆發(fā)非常不平凡的一年,我們更多看到不僅是大語言基礎(chǔ)模型層面不斷的高速迭代,同時(shí)看到大語言模型人工智能在各行各業(yè)無論是從個(gè)人助力方面以及個(gè)人產(chǎn)業(yè)賦能方面,我們看到這個(gè)社會(huì)在方方面面被AI滲透,被AI影響,非常堅(jiān)信未來AI會(huì)和很多產(chǎn)業(yè)進(jìn)行非常有機(jī)融合,爆發(fā)出更多嶄新商業(yè)模式和生產(chǎn)路徑。
在面臨未來發(fā)展方向時(shí)候,在一路耕耘當(dāng)中,我們已經(jīng)看到一些非常清楚的面向未來大模型,無論從訓(xùn)練、推理、應(yīng)用方面一些發(fā)展趨勢。同時(shí),今天想借這個(gè)場合把阿里云面向未來思考和計(jì)劃想法跟大家做分享,下面開啟今天分享。
過去一年跟大家分享幾個(gè)非常令人興奮的數(shù)字,這一年走遍中國很多城市,包括一線城市、二線城市,也走遍很多各行各業(yè)企業(yè),這一年當(dāng)中我看到很多企業(yè)在積極的擁抱大語言模型,無論從簡單的文生圖、文生視頻、創(chuàng)作文檔以及到數(shù)據(jù)應(yīng)用很多方面我看到很多令人興奮的應(yīng)用,跟大家分享一個(gè)數(shù)字,僅僅在阿里云我們自身平臺(tái)上在這一年當(dāng)中,如果我們從第12個(gè)月跟第一個(gè)月相比的話,我們整個(gè)大語言模型API調(diào)用量增長接近100倍,接入大語言模型企業(yè)數(shù)量同樣也是一個(gè)接近100倍的增長比例,這個(gè)背后我們看到這是AI應(yīng)用落地非常好的前奏和序曲,我們相信未來AI應(yīng)用還將在很多方面加速。
第一方面這一年當(dāng)中,2024年當(dāng)中基礎(chǔ)模型能力在全世界以及在中國有非常大的進(jìn)化,從深度推理模型到多模態(tài)能力都在大幅度提升,讓很多產(chǎn)業(yè)有了強(qiáng)化學(xué)習(xí)新的想法,讓更多AI應(yīng)用落地可能性變得越來越高。同時(shí)在AI發(fā)展過程當(dāng)中我們發(fā)現(xiàn)基模能力提升,AI應(yīng)用爆發(fā),同時(shí)在背后的訓(xùn)練和推理產(chǎn)生的資源成本在不斷降低。
第二點(diǎn)看到各行各業(yè)尤其云計(jì)算,包括AI的創(chuàng)業(yè)公司都在大力投入,以阿里云為例,前兩天宣布未來投入3800億人民幣面向未來人工智能和基礎(chǔ)設(shè)施建設(shè),在于我們對(duì)于未來整個(gè)人工智能和云計(jì)算前景無比相信。同時(shí)這一年看到模型在開源生態(tài)上有了非常大的加速度的提升,開源技術(shù)在不斷推動(dòng)技術(shù)創(chuàng)新和變革,今天開源模型和商業(yè)化模型已經(jīng)并駕齊驅(qū),今天我們看到經(jīng)過市場的篩選,標(biāo)準(zhǔn)協(xié)議開始收斂,這將大大簡化模型調(diào)用推動(dòng)AI應(yīng)用的生態(tài)繁榮。
社會(huì)層面,今天國家、地方政府對(duì)人工智能+已經(jīng)給予足夠重視,今年兩會(huì)上人工智能+再次被寫入到政府報(bào)告當(dāng)中,春節(jié)期間DeepSeek在全世界的火爆出圈讓公眾對(duì)大語言模型能力的認(rèn)知水平有了顯著提升,也非常大的有助于社會(huì)各界各種各樣企業(yè)生態(tài)能夠基于基礎(chǔ)大模型做更多的AI Agent、AI原生應(yīng)用、推理應(yīng)用等嶄新的創(chuàng)新,所以我非常有理由堅(jiān)信,2025年一定是中國AI應(yīng)用爆發(fā)的元年。
2
AI重構(gòu)云計(jì)算
AI應(yīng)用爆發(fā)對(duì)模型的性能和模型之下的基礎(chǔ)設(shè)施以及往上面看到AI應(yīng)用開發(fā)工具都提出非常高要求,這三大要素模型、推理、開發(fā)工具正在全速演進(jìn)過程當(dāng)中,以大語言模型為例全世界幾乎以每兩周為一個(gè)時(shí)間單位在進(jìn)行告訴演進(jìn),基礎(chǔ)模型仍然是整個(gè)AI應(yīng)用生態(tài)最核心的引擎,通過提供深度的推理能力,多模態(tài)理解和交互能力,支持多樣化、高質(zhì)量服務(wù)基于很多不同類型尺寸模型滿足復(fù)雜、輕型以及更多探索型需求,這一年當(dāng)中我們發(fā)現(xiàn)很多客戶在探索AI應(yīng)用過程當(dāng)中不約而同發(fā)現(xiàn),在大語言模型下邊,支撐這一層面基礎(chǔ)設(shè)施能力,特別是推理服務(wù)能力是保障AI應(yīng)用服務(wù)順暢、平滑、穩(wěn)定、高效運(yùn)行的重要基礎(chǔ)設(shè)施,今天我們看到云計(jì)算也在慢慢的為AI所改變,無論從計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)都為AI做非常多優(yōu)化,讓所有AI訓(xùn)練、推理、應(yīng)用能夠在云基礎(chǔ)設(shè)施上進(jìn)行更穩(wěn)定平滑高效運(yùn)行。
在過去兩年很少去花時(shí)間去提及在模型之上所有開發(fā)工具,當(dāng)模型能力足夠強(qiáng)大,當(dāng)AI應(yīng)用呼之欲出的時(shí)候,更多客戶需要更完整、更完備的工具鏈去基于模型進(jìn)行AI應(yīng)用開發(fā),所以AI上面開發(fā)工具是連通大語言模型和真實(shí)應(yīng)用最重要橋梁,他們需要更多是功能齊全、生態(tài)豐富、靈活部署的工具,加速應(yīng)用開發(fā)。
基于這三個(gè)方向,我們對(duì)未來的推演,我們來分享一下阿里云從這三個(gè)方面要素出發(fā),我們怎么樣全力優(yōu)化和升級(jí)體系為應(yīng)用提速。
首先,我們來看看基礎(chǔ)大模型的演進(jìn)。大家知道DeepSeek是全世界非常火爆出圈的開源模型,阿里是更早的開源模型的貢獻(xiàn)者,今天通義大模型家族是中國最早的基礎(chǔ)大模型家族,在海外、國內(nèi)擁有龐大的群眾基礎(chǔ),2023年發(fā)布以來,我們模型在不斷迭代加強(qiáng),特別在最近五個(gè)月當(dāng)中進(jìn)行非常密集的快速迭代,越來越快的速度去開源更多不同類型的模型,包括推理模型、多模態(tài)模型和不同尺寸、不同形態(tài)模型,今天阿里云已經(jīng)成為全世界唯一一家積極研發(fā)基礎(chǔ)大模型并全方位開源、全方位貢獻(xiàn)的云計(jì)算廠商。
今天,我們的開源模型總量達(dá)到超過200款,同時(shí)在開源社區(qū)衍生千問模型已經(jīng)突破10萬,全球最大大模型家族,超過同形態(tài),同樣開源所有其他大語言模型,在開源背后反映了我們對(duì)大語言模型技術(shù)發(fā)展的判斷,大家知道開源是一個(gè)非常好開放,大家可以互相借鑒使用形態(tài),同時(shí)方便于生態(tài)能夠基于開源去開發(fā)更多應(yīng)用,這是一個(gè)非常簡單的邏輯,我們將足夠優(yōu)秀,能力突出的更多尺寸的模型開源之后,不斷的去獲得更廣泛的開發(fā)者和企業(yè)級(jí)的用戶支持和反饋,不斷給我們提出更多需求,從而驗(yàn)證我們每一款開源模型的可行性和正確性,通過不斷加速的正反饋我們能以更高速度進(jìn)行快速迭代。
3
大模型進(jìn)化的兩個(gè)方向
對(duì)未來兩個(gè)重要判斷,基于大模型研發(fā),同時(shí)推廣客戶使用大語言模型過程當(dāng)中,非常堅(jiān)定相信,未來我們即將發(fā)布新的模型,即將開發(fā)新的模型最重要的方向就是在兩個(gè)重要領(lǐng)域,一個(gè)在Reasoning推理,一個(gè)在Omin全模態(tài)融合。
首先談一談Reasoning推理,大模型未來的方向一定是向越來越強(qiáng)的推理能力演化,尤其強(qiáng)化學(xué)習(xí),不斷提升思維鏈的能力,伴隨著模型內(nèi)生的任務(wù)規(guī)劃、工具使用能力不斷增強(qiáng),大模型會(huì)越來越智慧,可以不斷思考更難更高問題,完成更復(fù)雜任務(wù),這是一個(gè)重要方向,其中特別想強(qiáng)調(diào)一下強(qiáng)化學(xué)習(xí),今年2025年我們發(fā)現(xiàn)一個(gè)市場非常重要嶄新趨勢,很多客戶都在利用今天更為強(qiáng)大的基礎(chǔ)大模型做基于強(qiáng)化學(xué)習(xí)的后訓(xùn)練,同時(shí)強(qiáng)化學(xué)習(xí)后訓(xùn)練反過來為推理提供重要能力補(bǔ)充,所以我相信未來會(huì)有更多的客戶基于強(qiáng)化學(xué)習(xí)后訓(xùn)練,基于更強(qiáng)大的基模會(huì)開發(fā)出更嶄新的,更有價(jià)值的面向社會(huì)價(jià)值的客戶應(yīng)用和AI原生應(yīng)用,以及AIAgent。
第二我們看Omni,Omni從全球看更意味著音頻、視頻、聲音和文字全模態(tài)融合,這已經(jīng)打破了單一的文生圖,文生視頻單項(xiàng)能力,實(shí)現(xiàn)全模態(tài)共同融合,Omni主要是跨越模態(tài)的界限,整合不同類型的要素,解決復(fù)雜問題提供強(qiáng)有力的支撐,并激發(fā)新的可能性。這里邊Omni未來更多是讓模型像人一樣去識(shí)別圖像、文字,對(duì)意圖的理解,對(duì)視頻理解,對(duì)聲音的理解,通過這樣理解方式能夠創(chuàng)造更多的嶄新的商業(yè)模式,這個(gè)就是未來一個(gè)重要的兩個(gè)方向。
下面我們可以分別展開來做一些探索。
首先我們看一下Reasoning這個(gè)方向,在上個(gè)月6號(hào)我們開源了千問32B這個(gè)模型,這款模型在數(shù)字代碼以及通用能力上有了非常重要的突破,尤其在小參數(shù)實(shí)現(xiàn)大參數(shù)模型的Sora能力上,展現(xiàn)非常高的水準(zhǔn),不僅應(yīng)用原來的傳統(tǒng)模型能力,同時(shí)看到今天已經(jīng)廣泛應(yīng)用風(fēng)險(xiǎn)控制、風(fēng)險(xiǎn)審核等任務(wù),集成了智能體能力之后,它對(duì)Agent智能體更加友好,特別32B參數(shù)模型非常有效降低客戶部署和使用的成本,甚至在消費(fèi)級(jí)的卡上也能夠部署,我們正在沿著Reasoning推理能力更強(qiáng),更智慧的方向去提升模型。
第一用強(qiáng)化學(xué)習(xí)進(jìn)一步提升模型的泛化模型,例如把推理任務(wù)拆解成多個(gè)子任務(wù),從而提升模型跨領(lǐng)域泛化能力;第二模型將自行判斷用快思考還是慢思考解決問題,這樣的話模型能夠在快速響應(yīng)的時(shí)候更快,該快的時(shí)候更快,該慢的時(shí)候思考的更深,這樣情況下可以合理使用底層計(jì)算資源,降低資源的不必要的消耗;第三模型具備更強(qiáng)大的任務(wù)規(guī)劃和工具調(diào)度能力,并且成為模型自身的原生能力,這些能力納入到模型本身推理之后,從而加速Agent和AI的落地。
我們來看一下多模態(tài)方向,大家知道多模態(tài)領(lǐng)域2023年、2024年已經(jīng)有廣泛的提及,當(dāng)時(shí)模型不足以商業(yè)模式上真正落地,多模態(tài)領(lǐng)域當(dāng)中先介紹最近開源的兩款模型,千問VL是一款視覺語言模型,今年1月份發(fā)布的時(shí)候13項(xiàng)權(quán)威當(dāng)中都拿到最高獎(jiǎng)項(xiàng),最重要變化是對(duì)物品理解大大增強(qiáng),不僅對(duì)花草、文物、植物這些東西識(shí)別,更多是Grounding能力上不斷提升,同時(shí)能夠理解視頻內(nèi)容,并且按照J(rèn)acent(音)方式返回坐標(biāo),對(duì)OCR掃描也有很好泛化能力,特別需要強(qiáng)調(diào)是增加了長達(dá)一小時(shí)復(fù)雜視頻理解能力,能夠按照要求返回事件,按照事件返回結(jié)果。
舉個(gè)例子如果看一場大概1—2小時(shí)NBA比賽,我們就可以在這場比賽當(dāng)中去節(jié)選某一個(gè)特定指定球星扣籃、搶斷3分的所有的集錦,并且給予相應(yīng)的數(shù)據(jù)分析,大家想想如果這個(gè)能力在更多領(lǐng)域提升的話,我們可以創(chuàng)造更大商業(yè)上想象空間,并且有更高效率提升。
同時(shí)我們看到萬相是我們發(fā)布一款視頻生成模型,今年2月份我們拿下權(quán)威評(píng)測VBench mark的榜首,對(duì)于物理規(guī)律反饋是非常逼真的,對(duì)于大幅度運(yùn)動(dòng)以及穩(wěn)定的格式化輸出都有很好的表現(xiàn),大家從屏幕當(dāng)中可以看到一些具體的效果。
4
Omni:多磨感知,跨域協(xié)同
3月27號(hào)發(fā)布首款端到端、全模態(tài)大模型千問2.5—Omni 7B,同時(shí)這款模型最大特點(diǎn)是同時(shí)可以處理文本、圖像、音頻、視頻多種輸入,并且實(shí)時(shí)的生成文本與自然語言進(jìn)行合成輸出。同樣在權(quán)威的評(píng)測當(dāng)中Omni刷新業(yè)界記錄,能夠以接近人類的感官方式更立體認(rèn)知世界,并實(shí)現(xiàn)交互,通過音視頻識(shí)別復(fù)雜的情緒,完成if的理解,更自然反饋角色。
當(dāng)我們每一個(gè)人看到電影,看到圖片,看到視頻,看到對(duì)話的時(shí)候我們自然會(huì)產(chǎn)生一些反映,產(chǎn)生一些總結(jié),但是人的記憶力是有限的,人的總結(jié)能力是有限的,今天大語言模型可以無死角、無疲勞的不斷進(jìn)行輸出,給予更科學(xué)、更高效、更權(quán)威數(shù)字的反饋,這個(gè)對(duì)未來價(jià)值非常高的。人類對(duì)世界認(rèn)知本身就是多模態(tài)的,多種模態(tài)模型必然相互融合,最終實(shí)現(xiàn)一定是全模態(tài)的輸入和輸出,模型會(huì)更加深入理解聲音、語言、視頻,理解情緒,理解意圖,從而實(shí)現(xiàn)多模感知和跨越協(xié)同,所以模型反映速度將大幅度提升,并且大幅度降低模型反映的延遲,最終為我們帶來更為逼真的交互理解一些嶄新方式。
剛才我們從模型功能上討論了Reasoning推理和Omni兩大重要必然發(fā)展趨勢。
另外維度上,2024年另外領(lǐng)域也在不斷演進(jìn),這個(gè)領(lǐng)域就是模型工程領(lǐng)域,模型工程領(lǐng)域不斷快速優(yōu)化,加速擴(kuò)展AI應(yīng)用的邊界,重要的架構(gòu)就是MOE架構(gòu),今天看到MOE架構(gòu)全球大家關(guān)注重點(diǎn),這個(gè)架構(gòu)能夠降低模型推理的資源消耗,提升模型的技能表現(xiàn),尤其垂直領(lǐng)域大大超越傳統(tǒng)的小模型,這時(shí)候我們就非常關(guān)注小尺寸模型,不斷訓(xùn)練、加強(qiáng),或者通過蒸餾等技術(shù)手段,將大尺寸模型逐漸的生成垂直領(lǐng)域,垂直方向的小尺寸模型,這樣更好滿足各種終端側(cè)需求,這樣我們對(duì)模型應(yīng)用上絕不僅僅限制在屏幕上、電腦上,更多從虛擬世界走向物理世界,我們看到這樣小尺寸端側(cè)模型對(duì)于消費(fèi)電子、手機(jī)、汽車、終端各種交互設(shè)備都有巨大的利好。剛才介紹VL、Omni這些模型都推出小尺寸的版本,可以同時(shí)運(yùn)行在手機(jī)這樣的端側(cè)模型上,實(shí)現(xiàn)多模態(tài)的感知,后面有案例跟大家進(jìn)行分享。
去年大會(huì)上阿里云曾經(jīng)提出一個(gè)論斷,AI最大想象力是接管數(shù)字世界,并且改變物理世界,小尺寸模型在一定程度上今天正在讓這個(gè)論斷逐漸變成現(xiàn)實(shí)。
5
為AI應(yīng)用者打通最后一公里
接下來我們看看第二個(gè)方向,在模型之下推理服務(wù)基礎(chǔ)設(shè)施這個(gè)層面最新的進(jìn)展。大家看這張圖當(dāng)中有非常多的數(shù)字,全新模型權(quán)重服務(wù)面向MOE推理引擎,流量感知的PD分離,企業(yè)級(jí)的模型的API服務(wù),在AI推理訓(xùn)練應(yīng)用不斷爆發(fā)過程當(dāng)中,AI基礎(chǔ)設(shè)施也隨之做了非常多優(yōu)化,沒有這些能力優(yōu)化我們也感受不到今天AI應(yīng)用爆發(fā)的層出不窮。
第一個(gè)數(shù)字模型的參數(shù)量持續(xù)擴(kuò)大之后,模型的冷啟動(dòng)和規(guī)?;瘮U(kuò)容就成為新的瓶頸都需要花費(fèi)很長時(shí)間,尤其存儲(chǔ)側(cè)、網(wǎng)絡(luò)側(cè)帶來巨大壓力,所以基于此推出全新模型權(quán)重服務(wù),將大模型從0—100節(jié)點(diǎn)冷啟動(dòng)速度提升21倍,將50—100節(jié)點(diǎn)擴(kuò)容速度提升12倍,這就是大家看到21和12,在MOE架構(gòu)本身對(duì)資源的利用率相對(duì)高,但調(diào)度和應(yīng)用件失陪相對(duì)復(fù)雜,針對(duì)MOE優(yōu)化阿里云推出分布式推理調(diào)度引擎Llumnix,提高了集群的資源利用率,降低了推理延遲,使得第一個(gè)首Token延遲下降92%,同時(shí)每一個(gè)Token生成時(shí)間降低15%??吹谌M數(shù)字,阿里云今年實(shí)現(xiàn)流量感知的PD分離,也就是預(yù)填充和解碼的分離,實(shí)現(xiàn)高性能的KV存儲(chǔ),通過技術(shù)優(yōu)化端到端的服務(wù)吞吐提升接近91%,這樣的話千萬級(jí)的活躍用戶場景KV Cache命中率就可以提升10倍,基于這些底層技術(shù)為大語言模型訓(xùn)練推理優(yōu)化之后,我們最終能夠?yàn)槠髽I(yè)級(jí)客戶企業(yè)級(jí)模型提供更好的API服務(wù),更穩(wěn)定高效API服務(wù),滿足多元化服務(wù)等級(jí)目標(biāo)。
最后我們看一下開發(fā)工具。剛才我講到是過去相對(duì)被忽略一環(huán),今天當(dāng)AI爆發(fā)的時(shí)候如何利用開發(fā)工具更高效快速開發(fā)應(yīng)用是非常關(guān)鍵新的部分。
今天AI應(yīng)用開發(fā)需要更強(qiáng)大好用易用的工具,讓更多企業(yè)客戶可以用更低門檻擁抱AI,在阿里云百煉平臺(tái)上不斷進(jìn)行優(yōu)化之后提供今天全鏈路應(yīng)用構(gòu)建工具,這也是相對(duì)于我們說給所有的企業(yè)AI應(yīng)用開發(fā)者提供了最后一公里落地的技術(shù)保障。第一個(gè)就是記憶類工具,為客戶提供高效智能上下文管理,解決碎片化問題,提供個(gè)性化長期記憶,提升模型的推理效率;第二點(diǎn)RAG工具,檢索增強(qiáng)工具支持文本、表格、圖片等跨模態(tài)的融合搜索,提升了搜索的精準(zhǔn)度;第三模型的路由工具,相對(duì)復(fù)雜工作流程當(dāng)中,模型路由工具可以根據(jù)客戶任務(wù)需求自動(dòng)的進(jìn)行調(diào)度的智能化;第四工作流編排工具,通過拖拉拽方式實(shí)現(xiàn)多種智能體之間的混合編排,實(shí)現(xiàn)企業(yè)級(jí)的SLA保障;第五點(diǎn)工具調(diào)用能力,如何幫助企業(yè)用5—10分鐘構(gòu)建智能體,灌入企業(yè)的數(shù)據(jù)和業(yè)務(wù)邏輯,并提供豐富的插件,幫助客戶解決快速構(gòu)建技術(shù)應(yīng)用,最后我們也提供了全鏈路的觀測能力,能夠讓企業(yè)在一個(gè)生命周期內(nèi)看到所有AI Agent,AI應(yīng)用的運(yùn)轉(zhuǎn)情況和使用效果。
6
大模型正在成為創(chuàng)新的核心競爭力
下面我們把枯燥的概念變成幾個(gè)真實(shí)的案例,我們看一看當(dāng)天很多企業(yè)是如何利用大模型實(shí)現(xiàn)生產(chǎn)力提升,實(shí)現(xiàn)已有的變革。
我們來看第一個(gè)案例,我們很多講到了多模態(tài),這個(gè)案例就是一個(gè)非常典型的案例,大家看到榮耀手機(jī),在座很多人也是榮耀手機(jī)客戶,今天中國所有的手機(jī)品牌都在all inAI路上,大力發(fā)展基于手機(jī),甚至說手機(jī)操作系統(tǒng)原生的AI新的創(chuàng)新,榮耀任意門,通過手的關(guān)節(jié)圈選屏幕上內(nèi)容,實(shí)現(xiàn)全新指關(guān)節(jié)和屏幕的交互模式,這個(gè)不僅僅是截圖,更多是通過AI識(shí)別意圖和提供相應(yīng)服務(wù),我圈選的圖片這里邊是文字,是圖片還是其他內(nèi)容,能夠識(shí)別出我們需要為這個(gè)圖片文字所進(jìn)行的下一步的操作,對(duì)AI的應(yīng)用,AI的要求就包括了對(duì)圖像文本、文字的精準(zhǔn)識(shí)別,包括人物、景點(diǎn)、風(fēng)景、食品、動(dòng)物、植物等等場景越復(fù)雜用戶意圖越多樣化,識(shí)別難度越高,產(chǎn)生延遲也比較高,所以實(shí)時(shí)互動(dòng)仍然是很大挑戰(zhàn),阿里云和榮耀一起合作,在百煉平臺(tái)上打造了一個(gè)VQA視覺問答的端到端解決方案,基于意圖識(shí)別多模型協(xié)同實(shí)現(xiàn)了圖片問答以及通過并行策略實(shí)現(xiàn)全鏈路的延遲優(yōu)化,這樣的話使得榮耀手機(jī)在圖片細(xì)分場景的識(shí)別率提升接近40%,整體延遲率降低30%,實(shí)現(xiàn)客戶在榮耀手機(jī)上對(duì)AI真實(shí)感知。
我們來看第二個(gè)案例庫迪咖啡,是一個(gè)全球知名的連鎖咖啡品牌,他有一個(gè)非常重要的工作如何對(duì)全球上萬家門店進(jìn)行每天的質(zhì)檢,質(zhì)檢不僅包括產(chǎn)品質(zhì)量,包括每個(gè)店面當(dāng)前實(shí)時(shí)的運(yùn)行情況,所以庫迪咖啡一直希望大模型替代人工抽樣檢測,規(guī)范店面環(huán)境,產(chǎn)品質(zhì)量、人工服務(wù),比如說筒是否蓋好,顯示器是否關(guān)閉,員工著裝是否規(guī)范等等,那針對(duì)當(dāng)前單獨(dú)使用大模型無法達(dá)成客戶對(duì)準(zhǔn)確率和召回率要求的情況,庫迪咖啡和阿里云合作,我們在百煉平臺(tái)通過大模型和小模型相互結(jié)合以及多模態(tài)理解之后,實(shí)現(xiàn)了萬家店鋪的智能巡檢,推動(dòng)店鋪規(guī)范化,視覺專家小模型負(fù)責(zé)業(yè)務(wù)目標(biāo)理解,千問VL模型負(fù)責(zé)場景理解,大小模型協(xié)同之后,將整個(gè)模型對(duì)整個(gè)質(zhì)檢背后的準(zhǔn)確率提升95%,事件準(zhǔn)確率提升80%,這樣的話顯著提升運(yùn)行效率,也間接提升客戶滿意度。
垃圾
我們再看國內(nèi)案例,魚泡招聘,是一家位于成都企業(yè),是國內(nèi)領(lǐng)先藍(lán)領(lǐng)招聘平臺(tái),藍(lán)領(lǐng)招聘跟白領(lǐng)招聘有非常大的不同,他的工作更換頻率是比較高的,同時(shí)10倍的發(fā)布也相對(duì)具有一些口語化、工種復(fù)雜、描述復(fù)雜、招聘求職意愿快速變化的特點(diǎn),魚泡招聘基于百煉平臺(tái)智能化編排能力構(gòu)建了招工信息的加工、處理匹配智能化數(shù)據(jù)鏈路,包括近百個(gè)工作流節(jié)點(diǎn),數(shù)十個(gè)業(yè)務(wù)邏輯分支,特別是基于全流程可視化編排,AI業(yè)務(wù)開發(fā)時(shí)長從以往一兩周縮短到一兩天,大幅度提升開發(fā)速度基礎(chǔ)上顯著提升了職位匹配成功率。今天看到魚泡招聘只是阿里云今天用API,用大語言模型服務(wù)客戶的滄海一粟,在更多原來PC端交互過程當(dāng)中,很多基于交互業(yè)務(wù)流程的交互,包括數(shù)據(jù)交互,這樣場景當(dāng)中大語言模型對(duì)這樣的場景替代率,包括整個(gè)效率提升是更為明顯的,在藍(lán)領(lǐng)招聘領(lǐng)域,大家知道誰是市場第一名,今天市場第一名絕對(duì)領(lǐng)導(dǎo)者也在此時(shí)此刻正在使用阿里通義模型進(jìn)行內(nèi)部效率提升,在教育、面試、招聘大語言模型無論多模態(tài),意圖理解,對(duì)數(shù)據(jù)標(biāo)注,包括智能化服務(wù)方面都能夠給予這些領(lǐng)域巨大提升,今年看到在教育領(lǐng)域,對(duì)整個(gè)教育領(lǐng)域AI巨大整個(gè)商業(yè)模式重構(gòu)甚至改變,在教育領(lǐng)域當(dāng)中題庫設(shè)計(jì)、新題編排,包括解題思路過去大量基于人工,今天大語言模型在數(shù)學(xué)模型不斷提升,為基礎(chǔ)學(xué)科能力提升為整個(gè)教育領(lǐng)域帶來嶄新效率提升甚至行業(yè)變革。
看一下利用AI來實(shí)現(xiàn)多模態(tài)意圖理解案例,聽力熊,是專注于青少年市場隨身智能體的創(chuàng)新企業(yè),他的產(chǎn)品可以支持即拍即問,并且實(shí)現(xiàn)視頻、音頻、圖片、圖像多模態(tài)交互,用戶利用聽覺產(chǎn)品拍攝課本插圖、設(shè)備,聽力熊設(shè)備自動(dòng)生成相應(yīng)歷史故事,并進(jìn)行語音的講解,通過哪吒等新的虛擬的數(shù)字人形象與用戶進(jìn)行交互和互動(dòng),所以說對(duì)聽力熊對(duì)圖像識(shí)別精度、信息查詢準(zhǔn)確性、交互延遲都提出非常高嚴(yán)格的需求,聽力熊基于百煉智能化助力方案,通過大小模同協(xié)同實(shí)現(xiàn)語音視覺、文本多模態(tài)交互,并且支持50多款預(yù)制的技能,從而顯著提升AI實(shí)物智能講解、口語陪練等多個(gè)場景的客戶體驗(yàn)。
今天我看到我們在很多場景當(dāng)中看到,這些新的小型的終端型的面向C端設(shè)備,無論像聽力熊這樣的隨身智能體還是智能演進(jìn)、智能鼠標(biāo)、智能耳機(jī),這樣設(shè)備不斷發(fā)展過程當(dāng)中我們發(fā)現(xiàn)大語言模型、基礎(chǔ)模型就變成了這些嶄新創(chuàng)業(yè)企業(yè)核心產(chǎn)品的核心競爭力。
7
全棧AI賦能客戶
今天我們看到AI應(yīng)用構(gòu)建方式非常多樣化,既可以在云上,公共云上進(jìn)行開發(fā)部署,我們也支持本地化服務(wù),為了更好服務(wù)本地服務(wù),特別滿足部分政企客戶監(jiān)管性要求,阿里云推出了百煉專署版,百煉專署版作為企業(yè)級(jí)大模型生產(chǎn)管理應(yīng)用開發(fā)平臺(tái),包括了深入理解政企客戶的場景需求,接入政企客戶的長線工具,同時(shí)支持一云多芯,包括支持異構(gòu)計(jì)算、多類CPU和GPU,并且在CPU和GPU之間實(shí)現(xiàn)高效調(diào)度和高效的異構(gòu)算力的調(diào)度,充分滿足客戶在信創(chuàng)方面要求。第三在多模方面支持與第三方模型接入,為政企客戶提供豐富多樣模型選擇;第四打造專署模型,專署部署和專署的安全體系,為政企客戶提供高可用定制化方案,今天百煉專署版為匹配政企客戶核心業(yè)務(wù)需求在政務(wù)、金融、能源、電力、科研、醫(yī)療很多方面深度應(yīng)用。
做了前面一些總結(jié)分析,包括對(duì)推理應(yīng)用方面整個(gè)案例分享,我們可以看到,總結(jié)起來從算力資源到組件調(diào)用直接影響AI實(shí)際應(yīng)用的效果,要全面的優(yōu)化AI技術(shù)棧,今天阿里云內(nèi)部提出全棧AI,不僅是大模型,也不僅是云下技術(shù)架構(gòu)層,包含底層的異構(gòu)算力、模型服務(wù)平臺(tái)、百煉平臺(tái),以及上面所有面向客戶服務(wù),技術(shù)架構(gòu)層面計(jì)算資源需求日益增長,GPU需求增長速度遠(yuǎn)遠(yuǎn)高于傳統(tǒng)CPU增長,遍布全球AI計(jì)算集群會(huì)成為未來新的剛需,這些集群支持大規(guī)模的訓(xùn)練任務(wù),并且同時(shí)滿足實(shí)時(shí)的推理應(yīng)用的需求。
在數(shù)據(jù)服務(wù)層,大家知道所有大模型創(chuàng)新包括專署模型,包括AI應(yīng)用AIAgent都離不開高質(zhì)量數(shù)據(jù)灌入,這些數(shù)據(jù)導(dǎo)入需要先進(jìn)、安全可信的數(shù)據(jù)管理技術(shù),加速AI數(shù)據(jù)的生產(chǎn)周期。第三開發(fā)構(gòu)建層,今天基于全球領(lǐng)先的基礎(chǔ)大模型必須配套更為領(lǐng)先的應(yīng)用構(gòu)建的系列工具,幫助企業(yè)在最后一公里實(shí)現(xiàn)模型應(yīng)用的落地,讓企業(yè)能夠快速的組合不同功能的Agent,從而高效的完成任務(wù)的執(zhí)行?;A(chǔ)設(shè)施層面和數(shù)據(jù)服務(wù)層面阿里云已經(jīng)耕耘多年,無論從阿里系內(nèi)部,還是服務(wù)于很多的互聯(lián)網(wǎng)企業(yè)客戶、政企客戶,他們業(yè)務(wù)需求、性能需求安全穩(wěn)定高可用需求給很多技術(shù)挑戰(zhàn),同時(shí)幫助我們不斷提升自己產(chǎn)品能力,在新型開發(fā)構(gòu)建層和應(yīng)用生態(tài)層我們未來發(fā)力重點(diǎn),不斷加大投入,讓AI和云更好融合,為客戶提供更加高效AI基礎(chǔ)設(shè)施。
8
Agent Store構(gòu)建生態(tài)
下面就談一下未來我們兩個(gè)重要的新的方向。剛才我們對(duì)行業(yè)趨勢、技術(shù)發(fā)展趨勢和應(yīng)用的方向做了探索,下面我們來講一下未來我們兩個(gè)重要計(jì)劃。大家知道從大語言模型開發(fā)以來接近不到3年時(shí)間,這個(gè)領(lǐng)域當(dāng)中發(fā)展速度非??欤P偷俣确浅?欤碌哪P蛯映霾桓F,開發(fā)構(gòu)建層大語言模型和外部工具交互一直非常重要的一環(huán),我們構(gòu)建應(yīng)用的時(shí)候我們無法逃避這樣溝通重要橋梁。MCP是今天公認(rèn)的業(yè)界標(biāo)準(zhǔn),有望加速AI應(yīng)用爆發(fā)的最后一公里的連接。在MCP之前有很多人嘗試過函數(shù)調(diào)用、提示詞工程、插件等方式,今天MCP通過統(tǒng)一標(biāo)準(zhǔn)接口,類似于今天電腦手機(jī)當(dāng)中看到USB—C、TapC接口,這樣一種標(biāo)準(zhǔn)接口降低大模型和外部系統(tǒng)的集成門檻,我們也正式宣布從今天2025年4月9日開始在百煉上全面支持MCP服務(wù)部署和調(diào)用。我們?nèi)N方式MCP廣場預(yù)制20家云端服務(wù)、50家本地服務(wù),并且支持RemoteAI服務(wù)。第二在MCP管理方面,我們提供自主開發(fā)注冊的MCP服務(wù),基于函數(shù)計(jì)算提供MCP彈性調(diào)度能力。第三在MCP調(diào)用上智能體和工作流當(dāng)中配置MCP服務(wù),全模型的MCP服務(wù)調(diào)用兼容,這樣在百煉上兼容MCP亮點(diǎn)在于一鍵部署免運(yùn)維,多類型服務(wù)的供給,以及全鏈路工具兼容和更低成本的托管,讓客戶能夠在應(yīng)用和大語言模型之間在百煉平臺(tái)上實(shí)現(xiàn)最后一公里的落地。
最后我想談一談一個(gè)嶄新的想法,這也是我們對(duì)未來即將發(fā)布新的業(yè)務(wù)策略的預(yù)告,大家知道我們談了非常多的Agent,今天Agent已經(jīng)從很小手機(jī)端電腦端功能插件,延伸到自動(dòng)駕駛走進(jìn)大家生活更為重要的大型AIAgent,我相信未來AI Agent不僅僅手機(jī)上應(yīng)用程序,會(huì)遍布各種各樣的終端,用各種各樣的形式來服務(wù)大家的生活、工作,所以今年一定是AI Agent爆發(fā)一年,未來AI Agent會(huì)以各種各樣形態(tài)存在手機(jī)、終端、電腦和各種各樣的新型設(shè)備當(dāng)中,為了加大AI Agent應(yīng)用爆發(fā),同時(shí)降低AI Agent開發(fā)的門檻,同時(shí)本著為市場提供更高質(zhì)量的AI Agent,提供更高質(zhì)量更便利的AI Agent開發(fā)工具環(huán)境平臺(tái),拓展嶄新領(lǐng)域,開辟新的市場,阿里云的AI Agent Store打開AI生態(tài)繁星閣,推動(dòng)企業(yè)進(jìn)入人機(jī)協(xié)同的時(shí)代,幫助客戶更好更快更高效的開發(fā)Agent。
我們首先從我做起從我們自身做起,推動(dòng)阿里巴巴旗下所有服務(wù),首先走向AI Agent,首先開放在AI Agent Store上,希望更多Agent Store開發(fā)部署發(fā)布有自己特點(diǎn),可以被觀眾廣泛接納新型的AI Agent,無論開發(fā)者、內(nèi)容創(chuàng)作者還是行業(yè)解決方案提供商,均可以在AI Agent Store貢獻(xiàn)智慧,共享成果,不斷迭代開發(fā)應(yīng)用,我們相信阿里云AI Agent Store是AI時(shí)代的應(yīng)用繁星閣,他將不斷豐富功能和服務(wù),并且加速在很大領(lǐng)域包括汽車、手機(jī)、零售、健康方方面面領(lǐng)域的智能化,為用戶開發(fā)應(yīng)用帶來更好的體驗(yàn),同時(shí)希望把我們自身當(dāng)中有高價(jià)值的服務(wù)開放給全社會(huì)。
最后做一個(gè)總結(jié),我們看到站在今天的AI技術(shù)革命的浪潮之巔,站在2025年AI Agent爆發(fā)元年,不僅屬于技術(shù)突破,更屬于開放、協(xié)作和共享生態(tài),我們追求的一定不是單純的模型強(qiáng)國,我們追求的一定是未來的更為豐富的AI應(yīng)用強(qiáng)國,所以說我們以三個(gè)關(guān)鍵詞為今天演講劃句號(hào),堅(jiān)定投入、全棧創(chuàng)新、開源開放。阿里把AI作為我們核心戰(zhàn)略,不僅僅對(duì)阿里云,對(duì)阿里巴巴所有業(yè)務(wù)會(huì)不斷投入研發(fā),保持技術(shù)領(lǐng)先性為客戶提供更高效無論從模型還是基礎(chǔ)設(shè)施層面,同時(shí)我們也會(huì)堅(jiān)持不斷的AI的全棧創(chuàng)新,從底層基礎(chǔ)設(shè)施到頂層的大語言模型的開發(fā),構(gòu)建全球的全棧技術(shù)能力,堅(jiān)持技術(shù)創(chuàng)新;第三開源開放是我們始終堅(jiān)定理念,阿里云始終倡導(dǎo)開源開放,我們相信只有通過更多、更開放的技術(shù)共享,才能夠加速AI的普及、普惠和規(guī)?;瘧?yīng)用,所以說我們經(jīng)常講未來已來,所以跟大家講今天不是談?wù)撐磥硪褋恚M腥颂崆斑M(jìn)入未來,共同推動(dòng)AI為社會(huì)進(jìn)步。
熱門跟貼