打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片

搜狐科技《思想大爆炸——對話科學(xué)家》欄目第113期,對話浙江大學(xué)計算機(jī)學(xué)院教授莊越挺。

嘉賓簡介:

莊越挺,浙江大學(xué)求是特聘教授,浙江大學(xué)學(xué)術(shù)委員會副主任,浙江大學(xué)計算機(jī)科學(xué)與技術(shù)學(xué)院原院長,中國人工智能學(xué)會副理事長,長期從事跨媒體、人工智能、數(shù)字圖書館等領(lǐng)域研究。

打開網(wǎng)易新聞 查看精彩圖片

  • 這次AI熱潮與以往不同,主要由工業(yè)界的需求驅(qū)動,應(yīng)用領(lǐng)域比較廣泛。

  • AIGC未來的發(fā)展方向是from X to Y 的多模態(tài)大模型。目前的技術(shù),無論是文本還是圖像生成,都只是基于概率的采樣,而沒有真正的推理過程。

  • 我們的想法是讓大模型和小模型協(xié)同工作,用最少的成本達(dá)到最好的效果。

出品|搜狐科技

作者|漢雨棣

編輯|楊 錦

當(dāng)ChatGPT掀起全球狂歡,當(dāng)杭州“創(chuàng)業(yè)六小龍”在資本浪潮中嶄露頭角,很少有人注意到,中國人工智能的起點,始于上世紀(jì)90年代圖書館里手抄文獻(xiàn)的學(xué)者背影。浙江大學(xué)莊越挺教授,已經(jīng)親歷了AI的兩次起落。

90年代,他參與的國家七五重點攻關(guān)項目“天馬”專家系統(tǒng)斬獲國家獎項,在隨后漫長的“AI寒冬”中堅守陣地;2017年后,AlphaGo與深度學(xué)習(xí)重燃AI戰(zhàn)事。從“紙上談兵”的理論爭議到醫(yī)療、文化的落地革命,他坦言“這次熱潮不一樣”——工業(yè)需求與技術(shù)突破的雙重推力,正將AI推向一個更務(wù)實卻也更顛覆的時代。

當(dāng)被問及“杭州為何跑出六小龍”,莊越挺認(rèn)為,關(guān)鍵因素離不開“浙大人的踏實”與政府的開放包容。杭州這座城市的創(chuàng)新生態(tài),既有海歸帶來的全球視野,也有阿里系鍛造的商業(yè)敏感,更離不開浙大校友“總工程師式”的技術(shù)執(zhí)著。

作為高校研究者,他表示現(xiàn)在高校項目中,AI研究的真正價值在于“頂天立地”——既要攀登理論高峰,也要解決癌癥篩查、古籍?dāng)?shù)字化等民生痛點。

在近日“吳文俊人工智能科學(xué)技術(shù)獎”頒獎典禮期間,搜狐科技與莊越挺展開了一場深入的對話。

打開網(wǎng)易新聞 查看精彩圖片

對AI的三十年追問

搜狐科技:您在碩士研究生階段就開始研究人工智能,當(dāng)時主要研究的是專家系統(tǒng),那時候這個領(lǐng)域非常熱門。后來您擔(dān)任了十年浙江大學(xué)人工智能研究所的所長。經(jīng)過這么多年人工智能又重新火熱起來。您認(rèn)為這兩次熱潮有不同之處嗎?

莊越挺:有區(qū)別。我讀研究生是在90年代,當(dāng)時人工智能的熱潮主要集中在專家系統(tǒng)上,基于符號主義,通過總結(jié)知識形成規(guī)則,再用邏輯推理的方式進(jìn)行處理。當(dāng)時人工智能的研究就非?;鸨?。我在碩士期間參與了一個由中科院數(shù)學(xué)所陸汝鈐院士牽頭的國家七五重點攻關(guān)項目,主要是專家系統(tǒng)開發(fā)環(huán)境,后來這個項目還獲得了國家科技進(jìn)步二等獎,可以說是當(dāng)時做得最好的項目之一。

后來我在浙江大學(xué)人工智能研究所擔(dān)任所長。當(dāng)時人工智能就轉(zhuǎn)入低潮期了,但我說仍然還是要堅持人工智能的研究。

中國新一代人工智能研究的熱潮開始于在2017年,國家發(fā)布了《新一代人工智能發(fā)展規(guī)劃》。這次熱潮與以往不同,主要是由工業(yè)界的需求驅(qū)動,應(yīng)用領(lǐng)域比較廣泛,得益于像深度學(xué)習(xí)這樣的技術(shù)突破,即數(shù)據(jù)驅(qū)動的神經(jīng)網(wǎng)絡(luò)方式。比如,阿爾法狗(AlphaGo)是一個標(biāo)志性事件,說明深度學(xué)習(xí)技術(shù)為代表的、數(shù)據(jù)驅(qū)動的神經(jīng)網(wǎng)絡(luò)方式可以擔(dān)當(dāng)大任。

搜狐科技:您提到浙大牽頭創(chuàng)建了數(shù)字圖書館。經(jīng)過了幾十年您對目前的數(shù)字圖書館發(fā)展情況滿意嗎?

莊越挺:那時候的情況是很多書都躺在圖書館里,沒有電子版。不像現(xiàn)在,你要寫一本書,寫完之后圖書館都會有電子版,這就是“原生電子書”,出版的書“生下來”就有電子版。但以前可不是這樣,我們讀書的時候找文獻(xiàn)非常困難,所以當(dāng)時我們經(jīng)常要跑到北京查資料,比如到國家圖書館或者其他研究機(jī)構(gòu)的圖書館,找到資料復(fù)印后再帶回去。尤其是2000年之前,很多文科類的書基本都沒有掃描和數(shù)字化,研究歷史和古籍的資料尤甚。

我們當(dāng)時就在思考,圖書館的理念應(yīng)該是“Anyone Anytime Anywhere can access Any information”,也就是任何人、任何時間、任何地點都可以獲取任何知識。這個理念在今天已經(jīng)基本實現(xiàn)了。

在這個過程中大數(shù)據(jù)的概念剛好出現(xiàn)。我們在研究圖書館技術(shù)時就發(fā)現(xiàn)大數(shù)據(jù)技術(shù)非常有用,就同時也做了一些研究。大數(shù)據(jù)智能恰恰就是新一代人工智能的核心之一。

現(xiàn)在,如果把所有書放到人工智能模型中進(jìn)行訓(xùn)練,模型就掌握了所有書里的知識,可以進(jìn)行推理。你問它任何問題它都能回答。所以數(shù)字圖書館未來一定會走向基于大語言模型的智慧圖書館,這是必然的趨勢。

搜狐科技:目前的大數(shù)據(jù)還有哪些新的發(fā)展方向嗎?

莊越挺:比如GPT,它主要是完成從文本到文本的任務(wù)。但AIGC的內(nèi)容遠(yuǎn)遠(yuǎn)不止這些,比如說以文生圖、以文生聲音,以文生視頻等等。這個概念實際上還可以進(jìn)一步泛化,就是從 X 到 Y。即輸入是任意的媒體類型或組織,輸出也是任意的媒體類型及組合。比如輸入是圖像,輸出是文本;輸入是文本,輸出是聲音。各種各樣都有。這是多模態(tài)的大模型,突破點就在這里。但顯然,這塊還沒有達(dá)到我們完全滿意的地步,還有很多工作要做。

搜狐科技:主要的技術(shù)難點在哪里?

莊越挺:這個問題需要一步一步來分析。文本生成的后訓(xùn)練中我們可以給AI加入一種思維方式,比如現(xiàn)在的“思維鏈”方法。通過強(qiáng)化學(xué)習(xí)對思維鏈進(jìn)行訓(xùn)練后,可以產(chǎn)生很好的效果。但是對于圖像生成這一類的任務(wù),目前還沒有辦法將思維鏈這種方式應(yīng)用到圖像推理中。因此,圖像生成更多依賴于擴(kuò)散模型學(xué)習(xí),底層思路和文本生成有所不同。

從人類思考方式的角度來看,我們的大腦在想到某個事物時會有一個推理過程。但目前的技術(shù),無論是文本還是圖像生成,都只是基于概率的采樣,而沒有真正的推理過程。也就是說,文本中使用的思維方式目前還無法應(yīng)用到多模態(tài)的生成中,在這方面仍然存在局限性。

搜狐科技:您預(yù)計我們需要多長時間才能攻克這個難題?

莊越挺:系統(tǒng)每天都在進(jìn)步,沒有一個明確的“攻克”時間點。它不像某一個數(shù)學(xué)難題,一旦解出來了就是徹底解決了。AIGC的任何方面都是每天都在進(jìn)步,今天比昨天好,昨天比前天好。我認(rèn)為當(dāng)它達(dá)到某個足夠好的階段,能夠滿足大家的需求時,就可以認(rèn)為是“攻克”了。

打開網(wǎng)易新聞 查看精彩圖片

浙大是怎么培養(yǎng)出梁文鋒們的?

搜狐科技:今年以deepseek為代表的“杭州六小龍”很火。有人說杭州是新的硅谷,其中浙大系的創(chuàng)業(yè)者占了很大比重。您覺得這是不是和浙大的基因有關(guān)?

莊越挺:有人統(tǒng)計過,在杭州創(chuàng)業(yè)公司的CTO中有相當(dāng)大比例是浙大的校友。像杭州城西這一帶創(chuàng)新氛圍很好,有幾個因素:一個是浙大系,一個是阿里系,還有一個是海歸系。海歸也發(fā)揮了很重要的作用,帶來了很多新的想法。

搜狐科技:北京、上海也有大企業(yè)、好高校,還有更多的海歸,為什么是浙江?為什么是杭州?是不是浙大有什么特別的校友基因?

莊越挺:這種校友的基因一定是有的。每個大學(xué)都有自己的氛圍和習(xí)慣,比如清北的人有清北的基因,同樣,浙大人有浙大的基因。浙大的校訓(xùn)是求是創(chuàng)新,浙大人很踏實。以前很多浙大校友在國家重要單位做總工程師,技術(shù)扎實。我覺得這種基因是有的。

我沒有深入研究過校友創(chuàng)業(yè),但最近浙大校友的確在創(chuàng)新創(chuàng)業(yè)上表現(xiàn)得特別出色。整個杭州也很開放,尤其是城西科技城,政府對企業(yè)非常支持,對人才也很寬容。我覺得這些支持因素起了很大的作用。我也經(jīng)常參與一些人才項目評審,確實能感受到杭州對創(chuàng)業(yè)和人才的重視程度。

搜狐科技:您作為吳文俊人工智能科學(xué)技術(shù)獎勵委員會秘書長,在評選項目的時候,以及平常帶學(xué)生的時候,是更看重項目的落地能力,還是更看重創(chuàng)新能力?

莊越挺:作為高校工作人員,我們一方面肯定要注重理論研究。對于AI的研究,肯定不僅僅是工程師行為,不是單純地調(diào)參數(shù)調(diào)算法、達(dá)到最優(yōu)結(jié)果。理論研究需要有一些創(chuàng)新的想法,這是科研的基礎(chǔ)。

另一方面,這些想法也不能完全脫離實際,不能搞一些不著邊際的研究。理論必須聯(lián)系實際,即我們常說的,既要“頂天”,也要“立地”。我們現(xiàn)在強(qiáng)調(diào)的是結(jié)合應(yīng)用的創(chuàng)新,比如解決醫(yī)療問題,像醫(yī)學(xué)圖像識別,幫助篩選疾病、癌癥等。這不僅是解決實際問題,還隱含著理論上的突破。

我非常反對單純以論文為導(dǎo)向的模式——寫完一篇論文就認(rèn)為任務(wù)完成了,這種從論文到論文的做法我很反對。特別是現(xiàn)在大模型方向的研究,論文中提到的一些內(nèi)容是需要在實踐中驗證的,實踐需要能夠支持你的研究,這樣才能支撐你的研究走得更遠(yuǎn)。論文要寫在祖國的大地上。

搜狐科技:您覺得AI發(fā)展會導(dǎo)致失業(yè)嗎?

莊越挺:技術(shù)進(jìn)步只是改變了一些行業(yè),而不是消滅它們。就像蒸汽機(jī)的出現(xiàn)取代了馬車和馬夫,電力的出現(xiàn)取代了蒸汽機(jī),當(dāng)時很多人因為汽車的出現(xiàn)而不得不適應(yīng)新的變化。

同樣,計算機(jī)的出現(xiàn)也改變了某些行業(yè)。我認(rèn)為那些能夠?qū)⑷斯ぶ悄茏鳛楣ぞ卟⑸朴谑褂盟娜藭袃?yōu)勢。就像電子詞典的出現(xiàn),人們不再需要翻紙質(zhì)詞典,因為電子詞典速度更快,效率更高。人工智能系統(tǒng)也是如此,它們可以在短時間內(nèi)解決問題,為什么還要依賴人工呢?這樣節(jié)省下來的時間可以用來做更有價值的事情。

搜狐科技:那這么說那您其實是技術(shù)樂觀主義者了?

莊越挺:是的,我是樂觀的。

搜狐科技:您現(xiàn)在在關(guān)注什么AI問題?

莊越挺: 我現(xiàn)在在做大小模型協(xié)同、跨媒體智能等方向的研究。

搜狐科技:小模型現(xiàn)在用得不多了。

莊越挺:不完全是這樣。應(yīng)該說對小模型的關(guān)注少了。大模型確實很好,像Open AI、DeepSeek的那些大模型都很出色。但大模型用來解決一些小問題時,有時就像是殺雞用牛刀。因為大模型的使用成本很高,所以有時候我們應(yīng)該廣泛使用小模型。比如你問AI“請你介紹一下北京的人文歷史”,這樣的問題用小模型就可以解決。北京的歷史文化都是標(biāo)準(zhǔn)的、教科書上會提到的內(nèi)容。這種情況下,使用大模型就是白花錢。

很多小模型非常實用,尤其是那些用于視覺和多媒體的模型?,F(xiàn)在網(wǎng)上已經(jīng)積累了大量開源的小模型,比如Hugging Face,以及國內(nèi)的魔塔社區(qū)。我們的想法是讓大模型和小模型協(xié)同工作,用最少的成本達(dá)到最好的效果。

打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片

運(yùn)營編輯 |曹倩審核|孟莎莎

打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片