編輯部 發(fā)自 凹非寺量子位 | 公眾號(hào) QbitAI
2025,隨著大語(yǔ)言模型技術(shù)的迅猛發(fā)展,數(shù)據(jù)科學(xué)領(lǐng)域正經(jīng)歷一場(chǎng)靜默的革命。傳統(tǒng)的特征工程、模型訓(xùn)練與迭代優(yōu)化流程,正被智能化的研發(fā)助手所改變。
在第三屆AIGC產(chǎn)業(yè)峰會(huì)上,微軟亞洲研究院(MSRA)首席研究員劉煒清帶來(lái)了一項(xiàng)引人矚目的研究成果——RD-Agent,一個(gè)旨在“自動(dòng)化、增強(qiáng)到重塑”數(shù)據(jù)科學(xué)研發(fā)流程的智能系統(tǒng)。
這項(xiàng)研究源于一個(gè)現(xiàn)實(shí)問(wèn)題:當(dāng)大模型浪潮席卷各行各業(yè)時(shí),數(shù)據(jù)科學(xué)家們面臨著被顛覆還是被賦能的選擇題。與其坐等被顛覆,MSRA團(tuán)隊(duì)選擇主動(dòng)探索,將Agent技術(shù)轉(zhuǎn)化為科研助理,為每位研究員提供一個(gè)“虛擬助理”,承擔(dān)那些高門檻但又重復(fù)性強(qiáng)的研發(fā)工作。
從最初幫助研究員實(shí)現(xiàn)想法的開(kāi)發(fā)助手,到能夠自主提出研究方向的研究伙伴,RD-Agent正在以“AI驅(qū)動(dòng)數(shù)據(jù)驅(qū)動(dòng)AI”的方式,重新定義數(shù)據(jù)科學(xué)的工作流程。這不僅是一項(xiàng)技術(shù)創(chuàng)新,更是對(duì)未來(lái)科研方式的一次大膽探索。

為了完整體現(xiàn)劉煒清的思考,在不改變?cè)獾幕A(chǔ)上,量子位對(duì)演講內(nèi)容進(jìn)行了編輯整理,希望能給你帶來(lái)更多啟發(fā)。
中國(guó)AIGC產(chǎn)業(yè)峰會(huì)是由量子位主辦的AI領(lǐng)域前沿峰會(huì),20余位產(chǎn)業(yè)代表與會(huì)討論。線下參會(huì)觀眾超千人,線上直播觀眾320萬(wàn)+,累計(jì)曝光2000萬(wàn)+。
話題要點(diǎn)
- RD-Agent的三階段演進(jìn)路線:從初始的研發(fā)自動(dòng)化,到現(xiàn)階段的研發(fā)增強(qiáng),再到未來(lái)的領(lǐng)域重塑
- 雙Agent協(xié)作框架:Research Agent負(fù)責(zé)產(chǎn)生研究想法,Development Agent負(fù)責(zé)實(shí)現(xiàn)和驗(yàn)證,形成了閉環(huán)迭代系統(tǒng),大幅提升數(shù)據(jù)科學(xué)研究效率
- 數(shù)據(jù)驅(qū)動(dòng)的能力增強(qiáng):通過(guò)記錄和分析各種idea嘗試的結(jié)果數(shù)據(jù),使系統(tǒng)能夠超越“模仿專家”的瓶頸,實(shí)現(xiàn)真正的創(chuàng)新性突破
- 實(shí)際應(yīng)用場(chǎng)景價(jià)值:從團(tuán)隊(duì)自身研究效率提升到幫助金融合作伙伴實(shí)現(xiàn)論文自動(dòng)復(fù)現(xiàn)驗(yàn)證,特別是在Feature Generation等關(guān)鍵任務(wù)上達(dá)到80-90%的可用效果,展示了系統(tǒng)的實(shí)用價(jià)值
以下為劉煒清演講全文:
起源:以自動(dòng)化為目標(biāo)
大家早上好,我是來(lái)自微軟亞洲研究院(MSRA)的劉煒清。今天我給大家?guī)?lái)的研究題目是大語(yǔ)言模型時(shí)代下的數(shù)據(jù)科學(xué)新引擎RD-Agent,從自動(dòng)化、增強(qiáng)到重塑。這三個(gè)關(guān)鍵詞恰好也是描述了我們RD-Agent的起源、現(xiàn)狀和未來(lái)。
我們首先從RD-Agent以自動(dòng)化為目標(biāo)的起源開(kāi)始介紹起。首先介紹一下我們RD-Agent背后的團(tuán)隊(duì),我們團(tuán)隊(duì)從2017年初開(kāi)始與金融行業(yè)的各個(gè)領(lǐng)域不同方向的公司進(jìn)行深度的產(chǎn)業(yè)的科研的一些合作,大家對(duì)2017年這個(gè)時(shí)間有一些感覺(jué)的話,這恰好是AlphaGo當(dāng)年橫空出世打敗世界冠軍,使各行各業(yè)有一個(gè)擔(dān)憂,自己的行業(yè)會(huì)不會(huì)被AI所顛覆,同時(shí)也會(huì)有一些小的期待——會(huì)不會(huì)自己做的業(yè)務(wù)有機(jī)會(huì)能夠被AI所賦能的奇妙的一段時(shí)間。

我們團(tuán)隊(duì)代表MSRA跟金融行業(yè)的合作伙伴們一起探討當(dāng)時(shí)最先進(jìn)的AI技術(shù),當(dāng)時(shí)是Deep Learning深度學(xué)習(xí)的技術(shù),看看能不能對(duì)金融行業(yè)核心的場(chǎng)景業(yè)務(wù)和問(wèn)題進(jìn)行一個(gè)智能化的升級(jí)。比較幸運(yùn)的是,我們?cè)诙嗄甑呐ο旅孢€是有不少研究成果成功的落地,并且在合作伙伴實(shí)際產(chǎn)品和業(yè)務(wù)中間獲得不錯(cuò)的效果。

我們做這些合作的過(guò)程中間會(huì)發(fā)現(xiàn),實(shí)際場(chǎng)景產(chǎn)業(yè)落地中間遇到的挑戰(zhàn)和困難,并沒(méi)有很好地被學(xué)術(shù)界所廣泛關(guān)注到和很好地解決,我們就會(huì)把這樣的一類挑戰(zhàn)進(jìn)行抽象,并且嘗試對(duì)他進(jìn)行解決,最后以學(xué)術(shù)論文的方式分享給業(yè)界以及學(xué)術(shù)界,幫助大家更多地關(guān)注這些核心的挑戰(zhàn),以及幫助方向持續(xù)的演進(jìn),做出我們自己的貢獻(xiàn)。
做產(chǎn)業(yè)落地研究的時(shí)候,我們發(fā)現(xiàn)這一類的研究直接去做,可能跟真實(shí)場(chǎng)景會(huì)有很大的GAP。我們需要更好的基礎(chǔ)設(shè)施、研究框架才能幫助我們做有真實(shí)價(jià)值的研究,我們以量化研究為例子,當(dāng)時(shí)發(fā)現(xiàn)公開(kāi)可獲得的基礎(chǔ)設(shè)施研究框架都不太能滿足需求后,我們自己內(nèi)部開(kāi)發(fā)了這樣的一個(gè)研究框架Qlib,并且將它進(jìn)行開(kāi)源。比較幸運(yùn)的是獲得社區(qū)里比較多的關(guān)注和認(rèn)可,給了我們很大的動(dòng)力來(lái)持續(xù)研究和改進(jìn)它。
回望過(guò)去將近十年產(chǎn)業(yè)相關(guān)的應(yīng)用和落地的工作,我們主要的工作都是在數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)的范疇。左邊的圖中所示,我們常用范式就是在業(yè)務(wù)海量數(shù)據(jù)中間找出來(lái)有價(jià)值的特征,利用這些特征我們訓(xùn)練模型對(duì)其中的規(guī)律進(jìn)行建模,從而得到智能化的解決方案服務(wù)于各種各樣業(yè)務(wù)場(chǎng)景的需求。智能化解決方案的整個(gè)開(kāi)發(fā)過(guò)程則是以迭代漸進(jìn)的方式進(jìn)行的,第一版看看效果怎么樣,根據(jù)反饋再改進(jìn)下一版,迭代地得到最終的智能化解決方案。

現(xiàn)在我們到了大模型的時(shí)代,這一波技術(shù)的浪潮與之前AlphaGo帶來(lái)的那一波狂熱相比,也帶來(lái)了各行各業(yè)的新一輪的思考,有沒(méi)有可能這個(gè)行業(yè)會(huì)被顛覆,或者自己的業(yè)務(wù)有沒(méi)有可能被賦能。這一波技術(shù)潮流從我們自己的體感來(lái)看,會(huì)感覺(jué)我們自己本領(lǐng)域的研究人員第一波受到的沖擊其實(shí)很大的。大語(yǔ)言模型出來(lái)以后,很多持續(xù)穩(wěn)步發(fā)展多年的研究領(lǐng)域,已觀察到慢慢有些式微,面臨很多挑戰(zhàn)。這時(shí)候我們自己也要考慮,我們自己的研究領(lǐng)域和方向這些東西是被顛覆還是賦能?與其等著被顛覆,我們嘗試能不能用大語(yǔ)言模型對(duì)我們自己的研究進(jìn)行賦能,就好像我們之前研發(fā)的Qlib基礎(chǔ)設(shè)施框架幫助我們更好地做相關(guān)研究一樣,這就是我們RD-Agent最初以研發(fā)自動(dòng)化為目標(biāo)的設(shè)計(jì)初衷。
在這樣的初衷下面,理想情況下有了大語(yǔ)言模型,有了Agent,是不是能夠讓每一個(gè)研究員、每一個(gè)數(shù)據(jù)科學(xué)家都能有一個(gè)Agent為代表的科研助理或者研究實(shí)習(xí)生,它來(lái)承擔(dān)我們?nèi)粘9ぷ髦虚g需要做非常多的重復(fù)、但是又有高門檻的工作。

具體來(lái)說(shuō),人人都有科研助理意味著人人都是老板,老板怎么來(lái)做這樣的一件事情呢?我有大概的想法,同時(shí)我手頭上有一堆數(shù)據(jù),我交給科研助理Agent,幫我實(shí)現(xiàn)一下看看想法怎么樣。
當(dāng)我們有了正確代碼的實(shí)現(xiàn),訓(xùn)練好了一個(gè)模型,同時(shí)對(duì)它進(jìn)行正確的全面的評(píng)測(cè)以后,如果第一版效果還不錯(cuò),老板英明!第一版效果太好也會(huì)想想是不是我有一些Test Data甚至Label都Leak了,我們得check一下有沒(méi)有bug;效果太差的話,當(dāng)然得看一看是什么原因,是不是訓(xùn)練的時(shí)候loss都飛掉了。往往這些檢查驗(yàn)證實(shí)現(xiàn)的過(guò)程是需要多輪迭代才能得到最終的可信結(jié)果的,這個(gè)過(guò)程需要比較高的門檻,同時(shí)也需要非常繁重又相對(duì)重復(fù)的勞動(dòng)。
經(jīng)過(guò)幾個(gè)月的努力我們構(gòu)建了Agent工具,幫助我們自己在日常研究工作中間很大的效率的提升,減輕了很多細(xì)節(jié)實(shí)現(xiàn)的負(fù)擔(dān)。當(dāng)我們已經(jīng)驗(yàn)證了能夠賦能我們自己研究的時(shí)候,我們就在想這個(gè)Agent有沒(méi)有可能真正賦能產(chǎn)業(yè),賦能實(shí)際問(wèn)題,我們找到我們合作伙伴看他們場(chǎng)景中間有沒(méi)有類似的問(wèn)題,我們最終找到了論文或者研究報(bào)告的自動(dòng)實(shí)現(xiàn)或者驗(yàn)證的問(wèn)題,這個(gè)問(wèn)題在與合作伙伴的溝通中間發(fā)現(xiàn),在他們?nèi)粘5难邪l(fā)工作中間每天都在發(fā)生的,比如說(shuō)看到一個(gè)公開(kāi)或者半公開(kāi)的研究報(bào)告或者論文,大概描述了一個(gè)新穎的方法。同時(shí)在他們論文所在的那個(gè)數(shù)據(jù)集,假設(shè)叫數(shù)據(jù)集A上效果非常好,但是在他們自己自有的數(shù)據(jù)跟論文中所使用的數(shù)據(jù)不同,場(chǎng)景也有稍微的區(qū)別,那它效果怎么樣?這就需要重新實(shí)現(xiàn)這個(gè)方法看看在我自己這邊好不好使,往往這樣的工作并不是所有都能找到開(kāi)源的代碼,這時(shí)候需要自己來(lái)復(fù)現(xiàn)重新驗(yàn)證。這類的工作其實(shí)占用了他們研發(fā)過(guò)程中間非常多的精力和時(shí)間。經(jīng)過(guò)一段時(shí)間的努力我們會(huì)發(fā)現(xiàn)RD-Agent確實(shí)能夠很大地幫助到他們真實(shí)的日常工作,讓這個(gè)事情能夠自動(dòng)化提升研發(fā)效率。
現(xiàn)狀:為研究員提供AI科研助理 / 為各行業(yè)提供AI自動(dòng)研發(fā)團(tuán)隊(duì)
具體來(lái)看,我們選擇的是一類屬于Feature Generation的具體問(wèn)題,這是我們統(tǒng)計(jì)分析出來(lái)實(shí)現(xiàn)每一個(gè)idea所需要寫的核心代碼,其實(shí)也就是幾十行的體量,我們發(fā)現(xiàn)如果使用原生大模型做這件事情幾乎不可能在直出的實(shí)踐中做對(duì),經(jīng)過(guò)很多改進(jìn)和嘗試,RD-Agent系統(tǒng)能達(dá)到80、90%可用的效果。當(dāng)然我們也觀察到了帶reasoning能力的大模型出來(lái)以后,模型的代碼實(shí)現(xiàn)能力得到很大的提升,但是依然很難做到一次就對(duì),依然需要采用我們這種多次迭代漸進(jìn)的方式才能做對(duì)。
有了第一階段對(duì)自己的研究過(guò)程進(jìn)行賦能,以及對(duì)實(shí)際產(chǎn)業(yè)界的任務(wù)進(jìn)行了賦能以外,我們不太擔(dān)心會(huì)被顛覆了,我們心思開(kāi)始活絡(luò)了,能不能做更有價(jià)值的一件事情呢?現(xiàn)階段我們目標(biāo)構(gòu)建一個(gè)通用的數(shù)據(jù)科學(xué)或者機(jī)器學(xué)習(xí)的Agent,目的為了增強(qiáng)人類專家的能力和產(chǎn)出。怎么做呢?在這一階段我們的目標(biāo)是自動(dòng)地做新場(chǎng)景和新問(wèn)題,并且持續(xù)的改進(jìn)當(dāng)下的解決方案,而不僅僅是當(dāng)科研助理,僅僅是實(shí)現(xiàn)人類專家給出來(lái)的idea。
藍(lán)色部分可以看到,剛剛我們作為科研助理Agent的部分,我們叫做Development Agent,它是需要大概的idea的描述,之前是依賴人類專家給這樣的描述,我是不是也能依賴Agent給出研發(fā)的idea呢?橙色部分是我們新加入的Research Agent,它直接以當(dāng)前我們的任務(wù)和場(chǎng)景的描述作為輸入,來(lái)迭代產(chǎn)生idea,并且根據(jù)Development Agent來(lái)產(chǎn)生的當(dāng)前idea下最終模型的真實(shí)效果來(lái)進(jìn)行下一輪idea迭代的依據(jù),這就是我們整體的設(shè)計(jì)。希望在很少的專家介入或者沒(méi)有領(lǐng)域?qū)<医槿氲那闆r下也能自動(dòng)給出智能化的解決方案,這時(shí)候我們就有了RD-Agent當(dāng)前的整個(gè)框架。

這個(gè)框架我們?cè)谌ツ甑走M(jìn)行了開(kāi)源,比較短的時(shí)間內(nèi)獲得比較好的關(guān)注,我們?nèi)×艘粋€(gè)slogan,AI Drives Data-Driven AI。
在這樣的問(wèn)題下面,我們先做了一個(gè)簡(jiǎn)短的視頻介紹我們RD-Agent。
未來(lái):重塑數(shù)據(jù)科學(xué)
看了錄屏以后相信大家對(duì)RD-Agent有了更直觀的感覺(jué), 剛剛說(shuō)到現(xiàn)階段的目標(biāo)是研發(fā)增強(qiáng),怎么增強(qiáng)人類專家呢,光靠原生大語(yǔ)言模型做不到,那么大語(yǔ)言模型做不到什么我們就補(bǔ)什么,比如我們組里有Kaggle Grand Master,我們來(lái)看看語(yǔ)言模型做不到,但是他能做到的,我們通過(guò)引入領(lǐng)域知識(shí)和經(jīng)驗(yàn)并且優(yōu)化我們算法使我們的Agent更像人類專家而不僅僅是直接原生大語(yǔ)言模型的能力,這個(gè)技術(shù)路線很有效但是也有瓶頸,因?yàn)槿祟悓<易鲞@一類問(wèn)題的時(shí)候也是有瓶頸的,光靠模仿是很難超越的。

比如我們現(xiàn)在就發(fā)現(xiàn),當(dāng)?shù)侥骋惠啍?shù),解決方案還不錯(cuò)的時(shí)候,Agent給出5個(gè)改進(jìn)路線,人類專家看的時(shí)候覺(jué)得每個(gè)路線都很有道理,我們只有試一試才知道最終的結(jié)果,試完之后發(fā)現(xiàn)有些性能有增強(qiáng),有些對(duì)性能反而有很大的損害。我們有沒(méi)有可能通過(guò)數(shù)據(jù)驅(qū)動(dòng)的方式把所有探索的過(guò)程記錄下來(lái),比如在什么情況下嘗試了什么idea,這樣的idea最終對(duì)性能的提升有沒(méi)有幫助,并且基于這些數(shù)據(jù)來(lái)增強(qiáng)我們大模型或者Agent相關(guān)的能力,做到比人類專家對(duì)于什么樣的idea效果更好,有更直觀更準(zhǔn)的判斷。這樣的話避免我們只是模仿專家但是很難超過(guò)專家的瓶頸,從而讓我們有機(jī)會(huì)超過(guò)專家達(dá)到更好的效果。
當(dāng)下我們正在快速迭代快速演進(jìn)我們的相關(guān)設(shè)計(jì),同時(shí)我們也在同步驗(yàn)證當(dāng)前RD-Agent的能力,由于時(shí)間問(wèn)題我沒(méi)有辦法把細(xì)節(jié)進(jìn)行展開(kāi),我們?cè)谝恍㎏aggle比賽中間進(jìn)行驗(yàn)證,我們直觀感受是這個(gè)RD-Agent已經(jīng)能夠達(dá)到初階從業(yè)者水平,比我們接觸到很多在校學(xué)生們能力顯得更強(qiáng)一些。

未來(lái)我們希望我們RD-Agent方向是什么?我們奔著自主發(fā)現(xiàn)新方法的方向進(jìn)行努力,如果我們能做到這個(gè)方向就是能夠重塑Date Science或者是Machine Learning領(lǐng)域。聽(tīng)說(shuō)圍棋的棋手們現(xiàn)在也都跟著AI學(xué)習(xí)怎么更好地下棋,就是重塑這個(gè)領(lǐng)域。

怎么做到這件事情?我們嘗試設(shè)計(jì)三階段循序漸進(jìn)的方式,從最開(kāi)始自動(dòng)化為初衷,我們?yōu)閷<覝p少臟活累活,從而得到更高效的專注于創(chuàng)新。當(dāng)下我們做增強(qiáng)的事情,我們其實(shí)是嘗試比專家能夠更快地找到我們的方法和場(chǎng)景和數(shù)據(jù)更好地匹配,更快地找到更優(yōu)的方法。未來(lái)我們期望通過(guò)不同的方法在各個(gè)場(chǎng)景、數(shù)據(jù)上表現(xiàn)的觀察、分析和理解改進(jìn)現(xiàn)有的方法或者發(fā)明新的方法。真的到了這一步的時(shí)候我們自己的領(lǐng)域肯定是被顛覆了,但由于我們能夠有能力發(fā)明更好的方法,相信這也能夠扎扎實(shí)實(shí)地賦能到各行各業(yè),看上去是挺美好的一個(gè)未來(lái)。以上就是我關(guān)于RD-Agent工作的介紹,由于時(shí)間問(wèn)題很難把很多細(xì)節(jié)進(jìn)行展開(kāi),也很難介紹未來(lái)的計(jì)劃,如果大家對(duì)我們工作感興趣或者對(duì)我們未來(lái)的發(fā)展想有一個(gè)關(guān)注的話,歡迎大家關(guān)注我們開(kāi)源項(xiàng)目RD-Agent。
今天我的演講就是這些,謝謝大家。
熱門跟貼