設(shè)置星標(biāo) 關(guān)注,從此你的世界多點(diǎn)科學(xué)~

智庫觀察

OBSERVER

人工智能(AI)是新質(zhì)生產(chǎn)力的典型代表,大模型是全球科技競爭的核心領(lǐng)域,也是引領(lǐng)新一輪產(chǎn)業(yè)革命的重要推動(dòng)力。當(dāng)前,國內(nèi)大模型公開語料數(shù)據(jù)資源匱乏,高質(zhì)量私域語料數(shù)據(jù)供給不暢,未形成大模型語料數(shù)據(jù)優(yōu)質(zhì)生態(tài)。針對這類問題,我國應(yīng)率先完善語料數(shù)據(jù)生態(tài),搶先研發(fā)下一代基礎(chǔ)大模型,促進(jìn)人工智能與經(jīng)濟(jì)社會(huì)發(fā)展的深度融合,引領(lǐng)和推動(dòng)我國新一代人工智能的健康發(fā)展。

國內(nèi)大模型語料數(shù)據(jù)供給面臨三大困境

根據(jù)中國國家數(shù)據(jù)局?jǐn)?shù)據(jù)統(tǒng)計(jì),截至2024年3月底,我國10億參數(shù)規(guī)模以上的大模型已超100個(gè),全球累計(jì)發(fā)布大模型超過200個(gè)。下一階段,大模型的競爭將進(jìn)一步聚焦在性能表現(xiàn)和應(yīng)用落地的能力上,能否有足夠充分和高效的大規(guī)模、高質(zhì)量的語料數(shù)據(jù)供給是搶占大模型產(chǎn)業(yè)爆發(fā)先機(jī)的關(guān)鍵。

美國早在2016年出臺(tái)的《國家人工智能研發(fā)戰(zhàn)略計(jì)劃》 (該計(jì)劃分別于2019年和2023年兩次更新) 中,就明確提出將“開發(fā)適用于人工智能訓(xùn)練和測試的共享公共數(shù)據(jù)集和環(huán)境”作為七大戰(zhàn)略計(jì)劃之一,而我國的語料數(shù)據(jù)發(fā)展起步較晚,數(shù)據(jù)資源整合能力、數(shù)據(jù)資源價(jià)值挖掘能力、數(shù)據(jù)治理能力的基礎(chǔ)薄弱,數(shù)據(jù)交易市場培育較為滯后,導(dǎo)致當(dāng)前我國大模型語料數(shù)據(jù)供給還存在三大困境。

困境之一:

大模型公開語料數(shù)據(jù)資源匱乏

由于大模型的擴(kuò)展速度比數(shù)據(jù)集快3倍,全球大模型普遍存在數(shù)據(jù)荒的問題。

紀(jì)元 (Epoch) AI 研究團(tuán)隊(duì) (由麻省理工學(xué)院團(tuán)隊(duì)和阿伯丁等大學(xué)學(xué)者組成) 的研究結(jié)果表明,高質(zhì)量的語言數(shù)據(jù)存量將在2026年耗盡,低質(zhì)量的語言數(shù)據(jù)和圖像數(shù)據(jù)的存量則分別在2030年至2050年、2030年至2060年枯竭。其中,中文語料成全球數(shù)據(jù)荒重災(zāi)區(qū)。

中國工程院院士高文指出,全球通用的50億大模型數(shù)據(jù)訓(xùn)練集里,中文語料占比僅為1.3%。一些主流數(shù)據(jù)集如Common Crawl、Books Corpus、WiKipedia、ROOT等都以英文為主。最受好評的Common Crawl數(shù)據(jù)集中,中文數(shù)據(jù)也只占其4.8%。

雖然國內(nèi)已有機(jī)構(gòu)發(fā)布開源數(shù)據(jù)集,例如百度DuReader數(shù)據(jù)集、阿里天池?cái)?shù)據(jù)集等,但總體來看數(shù)據(jù)質(zhì)量相對較低,存在噪聲、偏差或過時(shí)等問題,需要自行抓取并進(jìn)行預(yù)訓(xùn)練才可使用,且行業(yè)專業(yè)度不深。當(dāng)然,隨著DeepSeek帶來的“鯰魚效應(yīng)”,文心一言、ChatGPT等紛紛效仿其采取開源生態(tài),免費(fèi)開放給所有用戶使用,這在一定程度上促進(jìn)了全球的大模型語料獲取。

困境之二:

高質(zhì)量私域語料數(shù)據(jù)供給不暢

私域數(shù)據(jù)的領(lǐng)域性和專業(yè)針對性較強(qiáng),可靠性與實(shí)用性較高,適合與行業(yè)大模型深度結(jié)合。

近年來,我國高度重視數(shù)據(jù)開放,推進(jìn)數(shù)據(jù)交易,國家組建數(shù)據(jù)管理局,地方上也紛紛設(shè)立數(shù)據(jù)交易中心,但總體上,企業(yè)和科研機(jī)構(gòu)“尋找數(shù)據(jù)”的積極性較高,“共享和開放數(shù)據(jù)”的能動(dòng)性較弱。

一方面,專業(yè)領(lǐng)域知識(shí)積累的專業(yè)門檻高、時(shí)間周期長,企業(yè)出于商業(yè)利益和知識(shí)產(chǎn)權(quán)考慮,對領(lǐng)域知識(shí)共享意愿度低;另一方面,由于存在隱私、安全等合規(guī)性問題,部分行業(yè)缺少優(yōu)質(zhì)的數(shù)據(jù)供給。

困境之三:

大模型發(fā)展與數(shù)據(jù)處理技術(shù)不平衡

高質(zhì)量的大模型語料數(shù)據(jù)建設(shè)既有機(jī)制問題,又有技術(shù)問題。從技術(shù)層面看,大模型的有效運(yùn)行需要從數(shù)據(jù)采集、清洗、處理、存儲(chǔ)和銷毀全生命周期進(jìn)行數(shù)據(jù)技術(shù)的支撐,從頂層設(shè)計(jì)、標(biāo)注規(guī)范、標(biāo)注質(zhì)量把控以及發(fā)布后更新升級等各個(gè)方面嚴(yán)格把關(guān)。

目前國內(nèi)訓(xùn)練行業(yè)大模型所需要使用的工業(yè)、醫(yī)療、金融、交通等領(lǐng)域的垂直數(shù)據(jù)還較為缺乏。這主要是因?yàn)檫@些行業(yè)數(shù)據(jù)多聚焦于某些單一場景,需要經(jīng)過聚合整理后方能作為訓(xùn)練大數(shù)據(jù)的數(shù)據(jù)集。

此外,高效的安全技術(shù)保障也不足,雖然已有一些動(dòng)態(tài)加密、聯(lián)邦機(jī)器學(xué)習(xí)等方式可以幫助脫敏,或者做到“原始數(shù)據(jù)不出域,數(shù)據(jù)可用不可見”,但總體效率不高,無法大批量地保障大模型訓(xùn)練語料的安全。

國際上大模型語料數(shù)據(jù)開放供給的經(jīng)驗(yàn)

各國對大模型語料數(shù)據(jù)開放供給都在持續(xù)探索的過程中。從實(shí)踐效果看,美國“政府-社會(huì)協(xié)同”的數(shù)據(jù)資源生態(tài)對大模型產(chǎn)業(yè)發(fā)展助力較大;歐盟通過完善法律試圖擴(kuò)大人工智能領(lǐng)域的“布魯塞爾效應(yīng)”,有效推動(dòng)大模型賦能科研;而英國和日本受制于法律困境,進(jìn)展較為有限。

美國:

加快形成“政府-社會(huì)協(xié)同”

數(shù)據(jù)資源生態(tài)

為了進(jìn)一步鞏固AI領(lǐng)域的競爭優(yōu)勢,美國聯(lián)邦政府在公共數(shù)據(jù)中承擔(dān)了“應(yīng)開盡開”的職責(zé),并以開放的公共數(shù)據(jù)服務(wù)于訓(xùn)練語料,社會(huì)力量通過融合公共數(shù)據(jù)和網(wǎng)絡(luò)公開數(shù)據(jù)提升語料廣度、精細(xì)度和專業(yè)性。

政府開發(fā)了專門針對AI訓(xùn)練數(shù)據(jù)的開放平臺(tái) (www.data.gov.cn) ,除了隱去涉及國家秘密和個(gè)人隱私的信息,聯(lián)邦和地方法院都實(shí)現(xiàn)了數(shù)據(jù)公開,并針對公共數(shù)據(jù)和科研數(shù)據(jù)進(jìn)行質(zhì)量維護(hù)和運(yùn)營管理,在保證數(shù)據(jù)可用性的同時(shí)降低公眾使用門檻。

為使AI促進(jìn)科研,美國還出臺(tái)了為期6年的國家人工智能研究資源 (NAIRR) 計(jì)劃,通過建立數(shù)據(jù)資源服務(wù)平臺(tái),匯聚社會(huì)力量建立統(tǒng)一的數(shù)據(jù)匯聚標(biāo)準(zhǔn),規(guī)范數(shù)據(jù)描述格式,促進(jìn)多方數(shù)據(jù)融合,并通過打造運(yùn)營數(shù)據(jù)集社區(qū)等,推動(dòng)多方協(xié)作的數(shù)據(jù)資源開發(fā)利用。

同時(shí),為促進(jìn)公眾參與,美國政府?dāng)?shù)據(jù)開放平臺(tái)列出政府亟待解決的數(shù)據(jù)問題,并設(shè)立獎(jiǎng)金,調(diào)動(dòng)全社會(huì)的力量共同解決。

歐盟:

強(qiáng)化數(shù)據(jù)戰(zhàn)略并尋求監(jiān)管平衡

2020年,歐盟發(fā)布了《數(shù)據(jù)戰(zhàn)略》,并確定了九大戰(zhàn)略性行業(yè)和領(lǐng)域的數(shù)據(jù)空間,后為加強(qiáng)數(shù)據(jù)賦能科學(xué)研究,增添歐洲開放科學(xué) (EOSC) 作為科研領(lǐng)域的數(shù)據(jù)空間。同時(shí)設(shè)立歐盟數(shù)據(jù)開放平臺(tái),通過其元數(shù)據(jù)質(zhì)量儀表板評估歐盟各國國家數(shù)據(jù)開放的可訪問性和可用性。

在2024年出臺(tái)的《人工智能法案》中,更加注重人工智能創(chuàng)新發(fā)展與監(jiān)管平衡,以規(guī)范來促進(jìn)高質(zhì)量語料數(shù)據(jù)建設(shè)。法案通過確立數(shù)據(jù)多樣性和可追溯性的要求,并設(shè)立語料來源黑名單,確保語料的廣泛性和可驗(yàn)證性。

在語料版權(quán)上,歐盟國家雖強(qiáng)調(diào)了AI版權(quán)的透明性,但是對科研使用優(yōu)先豁免,例如,德國最新版《著作權(quán)及鄰接權(quán)法》規(guī)定了科研使用的豁免 (出于非商業(yè)目的、將所有利潤再投資于科學(xué)研究或根據(jù)國家授權(quán)為實(shí)現(xiàn)公共利益的研究機(jī)構(gòu)允許為科學(xué)研究目的進(jìn)行文本和數(shù)據(jù)挖掘而制作復(fù)制品) 。

英國和日本:

尚未突破法律困境

英國于2012年成立了開放數(shù)據(jù)研究所 (ODI) ,以促進(jìn)商業(yè)界、學(xué)術(shù)界、政府和社會(huì)在開放數(shù)據(jù)方面的合作,構(gòu)建開放、可信任的數(shù)據(jù)生態(tài)。同時(shí),英國官員們也正在考慮有關(guān)版權(quán)和人工智能的新法律。

為了盡快吸引人工智能企業(yè)和技術(shù)進(jìn)入英國,政府曾提出一項(xiàng)新的版權(quán)法豁免建議,但在藝術(shù)家的強(qiáng)烈反對下,不得不放棄該計(jì)劃。這凸顯了英國政府在迎合人工智能方面所面臨的挑戰(zhàn)。

相似地,2023年5月,日本內(nèi)閣府發(fā)布了《關(guān)于人工智能和版權(quán)的關(guān)系》文件,并在人工智能戰(zhàn)略會(huì)議小組上討論使用。但日本關(guān)于AI訓(xùn)練數(shù)據(jù)集版權(quán)豁免問題的相關(guān)討論局限于人工智能戰(zhàn)略會(huì)議小組及眾議院內(nèi)部,尚未出臺(tái)正式法律文件。

結(jié) 語

我國人工智能已經(jīng)進(jìn)入快速發(fā)展的階段,而兼具開放性、高效性和易用性的DeepSeek的出現(xiàn),不僅展現(xiàn)了中國團(tuán)隊(duì)在技術(shù)優(yōu)化和資源利用上的突破,同時(shí)也極大推動(dòng)了人工智能應(yīng)用領(lǐng)域的創(chuàng)新。在算力和數(shù)據(jù)供給方面,浙江大數(shù)據(jù)計(jì)算中心為其提供強(qiáng)大的算力支持,每日互動(dòng)為其提供海量且豐富的用戶行為語料數(shù)據(jù),一些廠商也在主動(dòng)謀求與幻方量化 (DeepSeek的母公司) 的合作,為其提供金融等專業(yè)領(lǐng)域的數(shù)據(jù)支持,推動(dòng)了AI在各行各業(yè)的高度滲透。

未來,我國的大模型語料數(shù)據(jù)可以重點(diǎn)在以下幾個(gè)方面進(jìn)行優(yōu)化。

首先,集中戰(zhàn)略資源,協(xié)同建設(shè)“大模型語料”大基礎(chǔ)設(shè)施。依托具有強(qiáng)公信力的研發(fā)機(jī)構(gòu),設(shè)立資源共享-技術(shù)研發(fā)平臺(tái),鏈接各個(gè)主體,匯聚各類公開和私域數(shù)據(jù),實(shí)現(xiàn)資源的內(nèi)部整合。同時(shí),加大數(shù)據(jù)關(guān)鍵技術(shù)的研發(fā)攻關(guān),通過AI大模型技術(shù)與大數(shù)據(jù)架構(gòu)的深度融合,利用多源多態(tài)數(shù)據(jù)融合治理、多云多存儲(chǔ)數(shù)據(jù)操作抽象、跨中心協(xié)同大數(shù)據(jù)融合計(jì)算、多模態(tài)數(shù)據(jù)智能分析等技術(shù),充分挖掘全國領(lǐng)域內(nèi)數(shù)據(jù)要素價(jià)值,及時(shí)支撐下一代基礎(chǔ)大模型的研發(fā)攻關(guān)。

其次,提高數(shù)據(jù)供給質(zhì)量,豐富垂直類數(shù)據(jù)供給。探索建立大模型訓(xùn)練數(shù)據(jù)需求清單和供給目錄,建立數(shù)據(jù)供需高質(zhì)量對接機(jī)制。探索建設(shè)可用于大模型訓(xùn)練的公共數(shù)據(jù)專欄和社會(huì)數(shù)據(jù)專區(qū),以場景需求為牽引梳理數(shù)據(jù),推動(dòng)公共數(shù)據(jù)和社會(huì)數(shù)據(jù)定向有條件開放。加強(qiáng)社會(huì)數(shù)據(jù)應(yīng)用引導(dǎo),鼓勵(lì)鏈主企業(yè)、行業(yè)組織發(fā)揮效能,打造有吸引力的行業(yè)專用數(shù)據(jù)庫。運(yùn)用先進(jìn)技術(shù)打破數(shù)據(jù)安全保護(hù)與數(shù)據(jù)交易流通矛盾,搭建“數(shù)據(jù)可用不可見”的數(shù)據(jù)可信流通技術(shù)平臺(tái)。

第三,優(yōu)化數(shù)據(jù)治理,促進(jìn)創(chuàng)新與安全的均衡發(fā)展。挪威、法國、新加坡等國家在人工智能領(lǐng)域均采取了“監(jiān)管沙盒”等平衡監(jiān)管與創(chuàng)新的治理工具。我國在大模型語料數(shù)據(jù)監(jiān)管上建議“宜疏不宜堵”,探索對基于純粹科學(xué)研究目的、來自主流媒體和專業(yè)領(lǐng)域知識(shí)機(jī)構(gòu)等多種數(shù)據(jù)資源匯聚使用的版權(quán)進(jìn)行豁免,以加速推進(jìn)原創(chuàng)研究的進(jìn)程。健全數(shù)據(jù)流通共享交易制度,探索建立正面引導(dǎo)清單、負(fù)面禁止清單和第三方機(jī)構(gòu)認(rèn)證評級相結(jié)合的數(shù)據(jù)市場準(zhǔn)入管理制度,完善數(shù)據(jù)交易共享的技術(shù)保障、檢測認(rèn)證、風(fēng)險(xiǎn)評估、信息披露和監(jiān)督審計(jì)等相關(guān)制度規(guī)范。

-本文作者張?jiān)?/strong>是上海市科學(xué)學(xué)研究所高級經(jīng)濟(jì)師,主要研究方向?yàn)榭萍冀鹑凇⑵髽I(yè)創(chuàng)新、人工智能;瞿晶晶是上海人工智能實(shí)驗(yàn)室副研究員,主要研究方向?yàn)槿藱C(jī)交互、人工智能治理;姚景怡是上海市科學(xué)學(xué)研究所助理研究員,主要研究方向?yàn)榭萍颊摺⒖萍脊芾?

《世界科學(xué)》雜志版在售中 歡迎訂閱

月刊定價(jià)

15元/期

全年訂閱價(jià)

180元

點(diǎn)擊左側(cè)圖片或以下方訂閱方式選購

方式一

掃描二維碼,“雜志鋪”訂閱有折扣~

方式二

全國各地郵局訂閱 郵發(fā)代號(hào):4-263

方式三

機(jī)構(gòu)訂閱,請撥打

021-53300839;

021-53300838