一項(xiàng)新的研究似乎證實(shí)了 OpenAI 至少使用部分受版權(quán)保護(hù)的內(nèi)容來訓(xùn)練其 AI 模型的指控。OpenAI 被卷入了作者、程序員和其他權(quán)利持有者提起的訴訟,他們指控該公司未經(jīng)許可使用他們的作品(書籍、代碼庫等)來開發(fā)其模型。

OpenAI 長期以來一直聲稱自己享有合理使用辯護(hù),但這些案件的原告辯稱,美國版權(quán)法中沒有針對訓(xùn)練數(shù)據(jù)的例外規(guī)定。

這項(xiàng)研究由華盛頓大學(xué)、哥本哈根大學(xué)和斯坦福大學(xué)的研究人員共同撰寫,提出了一種新方法來識別由 OpenAI 等 API 背后的模型“記憶”的訓(xùn)練數(shù)據(jù)。

模型是預(yù)測引擎。經(jīng)過大量數(shù)據(jù)的訓(xùn)練,它們會學(xué)習(xí)模式 — 這就是它們能夠生成文章、照片等內(nèi)容的方式。大多數(shù)輸出都不是訓(xùn)練數(shù)據(jù)的逐字復(fù)制,但由于模型“學(xué)習(xí)”的方式,有些不可避免地是。人們發(fā)現(xiàn)圖像模型會復(fù)述它們訓(xùn)練過的電影的截圖,而語言模型則被發(fā)現(xiàn)會剽竊新聞文章。

這項(xiàng)研究的方法依賴于合著者稱之為“高意外”的單詞——即在大量文獻(xiàn)中顯得不常見的單詞。例如,句子“杰克和我靜靜地坐著,雷達(dá)嗡嗡作響”中的“雷達(dá)”一詞將被視為高意外,因?yàn)閺慕y(tǒng)計(jì)上講,它比“引擎”或“收音機(jī)”等詞出現(xiàn)在“嗡嗡聲”之前的可能性更小。

合著者們探究了包括GPT-4和 GPT-3.5 在內(nèi)的幾種 OpenAI 模型,以尋找記憶的跡象。他們從小說和《紐約時報》文章的片段中刪除了出乎意料的單詞,并讓模型嘗試“猜測”哪些單詞被掩蓋了。合著者們總結(jié)道,如果模型猜對了,那么它們很可能在訓(xùn)練期間記住了這些片段。

打開網(wǎng)易新聞 查看精彩圖片

讓模型“猜測”一個高意外單詞的一個例子。圖片來源: OpenAI

根據(jù)測試結(jié)果,GPT-4 顯示出記憶部分流行小說的跡象,包括一個名為 BookMIA 的包含版權(quán)電子書樣本的數(shù)據(jù)集中的書籍。結(jié)果還表明,該模型記憶了《紐約時報》文章的部分內(nèi)容,盡管速度相對較低。

華盛頓大學(xué)博士生、這項(xiàng)研究的共同作者阿比拉沙·拉維昌德 (Abhilasha Ravichander) 表示,這一發(fā)現(xiàn)揭示了模型可能接受過哪些“有爭議的數(shù)據(jù)”訓(xùn)練。

“為了擁有值得信賴的大型語言模型,我們需要擁有可以進(jìn)行科學(xué)探索、審核和檢查的模型,”Ravichander 說?!拔覀兊墓ぷ髦荚谔峁┮环N探索大型語言模型的工具,但整個生態(tài)系統(tǒng)確實(shí)需要更高的數(shù)據(jù)透明度?!?/p>

OpenAI 長期以來一直主張 放寬對使用受版權(quán)保護(hù)的數(shù)據(jù)開發(fā)模型的限制 。盡管該公司已經(jīng)達(dá)成了某些內(nèi)容許可協(xié)議,并提供了選擇退出機(jī)制,允許版權(quán)所有者標(biāo)記他們不希望公司用于培訓(xùn)目的的內(nèi)容,但它已經(jīng)游說多個政府制定有關(guān)人工智能培訓(xùn)方法的“合理使用”規(guī)則。