作者|袁榭
原創(chuàng)首發(fā)|藍(lán)字計劃
全文字?jǐn)?shù)|約6000
3月6日,由Meta的AI部門前雇員組成的AI模型評估公司Patronus AI發(fā)布了名為CopyrightCatcher(版權(quán)捕手)的API,用于檢測大語言模型中的版權(quán)數(shù)據(jù)內(nèi)容比例。
在公開的版本中,CopyrightCatcher選用了受美國版權(quán)保護(hù)的書籍作為“題庫”,并從編目網(wǎng)站Goodreads中選擇流行的書籍來測試。研究人員設(shè)計了100種不同的文本提示,讓模型以續(xù)寫或輸出第一頁的方式回應(yīng)。
結(jié)果是,OpenAI的GPT-4表現(xiàn)最差,在44%的提示詞上生成了受版權(quán)保護(hù)的內(nèi)容,微軟新投資的Mixtral為22%。由OpenAI前員工創(chuàng)立、標(biāo)榜負(fù)責(zé)任AI的Anthropic公司出品的Claude 2為8%,Meta的Llama-2為10%。
一個專戳人短處的行業(yè)公敵誕生了。
在AI頭部大廠們版權(quán)官司纏身的當(dāng)下,Patronus AI此舉可以算是給版權(quán)方們“遞刀子”。
訓(xùn)練數(shù)據(jù)是AI的食糧。從ChatGPT奇跡開始,訓(xùn)練數(shù)據(jù)來源的法律糾紛就始終相伴,在可見的未來還會繼續(xù)糾纏下去,成為當(dāng)下AI技術(shù)注定的無解難題。
從人工智障到AI女友的秘密
早在生成式AI技術(shù)奠基時,無論泰斗還是普通研究生,無人會對訓(xùn)練數(shù)據(jù)來源的版權(quán)有擔(dān)憂。因為當(dāng)時需要的訓(xùn)練數(shù)據(jù)集體量相比現(xiàn)在實在太小了,從無版權(quán)的公有領(lǐng)域?qū)ふ?、手動收集就夠用,?guī)避風(fēng)險幾乎沒難度。
10年前,業(yè)內(nèi)常用的AI文本訓(xùn)練數(shù)據(jù)集包括2003年安然丑聞里作為呈堂證供的安達(dá)信會計事務(wù)所所有電郵、截至2013年所有英語國家數(shù)字版政府公開文書。業(yè)內(nèi)常用的圖像訓(xùn)練數(shù)據(jù)集是有6萬張手寫黑白數(shù)字圖像的1999年MNIST集,6萬張各種貓、青蛙、飛機(jī)圖像的CIFAR-10集,1.1萬張鳥類圖像的加州理工學(xué)院數(shù)據(jù)集等等。
這等規(guī)模的數(shù)據(jù)集,現(xiàn)在供本科生寫畢業(yè)論文的實驗都不大夠用了。
2012年,AI界泰斗辛頓(Geoffrey Hinton)和學(xué)生克里澤夫斯基(Alex Krizhevsky)、薩茨克維爾(Ilya Suskever)的神經(jīng)網(wǎng)絡(luò)模型AlexNet,奪得ImageNet圖像分類競賽冠軍,成為AI技術(shù)飛躍的奇點(diǎn)。
AlexNet的成功不僅拉開了英偉達(dá)GPU跑大模型的序幕,也是訓(xùn)練數(shù)據(jù)集體量飛躍的起點(diǎn):背后支撐它的,有華人科學(xué)家李飛飛制作的、包含1400萬張圖像的訓(xùn)練數(shù)據(jù)集。
(詳細(xì)報道可點(diǎn)擊閱讀藍(lán)字計劃文章:英偉達(dá)悄然壟斷算力:人工智能背后的新帝國)
從此開始,“縮放”(Scaling)對大模型性能的影響開始浮現(xiàn):即使基礎(chǔ)算法沒有徹底革新,只要在訓(xùn)練數(shù)據(jù)量、參數(shù)規(guī)模上有數(shù)量級程度的擴(kuò)張,它在測試數(shù)據(jù)上的損失(在訓(xùn)練后對新輸入提示的預(yù)測與正確答案之間的差異)會非常顯著地劇減,帶來了大模型能力顯著提升。
此“神經(jīng)縮放定律”在ChatGPT奇跡上體現(xiàn)得尤為顯著:按照OpenAI研發(fā)團(tuán)隊的論文,GPT-2用了40GB文本的數(shù)據(jù)集訓(xùn)練。GPT-3在570GB數(shù)據(jù)上進(jìn)行訓(xùn)練。OpenAI至今尚未直接透露作為GPT-3.5的ChatGPT以及GPT-4的訓(xùn)練數(shù)據(jù)集有多大,但業(yè)內(nèi)的可靠估計是13TB。
|論文中關(guān)于“神經(jīng)縮放定律”的呈現(xiàn):訓(xùn)練數(shù)據(jù)規(guī)模指數(shù)級增加,最小損失值就顯著減少
訓(xùn)練數(shù)據(jù)的暴增,給GPT系列大模型帶來的功能改善,最直觀的對比是2018年GPT-2生成的情人節(jié)情話還前言不搭后語,2024年可以陪單身男性談戀愛的AI女友應(yīng)用已成了GPT應(yīng)用商店最熱門類。
AI也被告知,不會就選C
大體量訓(xùn)練數(shù)據(jù)集一旦成為行業(yè)共識,整個人類互聯(lián)網(wǎng)產(chǎn)生的數(shù)據(jù)就不大夠用。
早先,研究者還能手動搜集公有數(shù)據(jù)。后來,大廠用爬蟲扒全網(wǎng)的數(shù)據(jù)。
還沒捅到版權(quán)的馬蜂窩,先把羊毛薅禿了:參差多態(tài)的創(chuàng)意數(shù)據(jù)有限,大廠們扒來的大同小異,生成式AI大模型產(chǎn)品的“幻覺”有一半源于此弊。
以最基礎(chǔ)的大語言模型(LLM,Large Lauguage Model,簡稱大模型)最簡單訓(xùn)練為例:給AI一個缺字的單句,然后讓大模型根據(jù)訓(xùn)練數(shù)據(jù)集和參數(shù)來補(bǔ)全。
此時負(fù)責(zé)回答的算法會識別單句和訓(xùn)練數(shù)據(jù)集里哪些文本長得像、長得有多像,此時就會得出此句該憑數(shù)據(jù)集哪部分琢磨答案,然后再按照相似程度給出空缺處所有可能答案。最后算法會基于參數(shù)在這些可能答案里,選“長得最像”、最有機(jī)會正確的答案輸出。
訓(xùn)練起始時大模型一般選不準(zhǔn)答案,負(fù)責(zé)檢驗的算法就會給出一個“損失值”,即“模型認(rèn)為最可能”答案與真實正確答案有多大差別的“距離值”,碼農(nóng)用這個值來對參數(shù)進(jìn)行微調(diào)。之后再跑一邊同樣流程,模型生成的答案會離正確答案更近。
如此訓(xùn)練,過程從缺字單句直到整段整篇的問句,模型的答案也從填缺字直到成篇文章。如果訓(xùn)練數(shù)據(jù)集有過十億文本詞元(token,有意義的語義最小單元),模型跑完整個庫之后答案就勉強(qiáng)像樣。
如果訓(xùn)練數(shù)據(jù)集包含全互聯(lián)網(wǎng)所有能薅到的文本詞元,模型最后訓(xùn)練好讓用戶使,吐出的答案就會特別像機(jī)器通靈感悟、口吐人言。
這是不是很像教一個沒學(xué)會課程的中國學(xué)生突擊應(yīng)試:背下解題步驟,原理不重要。現(xiàn)在的AI大模型就是這樣,不管生成的結(jié)果是文本、藥物分子式、圖片、視頻,概莫能外。
|AI論文與模型的訓(xùn)練數(shù)據(jù)規(guī)模,從1955年的10的2次方,漲到2022年的10的13次方
要真正在推理層面上學(xué)通,那是馬斯克們天天吹的AGI(通用人工智能),面世時間恐怕比賈躍亭回國時間還晚。
如此一來,訓(xùn)練數(shù)據(jù)集的規(guī)模自然與AI大模型的性能表現(xiàn)正相關(guān),正如高三學(xué)生做一米厚模擬卷和做半米厚模擬卷的效果也是顯著不同的。
用十多年前谷歌研究總監(jiān)彼得·諾維格的名言來說,這就是“我們并沒有更好的算法,我們只是有更多的數(shù)據(jù)?!被蛘哂美细燮钠麃碚f,這叫《大塊頭有大智慧》。
若訓(xùn)練數(shù)據(jù)集不夠用,或者沾染了不必要的數(shù)據(jù),大模型“幻覺”就會出現(xiàn)。就像一個平庸做題家,AI大模型本身只會“選最像的填”、“不會就選C”,搞笑錯誤自然不少。
“文心一言”剛面世時,輸入“總線”卻生成“公交車”圖片,很大概率應(yīng)該是因為產(chǎn)品工期太趕、訓(xùn)練和調(diào)參不夠細(xì),所以依靠現(xiàn)成英文訓(xùn)練數(shù)據(jù)集的模型分不出“bus”到底是總線還是公交車。
類似的事故也出現(xiàn)在其他大廠的大模型產(chǎn)品中。2023年12月問世的谷歌大模型Gemini,用中文提示詞詢問時,會答自己是文心大模型、自己創(chuàng)始人是李彥宏。考慮到Gemini想抄“文心一言”不見得有門路,八成也是因為趕工出貨、調(diào)參沒捋好訓(xùn)練數(shù)據(jù),“無法可靠地處理一些非英語查詢”。
AI也怕近親繁殖
既然訓(xùn)練數(shù)據(jù)的規(guī)模如此重要,那直接用AI生成數(shù)據(jù)去訓(xùn)練下游AI,不行么?
不行,這樣會把模型搞殘。
2023年2月,美國華裔科幻文學(xué)家特德·姜表示,ChatGPT等大語言模型,實質(zhì)是對互聯(lián)網(wǎng)語料庫的有損模糊壓縮。用大語言模型生成的文本來訓(xùn)練新的模型,如同反復(fù)以JPEG格式存儲同一原始高清圖片,每次都會丟失更多的信息,最終成品質(zhì)量只會越來越差。
2023年6月中旬,多家高校的AI研究者聯(lián)合發(fā)布論文《遞歸之詛咒:用生成數(shù)據(jù)訓(xùn)練會使模型遺忘》,用實驗結(jié)果證明了特德·姜的預(yù)言。
用AI生成數(shù)據(jù)訓(xùn)練新的AI,會導(dǎo)致訓(xùn)練出的模型出現(xiàn)不可逆轉(zhuǎn)的缺陷,即使模型最初的基礎(chǔ)架構(gòu)原始數(shù)據(jù)來自真實世界。研究者們將這一新模型的退化過程與結(jié)果稱為“模型崩潰”。
按論文所述,不管受訓(xùn)的新模型功能是以文字生成文字還是以圖片生成圖片,只要使用其他模型生成的內(nèi)容來訓(xùn)練,這個過程是不可避免的,即使模型處在近乎理想狀態(tài)的長時間學(xué)習(xí)條件亦如此。
而AI生成數(shù)據(jù)中的錯誤會極快沉淀,最終導(dǎo)致從生成數(shù)據(jù)中學(xué)習(xí)的模型進(jìn)一步錯誤地感知現(xiàn)實。
“模型崩潰”分為早期與晚期兩種。在早期時,被喂生成數(shù)據(jù)的AI模型會開始失去原初數(shù)據(jù)分布的信息;在晚期,被喂生成數(shù)據(jù)的AI模型會吐出完全不符合現(xiàn)實、不相關(guān)原初底層數(shù)據(jù)的結(jié)果。
“模型崩潰”后的AI還極其固執(zhí),錯誤會千篇一律且難以矯正,模型將持續(xù)甚至強(qiáng)化將錯誤結(jié)果認(rèn)為是正確的結(jié)論,即使調(diào)參也改不過來。
因為用AI生成內(nèi)容來訓(xùn)練AI的話,無可避免就會踩進(jìn)“統(tǒng)計近似值偏差”的坑里。
正如AI泰斗“楊立昆”(Yann LeCun)成天譏嘲的那樣,現(xiàn)在的AI大模型本質(zhì)是“金剛鸚鵡”、“高端差分統(tǒng)計學(xué)程序”,所以天然過于偏重大概率的通常值,和過于忽視小概率的非常值,這叫“近似值擬合”。
這些模型生成的結(jié)果持續(xù)用來再訓(xùn)練新模型,數(shù)據(jù)的多樣性會越來越小、符合豐富真實的正確度會越來越有限、“近似值擬合”會越來越嚴(yán)重。
就像人教鸚鵡復(fù)讀,鸚鵡能學(xué)會模擬“恭喜發(fā)財”的音調(diào)。然而讓學(xué)成的鸚鵡教另外的鸚鵡復(fù)讀“恭喜發(fā)財”、再讓鸚鵡徒弟教鸚鵡徒孫復(fù)讀,最后只會收獲鳥叫聒噪。
|論文中“模型崩潰”過程的示意圖
或者用論文作者之一羅斯·安德森(Ross Anderson)的話說,這就如同用莫扎特作品來訓(xùn)練AI,結(jié)果會得出一個風(fēng)格類似莫扎特但缺乏靈氣的“薩列里”模型(薩列里是意大利作曲家,非常嫉妒莫扎特)。再用“薩列里”模型的作品訓(xùn)練新的模型,如此反復(fù)五六次后,最終模型的音樂作品既不會有莫扎特的風(fēng)格也不會有莫扎特的靈光。
在羅斯·安德森的個人博客中,有人評論這是熱力學(xué)中的熵、生物學(xué)中的近親繁殖退化,在AI界的復(fù)現(xiàn)。
版權(quán)律師首先聞到血腥味
真實人類生產(chǎn)的數(shù)據(jù)對AI模型是不可或缺的。就算是弱智吧的段子,做好了標(biāo)記分類和去重,也有相當(dāng)價值。
羅斯·安德森刻薄地說,在海洋布滿不可降解塑料垃圾、空氣里充滿二氧化碳排放物后,互聯(lián)網(wǎng)以后也會被AI大模型生成的低質(zhì)量結(jié)果污染。反過來說,真實人類創(chuàng)造的數(shù)據(jù)如同潔凈的空氣與飲水,是日后生成式AI必須依賴的維生補(bǔ)給。
按照權(quán)威分析機(jī)構(gòu)和咨詢公司的說法,在2027年,全世界互聯(lián)網(wǎng)數(shù)據(jù)量將達(dá)到291ZB(1ZB等于十萬億TB),2026年AI就將產(chǎn)出全世界互聯(lián)網(wǎng)數(shù)據(jù)量的10%。而2023年這個大廠們紛紛推出大模型的生成式AI元年,AI產(chǎn)出互聯(lián)網(wǎng)數(shù)據(jù)的比例是1%。
如果1%的AI生成數(shù)據(jù)混在訓(xùn)練數(shù)據(jù)集里,就能讓谷歌的大模型說自己創(chuàng)始人是李彥宏。那比例漲到10%時將會出現(xiàn)什么,簡直不敢想。圍繞真實人類數(shù)據(jù)知識產(chǎn)權(quán)和可持續(xù)來源的斗爭,在AI熱潮中越發(fā)凸顯。
|咨詢機(jī)構(gòu)預(yù)估AI訓(xùn)練數(shù)據(jù)的市場份額將在十年間從20.9億美元上升到98.9億美元
在這場斗爭中,最先出擊的倒不是大廠們,是聞風(fēng)而動的版權(quán)律師們。
2024年1月12日,美國加利福尼亞州法院駁回了包括喜劇演員莎拉·西爾弗曼在內(nèi)的幾位創(chuàng)作者對 OpenAI 提起的版權(quán)訴訟大部分指控,他們指控OpenAI的ChatGPT盜版了他們的視頻作品。訴訟提出了六項侵權(quán)指控并索賠。而法院駁回了除直接侵犯版權(quán)之外的所有指控。
這個訴訟是2023年8月中旬提出的,代理這些創(chuàng)作者的是美國律師事務(wù)所Joseph Saveri 律師事務(wù)所。
同一個律所,在2022年11月代理了對OpenAI出品的GitHub Copilot的代碼版權(quán)集體訴訟,2023年1月代理了美國藝術(shù)家對Stability AI、Midjourney和DeviantArt等圖片生成AI企業(yè)領(lǐng)頭羊的圖像版權(quán)集體訴訟,這個訴訟在一年后附加了一份證據(jù):1.6萬名英國與美國藝術(shù)家聯(lián)署的支持訟由名單。
當(dāng)然,按這個律所2023年7月自己的媒體公關(guān)稿,是因為ChatGPT和LLaMA這些大模型是“工業(yè)級剽竊犯”、創(chuàng)作者和出版商們苦于大廠侵權(quán)而聲索無門,律師們才仗義出手。
對OpenAI的訓(xùn)練數(shù)據(jù)集的書籍版權(quán)訴訟,大都基于OpenAI還開源GPT系列模型集合時的兩篇論文。
2018年介紹GPT-1的論文稱訓(xùn)練數(shù)據(jù)中有包含7千本圖書的BookCorpus子集。2020年介紹GPT-3的論文稱訓(xùn)練數(shù)據(jù)中15%是Books1和Books2兩個“源于網(wǎng)絡(luò)的書籍集合”,數(shù)據(jù)量分別是BookCorpus的9倍和42倍。
起訴方一般會基于這些論文,稱BookCorpus的來源本身就是從自發(fā)行小說網(wǎng)站Smashwords上薅來的,且按體量推斷,Books1應(yīng)該包含6.3萬本書籍、Books2應(yīng)該包含29.4萬本書籍,網(wǎng)上版權(quán)公開合法來源的書籍絕無此數(shù),其中一定包含盜版電子書。GPT系列模型能生成出與原告?zhèn)冿L(fēng)格相仿的內(nèi)容,定是抄襲。
然而OpenAI的律師可沒這么好拿捏。Smashwords本是免費(fèi)網(wǎng)文站,所以BookCorpus的侵權(quán)索償很難走通。而Books1、Books2兩個子訓(xùn)練集沒有如BookCorpus提供給其他企業(yè),ChatGPT之后的產(chǎn)品也沒有開源,拿“應(yīng)包含”、“一定有”這種難以坐實的揣測就想當(dāng)證據(jù),于法于理都容易駁回。
失業(yè)宅男給全世界埋下的雷
不過,大廠們還是有無可抵賴的使用盜版把柄能讓集體訴訟者們拿捏的。
這些把柄里最出名的,莫過于業(yè)內(nèi)著名的Books3數(shù)據(jù)集。
2020年,一群AI發(fā)燒友們讀了OpenAI的GPT-3論文后,在線上聊天群里整天嘮一個話題:咱們能否自己手動搞一個差不多的東西出來?
其中一個名為肖恩·普雷瑟的技術(shù)宅男表示,就算OpenAI錢多又領(lǐng)先,咱們自行做類似模型的阻礙也不見得就更多。當(dāng)年夏天,他們著手開始操作項目,討論如何從零開始攢出足夠的訓(xùn)練數(shù)據(jù)來。
普雷瑟負(fù)責(zé)的是文本訓(xùn)練數(shù)據(jù)這塊,他也認(rèn)為OpenAI肯定使用了線上盜版電子書站的資源。大廠做得,我做不得?于是當(dāng)時無業(yè)的他,把有限的生活熱情全部投入了攢文本訓(xùn)練數(shù)據(jù)的無限事業(yè)中。
普雷瑟以典型的失業(yè)獨(dú)居宅男生活方式來操作項目:起居無節(jié)、飲食無度,睡醒了穿上衣物就扒盜版電子書、做標(biāo)記、做去重,做到天昏地暗時直接在電腦前、沙發(fā)上瞇過去。
經(jīng)過如此天昏地暗的一兩個星期后,普雷瑟收獲了完工的文本數(shù)據(jù)集和嗜睡癥診斷書。此數(shù)據(jù)集體積37GB,內(nèi)含196640本書籍內(nèi)容,做好了標(biāo)記、去重、全部轉(zhuǎn)化成TXT文本格式。鑒于OpenAI把文本訓(xùn)練數(shù)據(jù)子集稱為Books1和Books2,普雷瑟把自己的文本數(shù)據(jù)集命名為Books3。
包含了Books3數(shù)據(jù)集的AI訓(xùn)練數(shù)據(jù)集“大堆”(The Pile),于2020年秋上線。因為制作質(zhì)量好、使用方便,此數(shù)據(jù)集在業(yè)界內(nèi)迅速風(fēng)靡。
|“大堆”(The Pile)各個數(shù)據(jù)來源的占比,Bibliotik部分就是最惹事的Books3數(shù)據(jù)集
然而Books3這個美國中西部無業(yè)宅男傾注心血的項目,不僅方便了全世界AI從業(yè)者,也為全世界版權(quán)律師們提供了利器:如果OpenAI的Books1、Books2坐不實用了盜版,全用網(wǎng)上“影子圖書館”攢成的Books3可是板上釘釘跑不掉的。
但凡看到起訴大模型訓(xùn)練數(shù)據(jù)集侵犯版權(quán)的新聞里出現(xiàn)“196640本書籍”這個字眼,就是某大廠又因為用Books3訓(xùn)練模型被人告了。
這個被起訴隊列中最新一家是英偉達(dá)。3月10日,英偉達(dá)公司在美國舊金山被三名作家起訴,他們稱該公司未經(jīng)許可使用了他們的受版權(quán)保護(hù)的書籍來訓(xùn)練其AI模型 NeMo。原告?zhèn)兎Q他們的作品是“包含196640本書的數(shù)據(jù)集”的一部分,這些書籍幫助訓(xùn)練 NeMo 模擬普通書面語言,直到2023年10月份才被刪除。
原告表示刪除行為表明英偉達(dá)知道侵權(quán)的存在,所以要讓英偉達(dá)為過去三年使用版權(quán)作品訓(xùn)練大模型支付賠償金。
因為版權(quán)訴訟和維權(quán)組織的四處出擊,2023年8月下旬,Books3的主要托管網(wǎng)站將其下線,其他網(wǎng)站的鏡像版本每出現(xiàn)就會被維權(quán)組織狙擊。
2023年9月,普雷瑟受訪時表示自己當(dāng)年的確欠考慮,但制作Books3數(shù)據(jù)集沒做錯。按他的看法,沒有這種數(shù)據(jù)平等化行為,小公司、個體研究者、普通人永遠(yuǎn)無法自行參與大語言模型的熱潮。版權(quán)方如果要全網(wǎng)刪除Books3,那是他們的抉擇。不過此舉意料之中的附加效果是,生成式AI技術(shù)的版圖完全只被有錢做爬蟲兼付法務(wù)費(fèi)的大公司主宰。
AI大廠:竊書能算偷?
持此觀點(diǎn)的法律界和科技界人士其實不少,有專精數(shù)據(jù)扒取案件的律師稱:“如果你是OpenAI或Meta,自然有資源把訴訟斗爭糾纏到地老天荒世界末日,而規(guī)模稍小的組織就無法照此辦理。所以法律在此的模糊處,現(xiàn)在只有益于大玩家們。”
時勢的演變,部分佐證了這些看法。大廠們的舉止,簡直令人瞠目。
比如1月14日,Meta公開承認(rèn)使用Books3數(shù)據(jù)集訓(xùn)練LLAM 1和LLAM 2模型,不過反指這不是故意侵權(quán),使用Books3數(shù)據(jù)集屬于版權(quán)法律中的“合理使用”(為研究、教學(xué)、諷刺、評論等用途使用版權(quán)內(nèi)容不屬于盜版)范疇,毋需獲得版權(quán)持有方許可,甚至不用向書籍作者們支付任何補(bǔ)償。
如果不認(rèn)錯不給錢的Meta顯得蠻橫,那OpenAI的舉止就更厲害。
2023年的最后一周,《紐約時報》在美國起訴OpenAI和微軟侵犯版權(quán),稱OpenAI的模型是通過使用《紐約時報》數(shù)百萬篇受版權(quán)保護(hù)的新聞文章、深度調(diào)查、觀點(diǎn)文章、評論、操作指南等建立起來。
OpenAI大語言模型因此可以生成逐字背誦內(nèi)容、總結(jié)概括其內(nèi)容并模仿其表達(dá)風(fēng)格的輸出?!都~約時報》稱,這損害了“訂閱、許可、廣告和聯(lián)盟收入”,要求賠償。
而OpenAI的反擊簡直奇譎。在2月底向法院提出的駁回請求中,OpenAI表示GPT系列模型集合并非《紐約時報》訂閱服務(wù)的替代品,普通人也不會以這種方式使用ChatGPT。
除此之外,OpenAI還稱,為了從該公司AI產(chǎn)品中生成與過往報紙文章內(nèi)容完全匹配的回復(fù),《紐約時報》“進(jìn)行了數(shù)萬次提示詞修改嘗試,并不得不向ChatGPT提供部分文章內(nèi)容”,這屬于“花錢雇黑客入侵OpenAI的產(chǎn)品”。
把舉世通行的“提示詞工程”說成“黑客入侵”,被告變原告,OpenAI法務(wù)部門的這口反咬令人嘆為觀止。真是應(yīng)了古代(美國)人一句名言:提公事包的強(qiáng)盜,可比提沖鋒槍的強(qiáng)盜狠惡多了。
不過大廠們的霸道姿態(tài)是有緣故的。它們并非不愿出錢購買版權(quán)內(nèi)容,在被《紐約時報》起訴前兩周,OpenAI 宣布購買新聞出版集團(tuán)斯普林格的新聞內(nèi)容來訓(xùn)練大型模型。1月份,OpenAI 表示,正在與數(shù)十家出版商洽談達(dá)成文章授權(quán)協(xié)議,以獲取內(nèi)容來訓(xùn)練其人工智能模型。不過有消息稱OpenAI出價小氣,向很多商洽對象的開價是每年給100-500萬美元。
然而在法律訴訟中認(rèn)錯,是要糾正錯誤和違法行為的。落實到AI模型的訓(xùn)練數(shù)據(jù)版權(quán)訴訟上,相應(yīng)的舉措就是必須刪除包含侵權(quán)內(nèi)容的訓(xùn)練數(shù)據(jù)集、停止使用侵權(quán)內(nèi)容訓(xùn)練的AI模型,甚至刪除模型。
正如2023年11月美國國家版權(quán)辦公室意圖改變AI訓(xùn)練數(shù)據(jù)的版權(quán)規(guī)制時,一個投資銀行家在征求意見網(wǎng)頁上寫下的,“現(xiàn)在這是逾千億美元的大生意,改變關(guān)鍵法律要素,將會顯著擾亂業(yè)界的既有預(yù)期,進(jìn)而破壞國家的經(jīng)濟(jì)優(yōu)勢和安全?!?/p>
簡而言之,現(xiàn)在AI經(jīng)濟(jì)這么火,用點(diǎn)盜版怎么了,不要擋著路,擋路會天崩地裂。
熱門跟貼