打開網(wǎng)易新聞 查看精彩圖片

說到維基百科,大家都不陌生。

光在差評的資料來源里,你就能經(jīng)常看到它。

世超每次寫那些帶點歷史的、科普性質(zhì)的文章時,就會查維基百科的解釋,完了再順著底部的參考資料挖一挖,能延伸出更多信息點。

可以說,維基百科是普通人弄懂一個概念,最便捷也最權(quán)威的方式之一。

打開網(wǎng)易新聞 查看精彩圖片

維基百科的運營機構(gòu),是一個叫維基媒體的非盈利組織。組織旗下除了有維基百科,還有維基共享資源,維基詞典,維基教科書等項目。

這些項目都是免費給大家用的,因為維基媒體的核心價值觀就是讓知識能自由獲取和共享 。

但最近,維基媒體真的被 AI 公司們鬧麻了。

這些公司為了訓(xùn)練大模型,派了無數(shù)個 AI 爬蟲源源不斷爬取維基媒體上面的數(shù)據(jù)。

但說起來你可能不信:維基媒體居然沒告這些 AI 公司,而是選擇了——

主動上交。

“各位大哥,我把資料都整理好了,你們別爬了行不?!?/strong>

打開網(wǎng)易新聞 查看精彩圖片

前段時間,維基媒體把英語、法語的維基百科內(nèi)容托管在社區(qū)平臺 Kaggle,告訴那些 AI 公司,要資源自取。

光給資源還不行,維基還要服務(wù)好這些大哥,專門把資料針對 AI 模型的口味優(yōu)化了一遍。

因為機器和人類不一樣,我們看起來清晰直觀的頁面,他們還需要多動點腦子,來判斷每一部分是啥。

打開網(wǎng)易新聞 查看精彩圖片

所以維基就把頁面做成了 JSON 格式的結(jié)構(gòu)化內(nèi)容,那些標(biāo)題、摘要、解釋都按照統(tǒng)一格式分好。

這樣 AI 在查看時更容易讀懂每一段的內(nèi)容和數(shù)據(jù),從而降低了 AI 公司的成本。

打開網(wǎng)易新聞 查看精彩圖片

這一波啊,這一波屬于是為了保護老巢不被沖垮,維基給狼群做了一盤美味的肉,扔在了別的地方。

世超覺得,維基這么做真挺無奈的。

早在 4 月 1 號時,他們已經(jīng)發(fā)過博客吐槽了:從 2024 年以來,平臺用來下載多媒體內(nèi)容的流量增加了 50%。

本以為是大家更愛學(xué)習(xí)了,結(jié)果一查發(fā)現(xiàn)全 TM 是 AI 公司的爬蟲。爬蟲們源源不斷地把資源爬回去,然后拿去訓(xùn)練大模型。

打開網(wǎng)易新聞 查看精彩圖片

爬蟲對維基的影響,還真挺大的。

因為維基媒體在全球有多個區(qū)域數(shù)據(jù)中心(歐洲、亞洲、南美等)和一個核心數(shù)據(jù)中心(美國弗吉尼亞州阿什本)。

核心數(shù)據(jù)中心存著所有的資料,而區(qū)域數(shù)據(jù)中心會臨時緩存一些熱門詞條。

打開網(wǎng)易新聞 查看精彩圖片

這么做好處是啥呢?

比如最近很多亞洲人在查“ Speed ”這個詞,那“ Speed ”就會被緩存到亞洲的區(qū)域數(shù)據(jù)中心。

這樣后來的亞洲網(wǎng)友查看“ Speed ”時,這些數(shù)據(jù)就會走同城快遞,從亞洲數(shù)據(jù)中心出發(fā),不用再從美國的數(shù)據(jù)中心走國際物流了。

高頻詞條走廉價通道,低頻詞條走高價通道的辦法,不光提高了各個區(qū)域用戶的加載速度,也降低了維基媒體的服務(wù)器壓力。

但問題是: AI 管你這的那的?只要是個詞條,它都要訪問,而且批量性訪問。

這就導(dǎo)致不斷有流量走高價通道。

前段時間維基媒體就發(fā)現(xiàn),那些走美國數(shù)據(jù)中心的高成本流量,居然有 65% 都是 AI 爬蟲糟蹋的。

打開網(wǎng)易新聞 查看精彩圖片

要知道維基是免費的,但它的服務(wù)器不是,每年都有 300 萬美元托管成本呢。

打開網(wǎng)易新聞 查看精彩圖片

不過吐槽可能并沒啥用,所以幾周后維基媒體選擇把資源整理出來,托管在其他平臺,讓 AI 公司自取。

其實不光是維基百科,從內(nèi)容平臺到開源項目,從個人播客到媒體網(wǎng)站大家都遇到過類似問題。

去年夏天,iFixit 老板就在推特上吐槽 Claude 的爬蟲在一天訪問了自家網(wǎng)站 100 萬次。。。

看到這,你可能會說,不是一個有機器人協(xié)議 robot.txt 么,不想讓 AI 爬蟲訪問自己的網(wǎng)站,可以把它寫進協(xié)議里。

打開網(wǎng)易新聞 查看精彩圖片

啊對,在 ifixit 把 Claude 爬蟲添加到 robots.txt 后,爬行確實暫停了下(變成了30分鐘一次)

在曾經(jīng)的互聯(lián)網(wǎng)時代,robots 協(xié)議的確是個一勞永逸的技術(shù),也有公司因為不遵守吃到了官司。

但擱現(xiàn)在,這個君子協(xié)議只能算紙老虎。

現(xiàn)在的大模型公司,能爬盡爬。

畢竟別家都在爬,你不爬,那你的語料庫就不如別人強大,大模型起跑線就會低人一等。

那咋辦——

給爬蟲換一個名字唄(user-agent)。你只說不讓魯迅爬,又沒讓說不讓周樹人爬。

有沒有大模型這么無恥?可太多了。

之前就有 reddit 網(wǎng)友明明在協(xié)議中禁止 OpenAI 的爬蟲,結(jié)果對面改了下名字,繼續(xù)爬。

打開網(wǎng)易新聞 查看精彩圖片

再比如 perplexity 也被科技媒體 WIRED 抓包過,根本無視 robots 協(xié)議。

打開網(wǎng)易新聞 查看精彩圖片

這些年呢,大家也在嘗試各種新的辦法。

有人研究出在 robots 協(xié)議中放一個壞死鏈接,但凡點進鏈接的一定是爬蟲,畢竟正常用戶是不會點擊這個協(xié)議。

打開網(wǎng)易新聞 查看精彩圖片

還有人選擇借助 Web 應(yīng)用程序防火墻 ( WAF ),基于 IP 地址、請求模式、行為分析綜合識別惡意爬蟲。

也有人決定給網(wǎng)站弄一套驗證碼。

打開網(wǎng)易新聞 查看精彩圖片

基本上這些辦法,往往道高一尺,魔高一丈。你抵抗越狠,AI 公司也會采取更殘暴的爬取手段。

所以賽博菩薩 cloudflare 前段時間出了一套技術(shù)是監(jiān)測到有惡意爬蟲,就索性讓爬蟲進來。

當(dāng)然放它進來,不是給它好吃的,而是做了一道“錯飯”——

提供一串和被抓取網(wǎng)站無關(guān)的網(wǎng)頁,讓 AI 在里面慢慢看。

打開網(wǎng)易新聞 查看精彩圖片

cloudflare 的操作還算是收斂著了。

今年 1 月,有網(wǎng)友寫了一款更兇狠的工具,叫 Nepenthes 豬籠草。

和豬籠草殺死昆蟲一樣,“ 豬籠草 ”將 AI 爬蟲困在沒有出口鏈接的 “ 無限迷宮 ” 靜態(tài)文件中,讓它們抓不了真實內(nèi)容。

打開網(wǎng)易新聞 查看精彩圖片

不光如此,“ 豬籠草 ”還不斷向爬蟲投喂 “ 馬爾可夫亂語 ”,來污染 AI 的訓(xùn)練數(shù)據(jù)。據(jù)說這個技術(shù)目前僅有 OpenAI 的爬蟲能逃脫。

好好好,原來 AI 攻防戰(zhàn),在大模型訓(xùn)練源頭就已經(jīng)打響了。

當(dāng)然了,平臺們也可以和 AI 公司達(dá)成協(xié)議。

比如 Reddit 和推特都向 AI 公司推出了收費套餐,每月使用多少 API、訪問多少推文,我就收你多少錢。

也有沒談成還打起官司的。比如《紐約時報 》商量無果后,就起訴了 OpenAI 抓取自家文章。

看到這你可能會好奇:為什么維基百科不告這些 AI 爬蟲呢?

世超猜測,這可能和維基百科本身有關(guān)。

維基百科的許可協(xié)議非常開放。

它大部分內(nèi)容是允許任何人( 包括 AI 公司 )在遵守署名和相同協(xié)議共享的條件下,自由地使用、復(fù)制、修改和分發(fā)。

所以從法律角度來看,AI 公司抓取、使用維基百科的數(shù)據(jù)進行模型訓(xùn)練,大概率還是合法的。

而且就算把 AI 公司告上法庭,但現(xiàn)在業(yè)內(nèi)也沒有對 AI 侵權(quán)這塊有個明確的法律界限。這種風(fēng)險大、成本高、消耗時間久的選擇,對維基媒體來說,并不切合實際。

最主要的是,維基媒體的使命就是——讓地球上的每個人都能自由獲取所有知識。

雖然 AI 爬蟲帶來的服務(wù)器成本是一個問題,但通過法律手段或商業(yè)協(xié)議,來限制別人獲取資源,或許和他們的使命相違背吧。

照這么來看,維基媒體選擇把數(shù)據(jù)整理好,給 AI 公司拿去訓(xùn)練,也許是最合適,但也最無奈的辦法吧。

撰文:燒烤大師刺猬

編輯:莽山烙鐵頭

美編:萱萱

圖片、資料來源:

https://x.com/kwiens/status/1816128302542905620

Openai not respecting robots.txt and being sneaky about user agents : r/selfhosted

Perplexity Is a Bullshit Machine

The New York Times Sues OpenAI and Microsoft for Copyright Infringement | PCMag

AI haters build tarpits to trap and trick AI scrapers that ignore robots.txt

Trapping misbehaving bots in an AI Labyrinth

Wikipedia is giving AI developers its data to fend off bot scrapers

How crawlers impact the operations of the Wikimedia projects

The journey to open our first data center in South America

打開網(wǎng)易新聞 查看精彩圖片