国产黄片av免费_在线观看看片_www第一精品久久久_成人毛片18女人毛片免_日日摸夜夜操av_国产精品热久久久久夜色精品三区 _中文字幕日韩欧美精品在线_欧美高清另类hdvideosex

<th id="qsu0w"><menu id="qsu0w"></menu></th>

<cite id="qsu0w"></cite>

<samp id="qsu0w"></samp>

被 AI 爬蟲擠爆服務(wù)器后，維基百科點了投降。

差評XPIN

2025-04-29 00:11 ·浙江 ·知否計劃特邀作者·《差評》官方網(wǎng)易號

說到維基百科，大家都不陌生。

光在差評的資料來源里，你就能經(jīng)常看到它。

世超每次寫那些帶點歷史的、科普性質(zhì)的文章時，就會查維基百科的解釋，完了再順著底部的參考資料挖一挖，能延伸出更多信息點。

可以說，維基百科是普通人弄懂一個概念，最便捷也最權(quán)威的方式之一。

維基百科的運營機構(gòu)，是一個叫維基媒體的非盈利組織。組織旗下除了有維基百科，還有維基共享資源，維基詞典，維基教科書等項目。

這些項目都是免費給大家用的，因為維基媒體的核心價值觀就是讓知識能自由獲取和共享。

但最近，維基媒體真的被 AI 公司們鬧麻了。

這些公司為了訓(xùn)練大模型，派了無數(shù)個 AI 爬蟲源源不斷爬取維基媒體上面的數(shù)據(jù)。

但說起來你可能不信：維基媒體居然沒告這些 AI 公司，而是選擇了——

主動上交。

“各位大哥，我把資料都整理好了，你們別爬了行不?！?/strong>

前段時間，維基媒體把英語、法語的維基百科內(nèi)容托管在社區(qū)平臺 Kaggle，告訴那些 AI 公司，要資源自取。

光給資源還不行，維基還要服務(wù)好這些大哥，專門把資料針對 AI 模型的口味優(yōu)化了一遍。

因為機器和人類不一樣，我們看起來清晰直觀的頁面，他們還需要多動點腦子，來判斷每一部分是啥。

所以維基就把頁面做成了 JSON 格式的結(jié)構(gòu)化內(nèi)容，那些標(biāo)題、摘要、解釋都按照統(tǒng)一格式分好。

這樣 AI 在查看時更容易讀懂每一段的內(nèi)容和數(shù)據(jù)，從而降低了 AI 公司的成本。

這一波啊，這一波屬于是為了保護老巢不被沖垮，維基給狼群做了一盤美味的肉，扔在了別的地方。

世超覺得，維基這么做真挺無奈的。

早在 4 月 1 號時，他們已經(jīng)發(fā)過博客吐槽了：從 2024 年以來，平臺用來下載多媒體內(nèi)容的流量增加了 50%。

本以為是大家更愛學(xué)習(xí)了，結(jié)果一查發(fā)現(xiàn)全 TM 是 AI 公司的爬蟲。爬蟲們源源不斷地把資源爬回去，然后拿去訓(xùn)練大模型。

爬蟲對維基的影響，還真挺大的。

因為維基媒體在全球有多個區(qū)域數(shù)據(jù)中心（歐洲、亞洲、南美等）和一個核心數(shù)據(jù)中心（美國弗吉尼亞州阿什本）。

核心數(shù)據(jù)中心存著所有的資料，而區(qū)域數(shù)據(jù)中心會臨時緩存一些熱門詞條。

這么做好處是啥呢？

比如最近很多亞洲人在查“ Speed ”這個詞，那“ Speed ”就會被緩存到亞洲的區(qū)域數(shù)據(jù)中心。

這樣后來的亞洲網(wǎng)友查看“ Speed ”時，這些數(shù)據(jù)就會走同城快遞，從亞洲數(shù)據(jù)中心出發(fā)，不用再從美國的數(shù)據(jù)中心走國際物流了。

這高頻詞條走廉價通道，低頻詞條走高價通道的辦法，不光提高了各個區(qū)域用戶的加載速度，也降低了維基媒體的服務(wù)器壓力。

但問題是： AI 管你這的那的？只要是個詞條，它都要訪問，而且批量性訪問。

這就導(dǎo)致不斷有流量走高價通道。

前段時間維基媒體就發(fā)現(xiàn)，那些走美國數(shù)據(jù)中心的高成本流量，居然有 65% 都是 AI 爬蟲糟蹋的。

要知道維基是免費的，但它的服務(wù)器不是，每年都有 300 萬美元托管成本呢。

不過吐槽可能并沒啥用，所以幾周后維基媒體選擇把資源整理出來，托管在其他平臺，讓 AI 公司自取。

其實不光是維基百科，從內(nèi)容平臺到開源項目，從個人播客到媒體網(wǎng)站大家都遇到過類似問題。

去年夏天，iFixit 老板就在推特上吐槽 Claude 的爬蟲在一天訪問了自家網(wǎng)站 100 萬次。。。

看到這，你可能會說，不是一個有機器人協(xié)議 robot.txt 么，不想讓 AI 爬蟲訪問自己的網(wǎng)站，可以把它寫進協(xié)議里。

啊對，在 ifixit 把 Claude 爬蟲添加到 robots.txt 后，爬行確實暫停了下（變成了30分鐘一次）

在曾經(jīng)的互聯(lián)網(wǎng)時代，robots 協(xié)議的確是個一勞永逸的技術(shù)，也有公司因為不遵守吃到了官司。

但擱現(xiàn)在，這個君子協(xié)議只能算紙老虎。

現(xiàn)在的大模型公司，能爬盡爬。

畢竟別家都在爬，你不爬，那你的語料庫就不如別人強大，大模型起跑線就會低人一等。

那咋辦——

給爬蟲換一個名字唄（user-agent）。你只說不讓魯迅爬，又沒讓說不讓周樹人爬。

有沒有大模型這么無恥？可太多了。

之前就有 reddit 網(wǎng)友明明在協(xié)議中禁止 OpenAI 的爬蟲，結(jié)果對面改了下名字，繼續(xù)爬。

再比如 perplexity 也被科技媒體 WIRED 抓包過，根本無視 robots 協(xié)議。

這些年呢，大家也在嘗試各種新的辦法。

有人研究出在 robots 協(xié)議中放一個壞死鏈接，但凡點進鏈接的一定是爬蟲，畢竟正常用戶是不會點擊這個協(xié)議。

還有人選擇借助 Web 應(yīng)用程序防火墻 ( WAF )，基于 IP 地址、請求模式、行為分析綜合識別惡意爬蟲。

也有人決定給網(wǎng)站弄一套驗證碼。

但基本上這些辦法，往往道高一尺，魔高一丈。你抵抗越狠，AI 公司也會采取更殘暴的爬取手段。

所以賽博菩薩 cloudflare 前段時間出了一套技術(shù)是監(jiān)測到有惡意爬蟲，就索性讓爬蟲進來。

當(dāng)然放它進來，不是給它好吃的，而是做了一道“錯飯”——

提供一串和被抓取網(wǎng)站無關(guān)的網(wǎng)頁，讓 AI 在里面慢慢看。

cloudflare 的操作還算是收斂著了。

今年 1 月，有網(wǎng)友寫了一款更兇狠的工具，叫 Nepenthes 豬籠草。

和豬籠草殺死昆蟲一樣，“ 豬籠草 ”將 AI 爬蟲困在沒有出口鏈接的 “ 無限迷宮 ” 靜態(tài)文件中，讓它們抓不了真實內(nèi)容。

不光如此，“ 豬籠草 ”還不斷向爬蟲投喂 “ 馬爾可夫亂語 ”，來污染 AI 的訓(xùn)練數(shù)據(jù)。據(jù)說這個技術(shù)目前僅有 OpenAI 的爬蟲能逃脫。

好好好，原來 AI 攻防戰(zhàn)，在大模型訓(xùn)練源頭就已經(jīng)打響了。

當(dāng)然了，平臺們也可以和 AI 公司達(dá)成協(xié)議。

比如 Reddit 和推特都向 AI 公司推出了收費套餐，每月使用多少 API、訪問多少推文，我就收你多少錢。

也有沒談成還打起官司的。比如《紐約時報》商量無果后，就起訴了 OpenAI 抓取自家文章。

看到這你可能會好奇：為什么維基百科不告這些 AI 爬蟲呢？

世超猜測，這可能和維基百科本身有關(guān)。

維基百科的許可協(xié)議非常開放。

它大部分內(nèi)容是允許任何人（包括 AI 公司）在遵守署名和相同協(xié)議共享的條件下，自由地使用、復(fù)制、修改和分發(fā)。

所以從法律角度來看，AI 公司抓取、使用維基百科的數(shù)據(jù)進行模型訓(xùn)練，大概率還是合法的。

而且就算把 AI 公司告上法庭，但現(xiàn)在業(yè)內(nèi)也沒有對 AI 侵權(quán)這塊有個明確的法律界限。這種風(fēng)險大、成本高、消耗時間久的選擇，對維基媒體來說，并不切合實際。

最主要的是，維基媒體的使命就是——讓地球上的每個人都能自由獲取所有知識。

雖然 AI 爬蟲帶來的服務(wù)器成本是一個問題，但通過法律手段或商業(yè)協(xié)議，來限制別人獲取資源，或許和他們的使命相違背吧。

照這么來看，維基媒體選擇把數(shù)據(jù)整理好，給 AI 公司拿去訓(xùn)練，也許是最合適，但也最無奈的辦法吧。

撰文：燒烤大師刺猬

編輯：莽山烙鐵頭

美編：萱萱

圖片、資料來源：

https://x.com/kwiens/status/1816128302542905620

Openai not respecting robots.txt and being sneaky about user agents : r/selfhosted

Perplexity Is a Bullshit Machine

The New York Times Sues OpenAI and Microsoft for Copyright Infringement | PCMag

AI haters build tarpits to trap and trick AI scrapers that ignore robots.txt

Trapping misbehaving bots in an AI Labyrinth

Wikipedia is giving AI developers its data to fend off bot scrapers

How crawlers impact the operations of the Wikimedia projects

The journey to open our first data center in South America

特別聲明：本文為網(wǎng)易自媒體平臺“網(wǎng)易號”作者上傳并發(fā)布，僅代表該作者觀點。網(wǎng)易僅提供信息發(fā)布平臺。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

打開網(wǎng)易新聞體驗更佳

熱搜

狄波拉帶倆孫子看謝霆鋒演唱會

唐藝昕否認(rèn)改名是為了張若昀

溺水“美人魚”否認(rèn)因低血糖暈倒

中國女子在菲律賓遭綁架勒索

朝鮮首次證實向俄羅斯派兵參戰(zhàn)

伊朗內(nèi)政部長：港口爆炸是安全疏忽

熱門跟貼

打開APP發(fā)貼

0條跟貼

相關(guān)推薦

寫代碼 25 年后，資深程序員發(fā)現(xiàn)：AI 助手或許還是個“半吊子”！

CSDN 220跟貼

AI 重構(gòu)爆款邏輯，拒絕內(nèi)容垃圾

見實科技

當(dāng)“AI換臉”撞上版權(quán)鐵壁

最高人民法院

揭秘科學(xué)種草SOP：如何用500+標(biāo)簽實現(xiàn)搜索量暴漲120%？

剁椒Spicy

和人工智能下棋，本以為穩(wěn)贏了，結(jié)果它竟然不講武德

搞怪仙人掌

要是人工智能運用在戰(zhàn)爭上，真是不堪想象

魚哥追劇

外網(wǎng)這個AI視頻爆火，稱做的太逼真，已經(jīng)分不清真假

笑薛愛笑 2跟貼

這些怪誕的AI應(yīng)用，憑什么讓硅谷大佬追著打錢

八尺八尋

日本機器人崩塌記：從全球頂流到查無此“機”，都是自己挖的坑

風(fēng)云圈

公司搞AI賦能辭退老同事，他拔掉網(wǎng)線扭頭就走，隔天領(lǐng)導(dǎo)騙他回來交接工作，當(dāng)場愣住了

職場火鍋 29跟貼

快被AI笑噴了！沒想到平時弱不禁風(fēng)的唐僧，也有這一面

諾心談心

AI 繪出“披著羊皮的狼混羊群”，技術(shù)驚艷還是可怕？

新聞一號線

納米AI放大招！MCP萬能工具箱，人人都能用上超級智能體

機器之心Pro 7跟貼

圖像編輯開源新SOTA，來自階躍！大模型行業(yè)正步入「多模態(tài)時間」

量子位

騰訊全棧AI亮劍，“車云一體”真能贏下智能化終局嗎？

鈦媒體APP 1跟貼

爭議人形機器人：不是所有泡沫都是壞事

經(jīng)濟觀察報 1跟貼

拓?fù)鋱D是什么？Topology 明明是結(jié)構(gòu)圖的意思，為什么要故弄玄虛?

機械狗 2跟貼

三招解決Deepseek服務(wù)器繁忙

通信世界

勤哲Excel服務(wù)器自動生成企業(yè)工作任務(wù)管理系統(tǒng)

新聞先鋒

傳騰訊阿里從字節(jié)搶購算力資源字節(jié)否認(rèn)

財聯(lián)社 11跟貼

回到頂部回到首頁

感谢您访问我们的网站，您可能还对以下资源感兴趣：

国产黄片av免费_在线观看看片_www第一精品久久久_成人毛片18女人毛片免_日日摸夜夜操av_国产精品热久久久久夜色精品三区 _中文字幕日韩欧美精品在线_欧美高清另类hdvideosex

大渡口区| 玛曲县| 汝南县| 新津县| 崇仁县| 巨野县| 新晃| 水富县| 北宁市| 上思县| 兴隆县| 二手房| 焦作市| 澎湖县| 天台县| 烟台市| 邹城市| 长武县| 伽师县| 辛集市| 河北省| 千阳县| 永川市| 黎川县| 齐齐哈尔市| 甘洛县| 岳阳市| 徐州市| 加查县| 永顺县| 博野县| 乡城县| 汤原县| 嘉黎县| 祁阳县| 东乡族自治县| 平江县| 拉萨市| 砚山县| 曲松县| 海口市|