爱草在线观看视频,日韩亚洲午夜av,欧美日韩一区二区视频免费在线观看 ,√天堂中文资源在线地址,免费观看的毛片地址

新智元報道

編輯：定慧

【新智元導讀】AI爬蟲是互聯(lián)網(wǎng)最頑固的「蟑螂」，不講規(guī)則、壓垮網(wǎng)站，令開發(fā)者深惡痛絕。面對這種AI時代的「DDoS攻擊」，極客們用智慧反擊：或設「神之審判」Anubis，或制造數(shù)據(jù)陷阱，以幽默和代碼讓機器人自食其果。這場攻防戰(zhàn)，正演變成一場精彩絕倫的網(wǎng)絡博弈。

AI網(wǎng)絡爬蟲是互聯(lián)網(wǎng)上的「蟑螂」，幾乎所有軟件開發(fā)者都會這樣認為的。

「爬蟲」是一種網(wǎng)絡自動程序，用來瀏覽互聯(lián)網(wǎng)、獲取網(wǎng)頁內(nèi)容。

而在AI時代，爬蟲的威脅到了讓開發(fā)者不得不封鎖掉某個地區(qū)所有人的訪問。

Triplegangers是一家僅僅由七名員工運營的公司，他們花費十多年時間建立了自稱是網(wǎng)絡上最大的「人類數(shù)字替身」的數(shù)據(jù)庫，即從實際人體掃描得到的3D圖像文件。

2025年2月10日，公司CEO Oleksandr Tomchuk突然發(fā)現(xiàn)他們公司的電商網(wǎng)站「崩了」。

「OpenAI使用了600個IP來抓取數(shù)據(jù)，日志還在分析中，可能遠不止這些」，Tomchuk最終發(fā)現(xiàn)，導致他們網(wǎng)站崩潰的元兇竟然是OpenAI的爬蟲機器人。

「他們的爬蟲正在壓垮我們的網(wǎng)站，這就是一次DDoS攻擊！」

OpenAI沒有回應此次事件，該事件過去僅僅不到兩個月，但AI爬蟲機器人仍然活躍在網(wǎng)絡上。

AI爬蟲不遵循「古老傳統(tǒng)」，阻止他們是徒勞的

其實爬蟲最早并不是AI時代為了獲取訓練語料而誕生的。

早在搜索引擎時代，就已經(jīng)有「搜索引擎機器人」，那個「古老年代」的機器人還約定俗成的遵循各個網(wǎng)站上會存在的一份文件——robots.txt。

這個文件告訴了機器人不要爬取哪些內(nèi)容，哪些內(nèi)容可以爬取。

但這份傳統(tǒng)隨著互聯(lián)網(wǎng)的發(fā)展似乎已經(jīng)被遺忘，爬蟲和發(fā)爬蟲也演變?yōu)橐粓龉シ缿?zhàn)役。

而到了如今的「大模型時代」，互聯(lián)網(wǎng)的信息已經(jīng)被LLMs吞噬一空。

阻止AI爬蟲機器人是徒勞的，因為它們會撒謊、更改用戶代理、使用住宅IP地址作為代理來騙過網(wǎng)絡「防守」。

「他們會不斷地抓取你的網(wǎng)站，直到它崩潰，然后還會繼續(xù)抓取。他們會點擊每一個頁面上的每一個鏈接上，一遍又一遍地查看相同的頁面」，開發(fā)者在帖子中寫道。

AI機器人除了「免費」爬取信息外，還會額外增加所爬網(wǎng)站企業(yè)的運營費用——在這個云服務的時代，幾乎所有被爬取的企業(yè)都在云上，大量的爬蟲流量不僅無法帶來收益，還會增加他們的云服務器賬單。

更加無法預料的一點是，對于那些被「白嫖」的網(wǎng)站來說，甚至確切的知道被白嫖了哪些信息。

一些開發(fā)者決定開始以巧妙且幽默的方式進行反擊。

程序員打造爬蟲的「神之墓地」

FOSS開發(fā)者Xe Iaso在博客中描述了AmazonBot如何不斷攻擊一個Git服務器網(wǎng)站，導致DDoS停機。

所以Iaso決定用智慧反擊，他構建了一個名為Anubis的工具。

Anubis是一個工作量證明檢查的反向代理，請求必須通過該檢查才能訪問Git服務器。

它阻止機器人，但允許人類操作的瀏覽器通過。

Iaso關于Anubis工作原理的簡單介紹。

本質(zhì)上，Anubis確保的是「真實人類使用的瀏覽器」在訪問目標網(wǎng)站，而不是AI爬蟲——除非這個爬蟲偽裝的足夠「先進」，就像通過圖靈測試一樣。

有趣的部分是：Anubis是埃及神話中引導死者接受審判的神的名字。

「Anubis稱量了你的靈魂（心臟），如果它比一根羽毛重，你的心臟就會被吃掉，然后你就徹底死了」。

這個項目的名字帶有諷刺意味，在自由開源軟件社區(qū)中像風一樣傳播開來。

Iaso在3月19日將其分享到GitHub上，僅幾天時間就獲得了2000個星標、20位貢獻者和39個分支。

用「復仇」的方式防御AI爬蟲

Anubis的迅速流行表明Iaso的痛苦并非個例。事實上，還有很多故事：

SourceHut的創(chuàng)始人兼CEO Drew DeVault描述說，他每周要花費「20% 到 100% 的時間來大規(guī)模緩解過于激進的 LLM 爬蟲」，并且「每周經(jīng)歷數(shù)十次短暫的服務中斷」。
Jonathan Corbet，一位著名的FOSS開發(fā)者，他運營著Linux行業(yè)新聞網(wǎng)站 LWN，警告稱他的網(wǎng)站正受到「來自 AI 抓取機器人的 DDoS 級別的流量」影響而變慢。
Kevin Fenzi，龐大的Linux Fedora項目的系統(tǒng)管理員，表示AI抓取機器人變得如此激進，他不得不封鎖整個巴西的訪問。

除了像Anubis一樣「衡量」網(wǎng)絡請求者的靈魂外，其他開發(fā)者認為復仇是最好的防御。

幾天前在Hacker News上，用戶xyzal建議用「大量關于喝漂白劑好處的文章」或「關于感染麻疹對床上表現(xiàn)的積極影響的文章」來加載robots.txt禁止的頁面。

這樣AI爬蟲獲取的信息都是這種大量且無用的「替代品」。