打開網(wǎng)易新聞 查看精彩圖片

維基媒體基金會(huì)(Wikimedia Foundation)周二(4/1)表示,自2024年以來,外界對(duì)于由志工創(chuàng)建的維基媒體社交媒體的內(nèi)容需求大幅攀升,特別是維基共享資源(Wikimedia Commons)上所存放的1.44億個(gè)圖像、視頻或其他文件,下載相關(guān)多媒體內(nèi)容的帶寬增長(zhǎng)了50%,其增長(zhǎng)主要來自于AI模型的爬蟲機(jī)器人,因此該基金會(huì)制定了年度計(jì)劃,預(yù)計(jì)減少20%的爬蟲請(qǐng)求,以及降低30%的爬蟲數(shù)據(jù)傳輸流量,以節(jié)省資源及帶寬,供真正需要服務(wù)的開發(fā)者使用。

該基金會(huì)指出,維基媒體的各個(gè)項(xiàng)目一直是全球最大的開放知識(shí)集合,不管是人類搜索或是商用產(chǎn)品的訪問都依賴它們,其中,內(nèi)容一直是搜索引擎結(jié)果的關(guān)鍵組成部分,同時(shí)也會(huì)將用戶引跳轉(zhuǎn)至維基媒體的網(wǎng)頁,然而,AI的興起使其動(dòng)態(tài)產(chǎn)生了變化,他們觀察到請(qǐng)求數(shù)量明顯增加,所增加的流量中大多數(shù)是來自于替大型語言模型(LLM)或其他案例搜集數(shù)據(jù)的爬蟲機(jī)器人,而這些流量大部分并沒有注明所取得的數(shù)據(jù)源,同時(shí)還對(duì)維基媒體的底層基礎(chǔ)設(shè)施造成了大量的負(fù)擔(dān)。

根據(jù)維基媒體基金會(huì)的統(tǒng)計(jì),自2024年1月以來,用于下載多媒體內(nèi)容的帶寬增加了50%,該增長(zhǎng)并非來自人類,主要來自自動(dòng)化程序,這些爬蟲程序抓取Wikimedia Commons形象目錄中的公開許可圖像,以將圖像提供給AI模型。該平臺(tái)的基礎(chǔ)設(shè)施可承受高關(guān)注事件發(fā)生時(shí),人類于短時(shí)間相繼訪問所形成的流量高峰,然而,若花費(fèi)大量的時(shí)間與資源來回應(yīng)非人為的流量時(shí),該平臺(tái)容納異常事件的空間就會(huì)縮小,也衍生出越來越大的風(fēng)險(xiǎn)與成本。

維基媒體基金會(huì)是借由全球的數(shù)據(jù)中心網(wǎng)絡(luò)替用戶提供內(nèi)容,當(dāng)一篇文章被多次請(qǐng)求時(shí),他們會(huì)在離用戶最近的數(shù)據(jù)中心記住或緩存它們,倘若某篇文章很久未被請(qǐng)求,那么則會(huì)自核心數(shù)據(jù)中心供應(yīng),意味著該請(qǐng)求必須行經(jīng)從靠近用戶的數(shù)據(jù)中心到核心數(shù)據(jù)中心的所有路徑,再將其存儲(chǔ)在區(qū)域數(shù)據(jù)中心。

人類讀者與機(jī)器人的差別在于,人類通常會(huì)訪問特定或相似的主題,但爬蟲機(jī)器人通常是批量閱讀大量的頁面,包括那些很少被訪問的冷門頁面,意味著許多請(qǐng)求會(huì)被轉(zhuǎn)至核心數(shù)據(jù)中心,消耗更多的資源。

在維基媒體進(jìn)行系統(tǒng)遷移時(shí),發(fā)現(xiàn)機(jī)器人瀏覽的網(wǎng)頁數(shù)量?jī)H占全體的35%,但訪問其核心數(shù)據(jù)中心的流量卻高達(dá)65%。

維基媒體基金會(huì)強(qiáng)調(diào),他們的內(nèi)容是免費(fèi)的,但基礎(chǔ)設(shè)施不是,新的財(cái)政年度將著重于負(fù)責(zé)任地使用基礎(chǔ)設(shè)施,將工程資源優(yōu)先用來該基金會(huì)的各種項(xiàng)目、貢獻(xiàn)者,以及人類對(duì)知識(shí)的訪問,準(zhǔn)備減少20%由機(jī)器人產(chǎn)生的流量,降低30%的爬蟲機(jī)器人使用帶寬,估計(jì)到今年第4季時(shí),將有50%的自動(dòng)化流量可歸因于已知的開發(fā)人員或應(yīng)用程序,提高基礎(chǔ)設(shè)施的可持續(xù)性并防止濫用。

#機(jī)器人# #大數(shù)據(jù)# #數(shù)據(jù)中心#