deepseek新專利可降低網(wǎng)絡(luò)資源消耗
天眼查財(cái)產(chǎn)線索信息顯示,近日,deepseek關(guān)聯(lián)公司杭州深度求索人工智能基礎(chǔ)技術(shù)研究有限公司申請(qǐng)的“一種廣度數(shù)據(jù)采集的方法及其系統(tǒng)”專利公布。
摘要顯示,本發(fā)明涉及數(shù)據(jù)采集領(lǐng)域,包括建立網(wǎng)頁(yè)元信息庫(kù);確定每日調(diào)度單元下載配額及當(dāng)日下載總額度;從網(wǎng)頁(yè)元信息庫(kù)中選取相應(yīng)數(shù)量的鏈接,分配下載額度;下載過(guò)程控制;下載文本進(jìn)行后處理及數(shù)據(jù)清洗后進(jìn)入回灌隊(duì)列,通過(guò)信息回灌實(shí)現(xiàn)網(wǎng)頁(yè)元信息庫(kù)更新。本發(fā)明的有益效果在于:發(fā)現(xiàn)盡可能多的網(wǎng)頁(yè)鏈接,并減少對(duì)網(wǎng)站的流量沖擊;對(duì)已經(jīng)下載的內(nèi)容進(jìn)行分析,對(duì)未下載的連接進(jìn)行質(zhì)量推斷,通過(guò)擇優(yōu)下載分配額度的方式,減少低質(zhì)量網(wǎng)頁(yè)下載和重復(fù)下載,提高數(shù)據(jù)質(zhì)量及下載效率,減少在數(shù)據(jù)采集過(guò)程中網(wǎng)絡(luò)資源的消耗;采用單獨(dú)的信息回灌隊(duì)列,保證網(wǎng)頁(yè)元信息庫(kù)修改操作的原子性和穩(wěn)定性。

打開網(wǎng)易新聞 查看精彩圖片

打開網(wǎng)易新聞 查看精彩圖片

打開網(wǎng)易新聞 查看精彩圖片
熱門跟貼