郭濤 黃銘鈞
摘要: 社區(qū)互聯(lián)網(wǎng)是以用戶創(chuàng)造內(nèi)容為主的新型互聯(lián)網(wǎng),具有很高的統(tǒng)計價值, 由于權(quán)限和數(shù)據(jù)更新頻繁等限制,傳統(tǒng)的網(wǎng)絡爬蟲很難獲取這一部分數(shù)據(jù),設計并實現(xiàn)了一種可以自動登錄并可以根據(jù)更新頻率快慢智能抓取數(shù)據(jù)的爬蟲,不同于以往爬蟲以頁面為粒度,該爬蟲以人為最小粒度,并以人與人之間的關(guān)系為抓取依據(jù),在獲取這類數(shù)據(jù)上有很好的性能。
關(guān)鍵詞:
中圖分類號:TP31文獻標識碼:A文章編號:2095-2163(2012)04-0065-03