張尚旻 阮湘輝
摘要:網(wǎng)絡爬蟲技術能多渠道獲取數(shù)據(jù),通過完善服務對象的“畫像”,有效提高基層社會綜合治理的能力。本文探討了網(wǎng)絡爬蟲技術,研究分析了網(wǎng)絡爬蟲技術具體應用。
關鍵詞:網(wǎng)絡爬蟲技術;平安建設;應用
中圖分類號:TP311.1 ? ?文獻標識碼:A ? ?文章編號:1007-9416(2020)06-0000-00
0 引言
當前,大數(shù)據(jù)技術高速發(fā)展,如何充分挖掘公開網(wǎng)絡中各類信息數(shù)據(jù)在平安建設中能發(fā)揮的作用和價值,是在“人工智能+”時代推進電子政務的集約化關注的熱點。傳統(tǒng)的平安建設手段導致基層負擔重、行政效能較低,基礎性、源頭性、苗頭性社會問題防控還需要進一步加強。城市管理與城市治理相關部門的業(yè)務流程和需考慮的管理因素愈發(fā)復雜,積累了大量離散的數(shù)據(jù),但限制于各種原因,管理部門間業(yè)務協(xié)同、數(shù)據(jù)協(xié)同需求不能及時獲取。這時,基層管理部門就可以使用網(wǎng)絡爬蟲技術作為實現(xiàn)平安建設的輔助技術手段之一,提高分析、研判和預測的精準性。
1 網(wǎng)絡爬蟲技術概述
網(wǎng)絡爬蟲技術是一種網(wǎng)絡化機器人,能夠可以自動訪問互聯(lián)網(wǎng)并將網(wǎng)站內(nèi)的內(nèi)容下載下來,相當于是一個智能的機器人,其提取的信息用于后續(xù)分析決策。
1.1 爬蟲技術在大數(shù)據(jù)系統(tǒng)框架中的位置
大數(shù)據(jù)技術是在國家治理能力現(xiàn)代化的現(xiàn)實需求下,是基層平安建設模式更新和改善的重要技術?;鶎悠桨步ㄔO要實現(xiàn)以大數(shù)據(jù)技術為內(nèi)在驅(qū)動,來貫穿架構中的基礎環(huán)境層、數(shù)據(jù)獲取層、分析預測層和決策輔助層。其中數(shù)據(jù)獲取層要通過多渠道、高質(zhì)量數(shù)據(jù)采集得到準確的數(shù)據(jù)挖掘結果,確定和預測安全風險等級,為相關的職能部門提供決策支持。
1.2 網(wǎng)絡爬蟲技術的應用思路
(1)策略選擇。網(wǎng)絡爬蟲技術主要分為深度優(yōu)先搜索策略、寬度優(yōu)先搜索策略和聚焦搜索策略。其中寬度優(yōu)先搜索策略的原理是從頂層到底層開始遍歷循環(huán)搜索,一級頁面遍歷搜索后再對二級頁面進行遍歷搜索,以此類推,循環(huán)往復,直到將所有頁面遍歷搜索結束為止。目前,寬度優(yōu)先搜索策略是我們首選的網(wǎng)絡爬蟲技術策略[1]。(2)工具選擇。很多時候我們會想到Python網(wǎng)絡爬蟲,實際上數(shù)據(jù)采集的方法、渠道很廣,有些可以直接使用開放的數(shù)據(jù)源,不需要自己爬取,例如可以在“網(wǎng)易財經(jīng)”上直接下載滬深300指數(shù)的歷史交易數(shù)據(jù);又如比如交通行業(yè),數(shù)據(jù)采集會和攝像頭或者測速儀有關;對于運維人員,日志采集和分析則是關鍵。所以我們需要針對特定的業(yè)務場景,選擇適合的采集工具。基層平安建設工作人員作為技術應用而非開發(fā)者,更應該專注自身工作。例如準備重點事件的研判材料,會議參與人最想知道的不是采集的過程,而是整體的概況,比如說多少人在關注和評論。作為快速應用,采用可視化方式的第三方工具來進行采集是首選。
2 網(wǎng)絡爬蟲技術在基層平安建設中的輔助應用
網(wǎng)絡爬蟲技術在基層平安建設中的具體應用場景主要集中在兩個方面:一是實現(xiàn)對熱點事件的全方位了解,二是服務特定人群。
2.1 轄區(qū)熱點事件
基層有大量行業(yè)領域熱點事件需要我們?nèi)リP注。以房地產(chǎn)及相關領域為例,包括了延期交房矛盾和物業(yè)矛盾等。我們以比較常見的“成立業(yè)委會”為應用場景,通過網(wǎng)絡爬蟲技術實現(xiàn)對網(wǎng)絡上實時數(shù)據(jù)的獲取,更好的掌握服務對象的情況和類似案例的整體情況,實現(xiàn)轄區(qū)的平安穩(wěn)定。
2.1.1 流程選擇
流程設計實際上就是方式的選擇。就是需要告訴網(wǎng)絡爬蟲工具,準備如何操作頁面、想要提取頁面上的哪些信息和是否需要翻頁等。根據(jù)我們的實際需要可以選擇不同的方式?!鞍俗︳~”提供了三種方式進行選擇:(1)簡易采集。它集成大眾經(jīng)常訪問的熱門網(wǎng)站的模板。(2)智能識別模式。通過該模式,我們可以采集在“簡易模板”里沒有的網(wǎng)站數(shù)據(jù)。一個網(wǎng)頁可能有多組數(shù)據(jù),八爪魚會將所有數(shù)據(jù)識別出來,然后智能推薦最常用的那組。如果推薦的不是想要的,可自行“切換識別結果”。同時,可自動識別出網(wǎng)頁的滾動和翻頁;(3)自定義模式。自定義模式是基于有特定需要的情況,貼近用戶需求,我們將采用該類模式。
2.1.2 自定義采集實施
(1)打開網(wǎng)頁:這是采集默認第一項。這里,我們輸入重慶網(wǎng)絡問政平臺的網(wǎng)址。(2)輸入文本:輸入文本屬于高級輔助步驟,可以幫我們更好地對數(shù)據(jù)進行提取,比如我們想要某個關鍵詞的數(shù)據(jù),就需要在網(wǎng)頁輸入框中輸入對應的文字。在本文中,我們將“成立業(yè)委會”列入關鍵詞。(3)點擊元素:這里元素的定義比較廣泛,它可以是某個按鈕,或者某個鏈接,也或者是某個圖片或文字。使用這個步驟是你在搜索或者提交某個請求。在點擊元素后,爬蟲工具會提示你想要達到的目的:點擊該按鈕、采集該元素文本、還是鼠標移到該鏈接上。然后再選擇“點擊該按鈕”進行確認即可[2]。在本例中,我們在設置上面輸入“成立業(yè)委會”后點擊“搜索”按鈕。(4)循環(huán)翻頁:使用中,很多網(wǎng)頁存在翻頁的情況比如網(wǎng)頁底部的“下一頁”按鈕,“八爪魚”處于編輯狀態(tài)時,點擊該按鈕,會提示如何對該按鈕進行操作,是“循環(huán)點擊下一頁”、“采集該鏈接文本”還是“點擊該鏈接”。通常需要確認要進行的“循環(huán)點擊下一頁”的操作。在本例中的網(wǎng)頁是“點擊加載更多”,為了避免數(shù)據(jù)重復提取,我們需要將“循環(huán)翻頁”設置在“循環(huán)提取”之前,即打開所有信息后再進行提取。(5)啟動采集和提取:設計好采集流程后就可以啟動采集任務了,任務結束后,八爪魚會提示你保存采集好的數(shù)據(jù),通常是xlsx或csv格式。如果你使用的是自定義采集,就需要自己來設計采集流程,也就是采集流程中的第二步。這樣,我們就將以“成立業(yè)委會”為關鍵字的信息提取完畢,包括了“題目”“鏈接”“正文”“發(fā)表時間”“處理情況”“瀏覽次數(shù)”等32條信息;同樣,我們也可以就相同的關鍵詞在其它平臺進行搜索,并且將搜索到的大量數(shù)據(jù)進行匯總,交由后臺進行數(shù)據(jù)分析。
2.2 服務特定人群
通過網(wǎng)絡爬蟲技術,可以夠造更加全面的特定人群的“全景畫像”,有助于對行為的研判,更好的為他們提供服務,促進風險防范的手段更加完善。以“二手車交易”人群為例,通過網(wǎng)絡爬蟲技術結合授權信息可以實現(xiàn)對服務人群的“抽象標簽化”,除了性別、年齡、地域等基本屬性,還可以統(tǒng)計消費習慣(消費習慣、購買意向、是否對促銷敏感)、行為習慣(使用App的時間段、頻次、時長、訪問路徑)和偏好分析(網(wǎng)絡瀏覽的內(nèi)容、停留時間長、瀏覽次數(shù)多的內(nèi)容等)。
3 結語
本文僅探索了面向基層工作人員的網(wǎng)絡爬蟲技術的應用,數(shù)據(jù)庫的鏈接標準性等問題均未在本文中討論。
參考文獻
[1] 郭鋒鋒.基于python的網(wǎng)絡爬蟲研究[J].佳木斯大學學報(自然科學版),2020(2):62-65.
[2] 王曉楠,李楊,張海峰,張宇.面向網(wǎng)絡爬蟲的網(wǎng)站優(yōu)化策略[J].農(nóng)家參謀,2020(5):179.
[3] 杜修振,吳乘龍,曾彪,周翌欣,陳實.基于大數(shù)據(jù)的網(wǎng)絡輿情監(jiān)控系統(tǒng)[J].信息技術與信息化,2020(2):18-20.
收稿日期:2020-05-09
作者簡介:張尚旻(1981—),男,重慶人,碩士研究生,研究方向:人工智能大數(shù)據(jù)分析。