面向微博爬蟲(chóng)系統(tǒng)的分析

2013-08-15 00:48王艷閣

河南科技 2013年4期

王艷閣

(中原工學(xué)院計(jì)算機(jī)學(xué)院，河南鄭州 450000)

1 背景和意義

互聯(lián)網(wǎng)傳播信息的快速傳播，因此微博給人們的工作、生活帶來(lái)了方便，但同時(shí)也給虛假信息和網(wǎng)絡(luò)暴力的迅速傳播等惡意、違法行為提供了滋生的溫床。即使公眾媒體和信息管理部門一直呼吁廣大網(wǎng)民規(guī)范自己的上網(wǎng)行為，維持網(wǎng)絡(luò)秩序，但是被有些人別有用心的傳播、制造網(wǎng)絡(luò)謠言，形成非理性非合法的網(wǎng)絡(luò)輿論氛圍，危害正常的生活、社會(huì)秩序。因此，不能僅僅依靠于網(wǎng)民的自律行為，需要網(wǎng)絡(luò)信息監(jiān)管部門對(duì)網(wǎng)絡(luò)言論進(jìn)行管理和監(jiān)控，對(duì)網(wǎng)絡(luò)的輿情進(jìn)行研究和分析，完善網(wǎng)絡(luò)輿情監(jiān)控管理機(jī)制，培育高雅文明、開(kāi)放成熟的正確輿論。

目前的互聯(lián)網(wǎng)世界已經(jīng)進(jìn)入到了自媒體時(shí)代，而這其中不可不提的一個(gè)關(guān)鍵詞便是微博。作為互聯(lián)網(wǎng)2.0時(shí)代最重要發(fā)明之一，它不僅僅把傳統(tǒng)媒體從紙上變到了電子媒介上，更重要的是它徹底改變了傳播的路徑。在這個(gè)微博時(shí)代，人人都是記者和編輯，每一個(gè)人都可以在遇到新聞突發(fā)事件的時(shí)候，進(jìn)行新聞的采集和傳播。微博使廣大人民群眾參政議政有了更好的渠道和平臺(tái)，這是好的一面。但同時(shí)我們也應(yīng)該看到其另一面，社會(huì)中的人素質(zhì)有高低，認(rèn)識(shí)社會(huì)、判斷社會(huì)的能力也有高低，不同階層的人、不同素質(zhì)修養(yǎng)的人，都會(huì)利用微博做事情，而做出來(lái)的事情就會(huì)有著不同的效果，這就使得微博容易滋生大量的輿情輿論信息，這些信息一旦引發(fā)了不合常理的群體行為，將導(dǎo)致社會(huì)正常生活受到嚴(yán)重不良影響。因此，如何在大量信息中查找、瀏覽有用的輿情資訊，進(jìn)行分析判斷、以有效的地控制和規(guī)范網(wǎng)絡(luò)信息的傳播是亟需研究解決的問(wèn)題。

2 研究現(xiàn)狀

目前智能挖掘的運(yùn)用和機(jī)器學(xué)習(xí)識(shí)別是網(wǎng)絡(luò)輿情系統(tǒng)的核心，用來(lái)挖掘分析網(wǎng)絡(luò)上的大量的時(shí)刻變化的網(wǎng)絡(luò)輿情信息。處理在人工技術(shù)手段下無(wú)法解決對(duì)大量、時(shí)刻變化網(wǎng)絡(luò)內(nèi)容的及時(shí)監(jiān)控和管理。常用關(guān)鍵技術(shù)如下：

第一是項(xiàng)智能的無(wú)需人為干預(yù)、自動(dòng)獲取互聯(lián)網(wǎng)信息的數(shù)據(jù)挖掘和信息搜索技術(shù)。以前的網(wǎng)絡(luò)爬蟲(chóng)從一個(gè)或若干初始網(wǎng)絡(luò)的URL開(kāi)始，獲得初始網(wǎng)絡(luò)上的URL，在爬取網(wǎng)絡(luò)的時(shí)候中，不停的從當(dāng)前網(wǎng)絡(luò)上抓取新的URL放入隊(duì)列，一直到滿足系統(tǒng)的部分停止條件為止。全部被其抓取的網(wǎng)絡(luò)將會(huì)自動(dòng)被系統(tǒng)保存，以判斷抓取的頁(yè)面是列表頁(yè)還是內(nèi)容頁(yè)。如果是列表頁(yè)，則調(diào)用相應(yīng)的列表頁(yè)模板進(jìn)行分析研究，新的URL添加到未下載URL隊(duì)列中，等待下載;如果是內(nèi)容頁(yè)，則把它寫(xiě)入文件。

第二是信息提取與檢索。對(duì)于網(wǎng)絡(luò)爬蟲(chóng)抓取的大量信息，用前期的檢索引擎并且把自然與然分析技術(shù)和數(shù)據(jù)攫取技術(shù)結(jié)合起來(lái)進(jìn)行對(duì)信息的提取。內(nèi)存中存取的數(shù)據(jù)是爬蟲(chóng)在爬取目錄下采集的，這些數(shù)據(jù)是爬蟲(chóng)定期搜索獲取的。保存頁(yè)面中的有價(jià)值的信息，并且把頁(yè)面中的征文和標(biāo)題部分驚醒區(qū)別的技術(shù)是，網(wǎng)頁(yè)站點(diǎn)智能抓取技術(shù)。調(diào)用有用的插件把內(nèi)容提取出來(lái)是分析線程的主要任務(wù)，按照相應(yīng)的表達(dá)式所表達(dá)的意思，按照一定的周期把數(shù)據(jù)存入到文件中。

第三是自動(dòng)摘要的形成，也就是機(jī)器通過(guò)智能的方法把文檔自動(dòng)形成摘要的過(guò)程和技術(shù)方法。這種方法是提取信息的重要手段，同時(shí)在提取的過(guò)程中這種技術(shù)綜合了機(jī)器識(shí)別和挖掘數(shù)據(jù)技術(shù)。這種方法有基于理解和基于統(tǒng)計(jì)這兩種方式，基于理解的文摘是根據(jù)線索詞詞頻、詞典、句子和詞的統(tǒng)計(jì)方法進(jìn)行模式匹配提取摘要;而基于統(tǒng)計(jì)的方式則是利用語(yǔ)義句法、語(yǔ)義知識(shí)等知識(shí)，在對(duì)文章的內(nèi)容進(jìn)行理解的基礎(chǔ)上提取摘要。

第四是主題追蹤與檢測(cè)。這種技術(shù)追蹤一些目標(biāo)主題的的各種信息以及與之有關(guān)的信息片段。

以上4中技術(shù)就可以滿足當(dāng)前的熱點(diǎn)事件的追蹤、專題特別報(bào)道、新事物的快速識(shí)別等。主題檢測(cè)是從各個(gè)信息集合的片段中檢測(cè)出新的主題，并且是實(shí)時(shí)在線的。

3 研究目標(biāo)

微博輿情系統(tǒng)是微博最為監(jiān)控的主題，與比較重要的主題論壇信息進(jìn)行對(duì)比分析，從而掌握網(wǎng)絡(luò)輿情的發(fā)展的新動(dòng)向。話題聚類、數(shù)據(jù)采集和微博輿情預(yù)測(cè)是微博淤青監(jiān)控的主要部分，第一數(shù)據(jù)采集的內(nèi)容主要是使用爬蟲(chóng)自動(dòng)收集頁(yè)面信息。爬蟲(chóng)模塊是網(wǎng)頁(yè)站點(diǎn)信息采集的重要工具，它的作用是非常重要的，也是網(wǎng)絡(luò)微博最初數(shù)據(jù)的獲取來(lái)源。為了給用戶制定相應(yīng)的爬行策略，爬蟲(chóng)模塊提供一定的抓取任務(wù)和爬蟲(chóng)的運(yùn)行方法，從而對(duì)網(wǎng)站頁(yè)面的信息抓取達(dá)到給用戶方便快捷的操作平臺(tái)。微博輿情系統(tǒng)采用的是聚焦式網(wǎng)絡(luò)爬蟲(chóng)。傳統(tǒng)網(wǎng)絡(luò)爬蟲(chóng)和聚焦網(wǎng)絡(luò)爬蟲(chóng)的區(qū)別在于，通過(guò)配置敏感信息規(guī)則和系統(tǒng)自學(xué)習(xí)功能，根據(jù)系統(tǒng)事先定義的與輿情相關(guān)的敏感關(guān)鍵詞集合，如何剔除無(wú)關(guān)的搜索信息過(guò)濾掉不符用戶定制的主題主題，是頁(yè)面算法的重要功能實(shí)現(xiàn)，除了實(shí)現(xiàn)以上功能外，還要把有用的數(shù)據(jù)信息、有效地鏈接信息等用戶需要的數(shù)據(jù)采集到放到URL隊(duì)列中。微博爬蟲(chóng)的基本方法就是按照原定的抓取策略，確保與主題有關(guān)的信息多爬行、多下載，并分析計(jì)算下一個(gè)將要被獲取的連接于用戶定義主題的關(guān)系度，盡最大可能少的下載無(wú)用頁(yè)面。

與通用網(wǎng)絡(luò)爬蟲(chóng)相比，微博爬蟲(chóng)的研究目標(biāo)是以下三個(gè)方面：(1)如何描述或定義抓取網(wǎng)頁(yè)目標(biāo)。(2)怎樣排列待爬行URL的具體次序。微博爬蟲(chóng)根據(jù)已經(jīng)下載頁(yè)面的相關(guān)聯(lián)程度度，怎樣將頁(yè)面放到優(yōu)先級(jí)隊(duì)列中是根據(jù)該頁(yè)面的子頁(yè)面與用戶定義的相關(guān)度來(lái)決定的。有了用戶定義的相關(guān)度，微博爬蟲(chóng)的爬行策略就不再是簡(jiǎn)單的深度或者廣度優(yōu)先了，而是根據(jù)相關(guān)度的大小，最先訪問(wèn)相關(guān)度大的網(wǎng)頁(yè)連接。(3)怎樣判斷一個(gè)網(wǎng)頁(yè)是否和策略有關(guān)系。挖取數(shù)據(jù)技術(shù)可以實(shí)現(xiàn)應(yīng)經(jīng)在隊(duì)列等爬行的連接和已經(jīng)獲取的網(wǎng)頁(yè)并且可以獲取具體的信息內(nèi)容。因此，主體不同的爬蟲(chóng)之間的主要區(qū)別二就是目前爬行頁(yè)面的主題相關(guān)度。

4 研究?jī)?nèi)容及創(chuàng)新點(diǎn)

4.1 研究?jī)?nèi)容

微博爬蟲(chóng)抓取策略是聚焦式定向抓取，根據(jù)需要對(duì)相應(yīng)的網(wǎng)頁(yè)或者論壇的信息進(jìn)行獲取，所以域名或者網(wǎng)站的條件需要過(guò)濾，并且條件還需要特定的設(shè)置。如baidu.com就可以設(shè)置成過(guò)濾條件，那么爬蟲(chóng)收集網(wǎng)頁(yè)信息的時(shí)候就只會(huì)收集百度的網(wǎng)頁(yè)信息。對(duì)網(wǎng)站過(guò)濾、關(guān)鍵詞過(guò)濾、搜索工具過(guò)濾和最初連接的個(gè)數(shù)過(guò)濾等是聚焦式爬蟲(chóng)的工作方式。用戶指定的網(wǎng)頁(yè)在全網(wǎng)的連接站點(diǎn)進(jìn)行抓取。但是聚焦式爬蟲(chóng)的回應(yīng)是在前期完善的搜索平臺(tái)上進(jìn)行操作，如在百度或者谷歌上面來(lái)獲取一些鏈接并和本主題關(guān)系度較大。在爬行的時(shí)候首先從常用的搜索引擎中獲得一些網(wǎng)站鏈接，然后從中開(kāi)始抓取，抓取的時(shí)候也是相關(guān)度越來(lái)越高，直到和用戶定義的條件滿足為止，到達(dá)最深的爬行度的時(shí)候才結(jié)束本次爬行過(guò)程。為了提高爬行的精度，微博爬蟲(chóng)采用先對(duì)與用戶定義相關(guān)的頁(yè)面進(jìn)行連接，而不像普通爬蟲(chóng)那樣對(duì)所有的頁(yè)面的進(jìn)行爬行，對(duì)用戶的相關(guān)度進(jìn)行分析后再處理，這樣爬行的精度就很自然的提高了，同時(shí)爬行的結(jié)果也與用戶與期待的結(jié)果相關(guān)的也大，達(dá)到了雙優(yōu)的結(jié)果，即使有少數(shù)遺漏了，也能讓大部分的用戶滿意。從以上可以看出如何分析用戶提出定義的主題的相關(guān)度是本微博爬蟲(chóng)的關(guān)鍵技術(shù)，對(duì)用戶提出的關(guān)鍵詞進(jìn)行分析是實(shí)現(xiàn)的最簡(jiǎn)單的方法，再深一步的話就可以對(duì)主題所提到的概念和語(yǔ)義的分析，達(dá)到這一層次是比較精深的。

怎么對(duì)用戶定義的關(guān)鍵詞的主題相關(guān)度分析呢，大概的主要思路下面具體闡述：第一要確定用戶提出的關(guān)鍵詞，這個(gè)關(guān)鍵詞要有一定的權(quán)重還要能夠代表受限制的領(lǐng)域。第二利用空間向量的模型算法，來(lái)算出頁(yè)面的相關(guān)程度，從而確定主題的相關(guān)度的取舍與用戶定義主題相關(guān)度大的網(wǎng)絡(luò)頁(yè)面。普通爬蟲(chóng)是概念和主題爬蟲(chóng)的基礎(chǔ)，兩者都是在普通爬蟲(chóng)功能上進(jìn)行擴(kuò)充，在整個(gè)基于概念和基于關(guān)鍵詞的主題爬蟲(chóng)系統(tǒng)全是以普通爬蟲(chóng)作為基礎(chǔ)，而在這基礎(chǔ)上進(jìn)行功能上的擴(kuò)充，主題分析相關(guān)度，優(yōu)化中子模塊，主題確立模塊，排序模塊就是頁(yè)面處理的整個(gè)過(guò)程。兩種方法的主要不同之處在于的怎么表示。其系統(tǒng)工作具體流程如下：第一爬行模塊搜索網(wǎng)絡(luò)頁(yè)面;第二爬行模塊對(duì)所爬取的網(wǎng)頁(yè)進(jìn)行分析，調(diào)用相關(guān)的算法模塊;第三根據(jù)檢測(cè)的結(jié)果對(duì)不同的結(jié)果進(jìn)行分析研究;第四對(duì)正在數(shù)據(jù)庫(kù)里等待處理的網(wǎng)絡(luò)連接進(jìn)行調(diào)用返回到第一步，一直到?jīng)]有新的網(wǎng)絡(luò)連接;第五爬取的響應(yīng)網(wǎng)頁(yè)結(jié)果進(jìn)行排序。做為輿情監(jiān)控控系統(tǒng)的重要組成部分，微博爬蟲(chóng)和通用的網(wǎng)絡(luò)爬蟲(chóng)類似，也需要遵守普通爬蟲(chóng)的基本原則，如穩(wěn)定性、活動(dòng)性、爬行時(shí)要遵守Robots協(xié)議等。

由于微博輿情監(jiān)控系統(tǒng)的特殊需要，微博爬蟲(chóng)部分的設(shè)計(jì)和通用網(wǎng)絡(luò)爬蟲(chóng)相比有很大區(qū)別。對(duì)整個(gè)網(wǎng)絡(luò)內(nèi)容信息進(jìn)行抓取時(shí)通用爬蟲(chóng)的的工作策略，深度和廣度策略都要用到。每一次完成抓取內(nèi)容，爬蟲(chóng)都需要廣泛的撒網(wǎng)，范圍很大，同時(shí)也需要相對(duì)較長(zhǎng)的時(shí)間和資源。聚焦抓取和定向抓取是爬蟲(chóng)常用的策略，但是在具體的實(shí)施過(guò)程中要選擇既效率高又節(jié)省資源的方法對(duì)各種和主題相關(guān)的網(wǎng)頁(yè)進(jìn)行收集獲取，這也是輿情監(jiān)控系統(tǒng)重要功能體現(xiàn)。聚焦爬蟲(chóng)為了避免資源浪費(fèi)，采取了只對(duì)與用戶定制主題相關(guān)的資源進(jìn)行獲取，實(shí)現(xiàn)的方法是通過(guò)計(jì)算向量空間模型實(shí)現(xiàn)的，在最短的時(shí)間內(nèi)完成信息的獲取，并且工作范圍還比較小，這就是定向抓取的方式。通過(guò)網(wǎng)頁(yè)的連接信息能夠查詢到所屬的歸屬地，也可以判斷出這個(gè)網(wǎng)頁(yè)是否和具體的某個(gè)微博關(guān)系度比較大。用戶只關(guān)心與自己定義主題有關(guān)的信息，所以僅連接本微博相關(guān)度大的連接。用關(guān)鍵詞的范圍比較和語(yǔ)義擴(kuò)展來(lái)實(shí)現(xiàn)微博爬蟲(chóng)的靈活性。為了不丟棄和用戶定義的主題的信息，可以通過(guò)提高判斷關(guān)鍵詞和識(shí)別的比較的方法。為了減輕微博爬蟲(chóng)爬行負(fù)擔(dān)，爬蟲(chóng)一般會(huì)設(shè)法減少爬取網(wǎng)頁(yè)的相關(guān)數(shù)目。用戶可以通過(guò)設(shè)置一定的爬行策略來(lái)滿足抓取時(shí)的特殊需要，如設(shè)置限定的爬蟲(chóng)的爬取范圍或者利用關(guān)鍵詞實(shí)現(xiàn)高速獲取信息等，省掉了抓取無(wú)關(guān)網(wǎng)頁(yè)的大量時(shí)間。

4.2 創(chuàng)新點(diǎn)

第一，快速抓取網(wǎng)絡(luò)時(shí)刻更新的大量?jī)?nèi)容，網(wǎng)絡(luò)頁(yè)面的更新也需要爬蟲(chóng)定時(shí)的回訪原來(lái)爬行過(guò)的頁(yè)面站點(diǎn)，從而確保最新的焦點(diǎn)話題能夠能夠在整個(gè)輿情監(jiān)控系統(tǒng)中快速獲取。微博爬蟲(chóng)的工作效率和多次抓取有著重要的關(guān)系，尤其是多次爬去的效率和范圍。增量式抓取和周期性抓取策略是網(wǎng)站頁(yè)面抓取的重要手段，為了保證網(wǎng)頁(yè)信息的時(shí)效性采取對(duì)多個(gè)網(wǎng)頁(yè)定期性的爬取，同時(shí)根據(jù)爬去的周期性采取不同的爬行策略，對(duì)于和主題相關(guān)度比較大的網(wǎng)頁(yè)重點(diǎn)抓取。

第二，在微博爬取過(guò)程中在一定時(shí)間內(nèi)是爬行模塊是比較固定的，它的目錄機(jī)構(gòu)要遵循一定的命名規(guī)則，所以很明顯的區(qū)別與其他的模塊。例如新浪微博等微博中不相同模塊就可以通過(guò)域名來(lái)區(qū)別出來(lái)，也就可以利用這樣來(lái)給爬取的文檔分類保存，不同的微博模塊可以采用不同的爬取策略，例如對(duì)變化比較快，比較大的模塊可以設(shè)置多次的爬行策略，而對(duì)于變化速度比較慢的模塊可以減少爬行次數(shù)，從而提高了爬行的效率。當(dāng)然要實(shí)現(xiàn)以上的策略，需要有智能的識(shí)別系統(tǒng)來(lái)識(shí)別微薄的更新速度和時(shí)間，也對(duì)不同的網(wǎng)絡(luò)連接是指不同的抓取策略。

［1]PJianpingZeng，PShiyong Zhang，Chengrong Wu，PJianfengXiePredictive Modelfor Internet Public Opinion.Proceedings of the Fourth International Conference onFuzzy Systems and Knowledge Discovery(FSKD 2007).2007，Vol.3：7-11。

［2]姜?jiǎng)俸?網(wǎng)絡(luò)輿情熱點(diǎn)的形成與發(fā)展、現(xiàn)狀及輿論引導(dǎo)［J].理論月刊，2008，(4)

［3]張旭，張振江，劉云.BBS輿情系統(tǒng)爬蟲(chóng)模塊的研究［J].鐵路計(jì)算機(jī)應(yīng)用2010(12)18-21

［4]劉金紅，陸余良.主題網(wǎng)絡(luò)爬蟲(chóng)研究綜述［J].計(jì)算機(jī)應(yīng)用研究.2007(10)26-29.

［5]A.Rungsawang，N.Angkawattanawit.Learnable topic—sp'ecificweb crawler［J].Journal ofNetwork and Computer Applica—tions.2005(28)：97—11

［6]邁克塞沃爾.鏈接分析：信息科學(xué)的研究方法［M].孫建軍，李江，張煦，等.南京：東南大學(xué)出版社，2009：15.