王艷閣
(中原工學(xué)院 計(jì)算機(jī)學(xué)院,河南 鄭州 450000)
互聯(lián)網(wǎng)傳播信息的快速傳播,因此微博給人們的工作、生活帶來(lái)了方便,但同時(shí)也給虛假信息和網(wǎng)絡(luò)暴力的迅速傳播等惡意、違法行為提供了滋生的溫床。即使公眾媒體和信息管理部門一直呼吁廣大網(wǎng)民規(guī)范自己的上網(wǎng)行為,維持網(wǎng)絡(luò)秩序,但是被有些人別有用心的傳播、制造網(wǎng)絡(luò)謠言,形成非理性非合法的網(wǎng)絡(luò)輿論氛圍,危害正常的生活、社會(huì)秩序。因此,不能僅僅依靠于網(wǎng)民的自律行為,需要網(wǎng)絡(luò)信息監(jiān)管部門對(duì)網(wǎng)絡(luò)言論進(jìn)行管理和監(jiān)控,對(duì)網(wǎng)絡(luò)的輿情進(jìn)行研究和分析,完善網(wǎng)絡(luò)輿情監(jiān)控管理機(jī)制,培育高雅文明、開(kāi)放成熟的正確輿論。
目前的互聯(lián)網(wǎng)世界已經(jīng)進(jìn)入到了自媒體時(shí)代,而這其中不可不提的一個(gè)關(guān)鍵詞便是微博。作為互聯(lián)網(wǎng)2.0時(shí)代最重要發(fā)明之一,它不僅僅把傳統(tǒng)媒體從紙上變到了電子媒介上,更重要的是它徹底改變了傳播的路徑。在這個(gè)微博時(shí)代,人人都是記者和編輯,每一個(gè)人都可以在遇到新聞突發(fā)事件的時(shí)候,進(jìn)行新聞的采集和傳播。微博使廣大人民群眾參政議政有了更好的渠道和平臺(tái),這是好的一面。但同時(shí)我們也應(yīng)該看到其另一面,社會(huì)中的人素質(zhì)有高低,認(rèn)識(shí)社會(huì)、判斷社會(huì)的能力也有高低,不同階層的人、不同素質(zhì)修養(yǎng)的人,都會(huì)利用微博做事情,而做出來(lái)的事情就會(huì)有著不同的效果,這就使得微博容易滋生大量的輿情輿論信息,這些信息一旦引發(fā)了不合常理的群體行為,將導(dǎo)致社會(huì)正常生活受到嚴(yán)重不良影響。因此,如何在大量信息中查找、瀏覽有用的輿情資訊,進(jìn)行分析判斷、以有效的地控制和規(guī)范網(wǎng)絡(luò)信息的傳播是亟需研究解決的問(wèn)題。
目前智能挖掘的運(yùn)用和機(jī)器學(xué)習(xí)識(shí)別是網(wǎng)絡(luò)輿情系統(tǒng)的核心,用來(lái)挖掘分析網(wǎng)絡(luò)上的大量的時(shí)刻變化的網(wǎng)絡(luò)輿情信息。處理在人工技術(shù)手段下無(wú)法解決對(duì)大量、時(shí)刻變化網(wǎng)絡(luò)內(nèi)容的及時(shí)監(jiān)控和管理。常用關(guān)鍵技術(shù)如下:
第一是項(xiàng)智能的無(wú)需人為干預(yù)、自動(dòng)獲取互聯(lián)網(wǎng)信息的數(shù)據(jù)挖掘和信息搜索技術(shù)。以前的網(wǎng)絡(luò)爬蟲(chóng)從一個(gè)或若干初始網(wǎng)絡(luò)的URL開(kāi)始,獲得初始網(wǎng)絡(luò)上的URL,在爬取網(wǎng)絡(luò)的時(shí)候中,不停的從當(dāng)前網(wǎng)絡(luò)上抓取新的URL放入隊(duì)列,一直到滿足系統(tǒng)的部分停止條件為止。全部被其抓取的網(wǎng)絡(luò)將會(huì)自動(dòng)被系統(tǒng)保存,以判斷抓取的頁(yè)面是列表頁(yè)還是內(nèi)容頁(yè)。如果是列表頁(yè),則調(diào)用相應(yīng)的列表頁(yè)模板進(jìn)行分析研究,新的URL添加到未下載URL隊(duì)列中,等待下載;如果是內(nèi)容頁(yè),則把它寫(xiě)入文件。
第二是信息提取與檢索。對(duì)于網(wǎng)絡(luò)爬蟲(chóng)抓取的大量信息,用前期的檢索引擎并且把自然與然分析技術(shù)和數(shù)據(jù)攫取技術(shù)結(jié)合起來(lái)進(jìn)行對(duì)信息的提取。內(nèi)存中存取的數(shù)據(jù)是爬蟲(chóng)在爬取目錄下采集的,這些數(shù)據(jù)是爬蟲(chóng)定期搜索獲取的。保存頁(yè)面中的有價(jià)值的信息,并且把頁(yè)面中的征文和標(biāo)題部分驚醒區(qū)別的技術(shù)是,網(wǎng)頁(yè)站點(diǎn)智能抓取技術(shù)。調(diào)用有用的插件把內(nèi)容提取出來(lái)是分析線程的主要任務(wù),按照相應(yīng)的表達(dá)式所表達(dá)的意思,按照一定的周期把數(shù)據(jù)存入到文件中。
第三是自動(dòng)摘要的形成,也就是機(jī)器通過(guò)智能的方法把文檔自動(dòng)形成摘要的過(guò)程和技術(shù)方法。這種方法是提取信息的重要手段,同時(shí)在提取的過(guò)程中這種技術(shù)綜合了機(jī)器識(shí)別和挖掘數(shù)據(jù)技術(shù)。這種方法有基于理解和基于統(tǒng)計(jì)這兩種方式,基于理解的文摘是根據(jù)線索詞詞頻、詞典、句子和詞的統(tǒng)計(jì)方法進(jìn)行模式匹配提取摘要;而基于統(tǒng)計(jì)的方式則是利用語(yǔ)義句法、語(yǔ)義知識(shí)等知識(shí),在對(duì)文章的內(nèi)容進(jìn)行理解的基礎(chǔ)上提取摘要。
第四是主題追蹤與檢測(cè)。這種技術(shù)追蹤一些目標(biāo)主題的的各種信息以及與之有關(guān)的信息片段。
以上4中技術(shù)就可以滿足當(dāng)前的熱點(diǎn)事件的追蹤、專題特別報(bào)道、新事物的快速識(shí)別等。主題檢測(cè)是從各個(gè)信息集合的片段中檢測(cè)出新的主題,并且是實(shí)時(shí)在線的。
微博輿情系統(tǒng)是微博最為監(jiān)控的主題,與比較重要的主題論壇信息進(jìn)行對(duì)比分析,從而掌握網(wǎng)絡(luò)輿情的發(fā)展的新動(dòng)向。話題聚類、數(shù)據(jù)采集和微博輿情預(yù)測(cè)是微博淤青監(jiān)控的主要部分,第一數(shù)據(jù)采集的內(nèi)容主要是使用爬蟲(chóng)自動(dòng)收集頁(yè)面信息。爬蟲(chóng)模塊是網(wǎng)頁(yè)站點(diǎn)信息采集的重要工具,它的作用是非常重要的,也是網(wǎng)絡(luò)微博最初數(shù)據(jù)的獲取來(lái)源。為了給用戶制定相應(yīng)的爬行策略,爬蟲(chóng)模塊提供一定的抓取任務(wù)和爬蟲(chóng)的運(yùn)行方法,從而對(duì)網(wǎng)站頁(yè)面的信息抓取達(dá)到給用戶方便快捷的操作平臺(tái)。微博輿情系統(tǒng)采用的是聚焦式網(wǎng)絡(luò)爬蟲(chóng)。傳統(tǒng)網(wǎng)絡(luò)爬蟲(chóng)和聚焦網(wǎng)絡(luò)爬蟲(chóng)的區(qū)別在于,通過(guò)配置敏感信息規(guī)則和系統(tǒng)自學(xué)習(xí)功能,根據(jù)系統(tǒng)事先定義的與輿情相關(guān)的敏感關(guān)鍵詞集合,如何剔除無(wú)關(guān)的搜索信息過(guò)濾掉不符用戶定制的主題主題,是頁(yè)面算法的重要功能實(shí)現(xiàn),除了實(shí)現(xiàn)以上功能外,還要把有用的數(shù)據(jù)信息、有效地鏈接信息等用戶需要的數(shù)據(jù)采集到放到URL隊(duì)列中。微博爬蟲(chóng)的基本方法就是按照原定的抓取策略,確保與主題有關(guān)的信息多爬行、多下載,并分析計(jì)算下一個(gè)將要被獲取的連接于用戶定義主題的關(guān)系度,盡最大可能少的下載無(wú)用頁(yè)面。
與通用網(wǎng)絡(luò)爬蟲(chóng)相比,微博爬蟲(chóng)的研究目標(biāo)是以下三個(gè)方面:(1)如何描述或定義抓取網(wǎng)頁(yè)目標(biāo)。(2)怎樣排列待爬行URL的具體次序。微博爬蟲(chóng)根據(jù)已經(jīng)下載頁(yè)面的相關(guān)聯(lián)程度度,怎樣將頁(yè)面放到優(yōu)先級(jí)隊(duì)列中是根據(jù)該頁(yè)面的子頁(yè)面與用戶定義的相關(guān)度來(lái)決定的。有了用戶定義的相關(guān)度,微博爬蟲(chóng)的爬行策略就不再是簡(jiǎn)單的深度或者廣度優(yōu)先了,而是根據(jù)相關(guān)度的大小,最先訪問(wèn)相關(guān)度大的網(wǎng)頁(yè)連接。(3)怎樣判斷一個(gè)網(wǎng)頁(yè)是否和策略有關(guān)系。挖取數(shù)據(jù)技術(shù)可以實(shí)現(xiàn)應(yīng)經(jīng)在隊(duì)列等爬行的連接和已經(jīng)獲取的網(wǎng)頁(yè)并且可以獲取具體的信息內(nèi)容。因此,主體不同的爬蟲(chóng)之間的主要區(qū)別二就是目前爬行頁(yè)面的主題相關(guān)度。
微博爬蟲(chóng)抓取策略是聚焦式定向抓取,根據(jù)需要對(duì)相應(yīng)的網(wǎng)頁(yè)或者論壇的信息進(jìn)行獲取,所以域名或者網(wǎng)站的條件需要過(guò)濾,并且條件還需要特定的設(shè)置。如baidu.com就可以設(shè)置成過(guò)濾條件,那么爬蟲(chóng)收集網(wǎng)頁(yè)信息的時(shí)候就只會(huì)收集百度的網(wǎng)頁(yè)信息。對(duì)網(wǎng)站過(guò)濾、關(guān)鍵詞過(guò)濾、搜索工具過(guò)濾和最初連接的個(gè)數(shù)過(guò)濾等是聚焦式爬蟲(chóng)的工作方式。用戶指定的網(wǎng)頁(yè)在全網(wǎng)的連接站點(diǎn)進(jìn)行抓取。但是聚焦式爬蟲(chóng)的回應(yīng)是在前期完善的搜索平臺(tái)上進(jìn)行操作,如在百度或者谷歌上面來(lái)獲取一些鏈接并和本主題關(guān)系度較大。在爬行的時(shí)候首先從常用的搜索引擎中獲得一些網(wǎng)站鏈接,然后從中開(kāi)始抓取,抓取的時(shí)候也是相關(guān)度越來(lái)越高,直到和用戶定義的條件滿足為止,到達(dá)最深的爬行度的時(shí)候才結(jié)束本次爬行過(guò)程。為了提高爬行的精度,微博爬蟲(chóng)采用先對(duì)與用戶定義相關(guān)的頁(yè)面進(jìn)行連接,而不像普通爬蟲(chóng)那樣對(duì)所有的頁(yè)面的進(jìn)行爬行,對(duì)用戶的相關(guān)度進(jìn)行分析后再處理,這樣爬行的精度就很自然的提高了,同時(shí)爬行的結(jié)果也與用戶與期待的結(jié)果相關(guān)的也大,達(dá)到了雙優(yōu)的結(jié)果,即使有少數(shù)遺漏了,也能讓大部分的用戶滿意。從以上可以看出如何分析用戶提出定義的主題的相關(guān)度是本微博爬蟲(chóng)的關(guān)鍵技術(shù),對(duì)用戶提出的關(guān)鍵詞進(jìn)行分析是實(shí)現(xiàn)的最簡(jiǎn)單的方法,再深一步的話就可以對(duì)主題所提到的概念和語(yǔ)義的分析,達(dá)到這一層次是比較精深的。
怎么對(duì)用戶定義的關(guān)鍵詞的主題相關(guān)度分析呢,大概的主要思路下面具體闡述:第一要確定用戶提出的關(guān)鍵詞,這個(gè)關(guān)鍵詞要有一定的權(quán)重還要能夠代表受限制的領(lǐng)域。第二利用空間向量的模型算法,來(lái)算出頁(yè)面的相關(guān)程度,從而確定主題的相關(guān)度的取舍與用戶定義主題相關(guān)度大的網(wǎng)絡(luò)頁(yè)面。普通爬蟲(chóng)是概念和主題爬蟲(chóng)的基礎(chǔ),兩者都是在普通爬蟲(chóng)功能上進(jìn)行擴(kuò)充,在整個(gè)基于概念和基于關(guān)鍵詞的主題爬蟲(chóng)系統(tǒng)全是以普通爬蟲(chóng)作為基礎(chǔ),而在這基礎(chǔ)上進(jìn)行功能上的擴(kuò)充,主題分析相關(guān)度,優(yōu)化中子模塊,主題確立模塊,排序模塊就是頁(yè)面處理的整個(gè)過(guò)程。兩種方法的主要不同之處在于的怎么表示。其系統(tǒng)工作具體流程如下:第一爬行模塊搜索網(wǎng)絡(luò)頁(yè)面;第二爬行模塊對(duì)所爬取的網(wǎng)頁(yè)進(jìn)行分析,調(diào)用相關(guān)的算法模塊;第三根據(jù)檢測(cè)的結(jié)果對(duì)不同的結(jié)果進(jìn)行分析研究;第四對(duì)正在數(shù)據(jù)庫(kù)里等待處理的網(wǎng)絡(luò)連接進(jìn)行調(diào)用返回到第一步,一直到?jīng)]有新的網(wǎng)絡(luò)連接;第五爬取的響應(yīng)網(wǎng)頁(yè)結(jié)果進(jìn)行排序。做為輿情監(jiān)控控系統(tǒng)的重要組成部分,微博爬蟲(chóng)和通用的網(wǎng)絡(luò)爬蟲(chóng)類似,也需要遵守普通爬蟲(chóng)的基本原則,如穩(wěn)定性、活動(dòng)性、爬行時(shí)要遵守Robots協(xié)議等。
由于微博輿情監(jiān)控系統(tǒng)的特殊需要,微博爬蟲(chóng)部分的設(shè)計(jì)和通用網(wǎng)絡(luò)爬蟲(chóng)相比有很大區(qū)別。對(duì)整個(gè)網(wǎng)絡(luò)內(nèi)容信息進(jìn)行抓取時(shí)通用爬蟲(chóng)的的工作策略,深度和廣度策略都要用到。每一次完成抓取內(nèi)容,爬蟲(chóng)都需要廣泛的撒網(wǎng),范圍很大,同時(shí)也需要相對(duì)較長(zhǎng)的時(shí)間和資源。聚焦抓取和定向抓取是爬蟲(chóng)常用的策略,但是在具體的實(shí)施過(guò)程中要選擇既效率高又節(jié)省資源的方法對(duì)各種和主題相關(guān)的網(wǎng)頁(yè)進(jìn)行收集獲取,這也是輿情監(jiān)控系統(tǒng)重要功能體現(xiàn)。聚焦爬蟲(chóng)為了避免資源浪費(fèi),采取了只對(duì)與用戶定制主題相關(guān)的資源進(jìn)行獲取,實(shí)現(xiàn)的方法是通過(guò)計(jì)算向量空間模型實(shí)現(xiàn)的,在最短的時(shí)間內(nèi)完成信息的獲取,并且工作范圍還比較小,這就是定向抓取的方式。通過(guò)網(wǎng)頁(yè)的連接信息能夠查詢到所屬的歸屬地,也可以判斷出這個(gè)網(wǎng)頁(yè)是否和具體的某個(gè)微博關(guān)系度比較大。用戶只關(guān)心與自己定義主題有關(guān)的信息,所以僅連接本微博相關(guān)度大的連接。用關(guān)鍵詞的范圍比較和語(yǔ)義擴(kuò)展來(lái)實(shí)現(xiàn)微博爬蟲(chóng)的靈活性。為了不丟棄和用戶定義的主題的信息,可以通過(guò)提高判斷關(guān)鍵詞和識(shí)別的比較的方法。為了減輕微博爬蟲(chóng)爬行負(fù)擔(dān),爬蟲(chóng)一般會(huì)設(shè)法減少爬取網(wǎng)頁(yè)的相關(guān)數(shù)目。用戶可以通過(guò)設(shè)置一定的爬行策略來(lái)滿足抓取時(shí)的特殊需要,如設(shè)置限定的爬蟲(chóng)的爬取范圍或者利用關(guān)鍵詞實(shí)現(xiàn)高速獲取信息等,省掉了抓取無(wú)關(guān)網(wǎng)頁(yè)的大量時(shí)間。
第一,快速抓取網(wǎng)絡(luò)時(shí)刻更新的大量?jī)?nèi)容,網(wǎng)絡(luò)頁(yè)面的更新也需要爬蟲(chóng)定時(shí)的回訪原來(lái)爬行過(guò)的頁(yè)面站點(diǎn),從而確保最新的焦點(diǎn)話題能夠能夠在整個(gè)輿情監(jiān)控系統(tǒng)中快速獲取。微博爬蟲(chóng)的工作效率和多次抓取有著重要的關(guān)系,尤其是多次爬去的效率和范圍。增量式抓取和周期性抓取策略是網(wǎng)站頁(yè)面抓取的重要手段,為了保證網(wǎng)頁(yè)信息的時(shí)效性采取對(duì)多個(gè)網(wǎng)頁(yè)定期性的爬取,同時(shí)根據(jù)爬去的周期性采取不同的爬行策略,對(duì)于和主題相關(guān)度比較大的網(wǎng)頁(yè)重點(diǎn)抓取。
第二,在微博爬取過(guò)程中在一定時(shí)間內(nèi)是爬行模塊是比較固定的,它的目錄機(jī)構(gòu)要遵循一定的命名規(guī)則,所以很明顯的區(qū)別與其他的模塊。例如新浪微博等微博中不相同模塊就可以通過(guò)域名來(lái)區(qū)別出來(lái),也就可以利用這樣來(lái)給爬取的文檔分類保存,不同的微博模塊可以采用不同的爬取策略,例如對(duì)變化比較快,比較大的模塊可以設(shè)置多次的爬行策略,而對(duì)于變化速度比較慢的模塊可以減少爬行次數(shù),從而提高了爬行的效率。當(dāng)然要實(shí)現(xiàn)以上的策略,需要有智能的識(shí)別系統(tǒng)來(lái)識(shí)別微薄的更新速度和時(shí)間,也對(duì)不同的網(wǎng)絡(luò)連接是指不同的抓取策略。
[1]PJianpingZeng,PShiyong Zhang,Chengrong Wu,PJianfengXiePredictive Modelfor Internet Public Opinion.Proceedings of the Fourth International Conference onFuzzy Systems and Knowledge Discovery(FSKD 2007).2007,Vol.3:7-11。
[2]姜?jiǎng)俸?網(wǎng)絡(luò)輿情熱點(diǎn)的形成與發(fā)展、現(xiàn)狀及輿論引導(dǎo)[J].理論月刊,2008,(4)
[3]張旭,張振江,劉云.BBS輿情系統(tǒng)爬蟲(chóng)模塊的研究[J].鐵路計(jì)算機(jī)應(yīng)用2010(12)18-21
[4]劉金紅,陸余良.主題網(wǎng)絡(luò)爬蟲(chóng)研究綜述[J].計(jì)算機(jī)應(yīng)用研究.2007(10)26-29.
[5]A.Rungsawang,N.Angkawattanawit.Learnable topic—sp'ecificweb crawler[J].Journal ofNetwork and Computer Applica—tions.2005(28):97—11
[6]邁克塞沃爾.鏈接分析:信息科學(xué)的研究方法[M].孫建軍,李江,張煦,等.南京:東南大學(xué)出版社,2009:15.