潘怡++謝珍++劉志龍
摘 要:大學生作為網(wǎng)絡媒體的主要參與者,在網(wǎng)絡輿情的產(chǎn)生中扮演著重要的角色,為了能及時掌握學生的思想動態(tài),積極引導校園輿情,打造和諧健康的校園網(wǎng)絡社區(qū)輿情環(huán)境,創(chuàng)建文明校園,高校建立完善的輿情監(jiān)控系統(tǒng)是十分必要的。本文基于QS單模式匹配算法和SunWu算法,運用關鍵字匹配技術,通過對校內各門戶網(wǎng)站內容的檢測實驗,我們能夠發(fā)現(xiàn)輿情敏感詞并進行預警,從而實現(xiàn)對各門戶網(wǎng)站的實時監(jiān)控,為校園網(wǎng)絡輿情監(jiān)控系統(tǒng)的開發(fā)提供了合理依據(jù)。
關鍵詞:網(wǎng)絡輿情;QS單模式匹配算法;SunWu算法;敏感詞
中圖分類號:G642 文獻標識碼:B 文章編號:1002-7661(2015)06-003-01
一、引言
隨著互聯(lián)網(wǎng)的興起,信息的迅速傳播,人們的生活方式、人際交往以及思維方式也隨之改變。在高校,校園網(wǎng)絡作為學生日常學習生活的重要平臺,重要性毋庸置疑。學校主頁、校內各學院、各部門主頁,學校BBS,甚至各個學院BBS,班級網(wǎng)站都是高校學生經(jīng)常訪問的平臺。類似于這種公共廣場,是大學生自由發(fā)表評論、表達意見的網(wǎng)絡空間,校園內外的一些重大事件和突發(fā)事件通常會以最新最快的速度在這種媒介場所內出現(xiàn),引發(fā)大學生的廣泛關注,形成大量的討論。隨著意見的擴散和討論的深入,討論的主題往往會逐漸趨向特定的焦點,形成具有一定規(guī)模的較為明確的網(wǎng)絡輿情。而出于學生思想的積極引導以及校園安全工作的管理,對校園輿情進行有效的監(jiān)控,是各高校所能采取的合適手段之關鍵。
關鍵字匹配算法主要是串匹配。串匹配是利用一個符號序列查找出一個或多個特定符號序列的過程。利用串匹配能在正文文本中尋找所有關鍵字集合中的關鍵字,并報告關鍵字出現(xiàn)的位置。依據(jù)在匹配過程中所要匹配的模式串個數(shù),串匹配算法可分為單模式串和多模式串。串匹配技術的發(fā)展是與其應用密切相關的。隨著計算機信息技術的發(fā)展,其應用領域除了早期的文本編輯、全文檢索系統(tǒng)、查詢系統(tǒng)等,現(xiàn)今已廣泛應用到了網(wǎng)絡入侵檢測系統(tǒng)(NetworkIntrusion Detection System)、內容過濾、生物科學計算以及新聞主題提取等。利用串匹配技術,我和團隊自主開發(fā)了校園網(wǎng)絡輿情監(jiān)控系統(tǒng),并通過模擬數(shù)據(jù),驗證了串匹配技術在輿情監(jiān)控系統(tǒng)中應用的正確性。
二、算法介紹
QS(Quick Search)算法是利用不良字符跳轉表和文本串中未出現(xiàn)在模式串里的字符來匹配緊鄰當前匹配窗口的下一個字符,能有效的加快匹配速度。在實際應用中,QS適用于大字符集、模式串較短時的情況。QS算法的空間復雜度為O(σ),其預處理階段的時間復雜度為O(m+σ),最好情況下QS算法的時間復雜度可以達到O(n/(m+1))。
SunWu算法是基于單模式的BM算法設計出的一種多模式匹配算法。與其它算法不同,SunWu算法使用“塊字符”(Block Character)作為基本單位,將其作為進一步匹配的入口和進行跳轉的依據(jù)。SunWu算法使用長度為B的字符串代替壞字符串,進行最大限度的跳躍,并且使用散列技術和前綴表來減少需要進行實際匹配的次數(shù)。此外,SunWu算法不受大小字符集環(huán)境的影響,在中文情況下能夠表現(xiàn)出比較好的性能,符合中文字
三、結果分析與展示
QS算法和SunWu算法是典型的關鍵字匹配技術的算法,二者有各自的優(yōu)點,但也存在著明顯的不足。因此,在自主開發(fā)的輿情監(jiān)控系統(tǒng)中,我們將二者相結合運用,通過測試數(shù)據(jù)分析可知,QS算法和SunWu算法結合使用能大大提高系統(tǒng)的性能和效率。如圖3.1所示,在其他條件相同的情況下,模式串的最小長度m=2,模式串數(shù)量由500增加到5000時,各算法掃描時間的變化。從表中可以看出,隨著模式串數(shù)量的增加,各算法的運行時間都有相應增大,QS的運行時間一直低于SunWu算法。當模式串數(shù)量小于3000時,QS的運行時間少于SunWu的運行時間。當模式串數(shù)量大于3000時,QS的運行時間多于SunWu的運行時間。而二者的結合使用所需的運行時間則處于中間水平。加之,表3.2所示,模式串數(shù)量為100,模式串最短長度從2到8時,各種算法在reuters21578語料上消耗的時間。由表可看出,二者結合使用所花的掃描時間始終明顯低于其它兩種算法。當m=2時,二者結合使用所花的掃描時間低于SunWu算法的1/6,m=8時,二者結合使用所花的掃描時間低于SunWu算法的1/2。隨著m的增大,二者結合使用的算法所花的掃描時間呈減少趨勢,且差距亦呈減少趨勢。
四、總結
本文將單模式串匹配的QS算法和SunWu算法結合使用,取長補短,并將其運用到自主開發(fā)的校園網(wǎng)絡輿情監(jiān)控系統(tǒng)中,通過對模擬數(shù)據(jù)的分析,也驗證了QS算法和SunWu算法結合能極大的提高系統(tǒng)性能。這為校園輿情監(jiān)控系統(tǒng)提供了技術支持,也為校園安全工作管理奠定了基礎。