趙曉楠,馬晨辰
(中國(guó)人民解放軍68303部隊(duì) 甘肅 武威733004)
基于Single-Pass的軍事網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)設(shè)計(jì)
趙曉楠,馬晨辰
(中國(guó)人民解放軍68303部隊(duì) 甘肅 武威733004)
軍事網(wǎng)絡(luò)輿論導(dǎo)向是人們獲取軍事信息的主要來源,這些輿論信息將直接影響人們的判斷,甚至危害社會(huì)安全。本文基于軍事主題特點(diǎn),對(duì)比常見的文本聚類算法,改進(jìn)傳統(tǒng)的Single-Pass算法,設(shè)計(jì)適合軍事主題的網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng),準(zhǔn)確率和召回率都高于Single-Pass算法5個(gè)百分點(diǎn)以上,達(dá)到較好的效果,從而為相關(guān)部門制定決策提供可靠依據(jù)。
Single-Pass;軍事;文本聚類;網(wǎng)絡(luò)輿情監(jiān)控
隨著互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展,網(wǎng)絡(luò)上的信息越來越豐富,由于網(wǎng)絡(luò)的虛擬性和隱蔽性,人們更喜歡通過互聯(lián)網(wǎng)進(jìn)行交流和發(fā)表各種意見。軍事作為特定的主題,更吸引著較多的軍事愛好者,他們通過網(wǎng)絡(luò)發(fā)表各類留言和評(píng)論,一些負(fù)面消極和不良輿論,嚴(yán)重地危害了社會(huì)穩(wěn)定。由于網(wǎng)絡(luò)情報(bào)資料的開放性、及時(shí)性以及便捷性等特點(diǎn),作為一種新的公開情報(bào)資料,越來越受到情報(bào)工作者的重視[1-3]。甚至有一些情報(bào)工作者將網(wǎng)絡(luò)輿情作為公開情報(bào)資料搜集的第一來源。
如何快速獲取國(guó)內(nèi)外互聯(lián)網(wǎng)媒體中關(guān)于軍事事件的評(píng)論和觀點(diǎn)給相關(guān)部門帶來了極大困難。主題爬蟲技術(shù)和情感分析技術(shù)的結(jié)合使我們對(duì)特定領(lǐng)域的網(wǎng)絡(luò)輿情分析成為可能。通過對(duì)特定領(lǐng)域網(wǎng)絡(luò)輿情的分析,可以給相關(guān)決策部門提供決策支持,有效防止危害社會(huì)穩(wěn)定的謠言傳播。
軍事網(wǎng)絡(luò)輿情的特點(diǎn)包括突發(fā)性強(qiáng)、多元性強(qiáng)、控制難度大等特點(diǎn)。針對(duì)軍事網(wǎng)絡(luò)網(wǎng)絡(luò)輿情特點(diǎn),本文設(shè)計(jì)利用網(wǎng)絡(luò)爬蟲技術(shù)、中文分詞技術(shù)、信息分析和處理技術(shù)、文本聚類和挖掘技術(shù)等的軍事網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng),實(shí)現(xiàn)對(duì)互聯(lián)網(wǎng)相關(guān)輿情信息的自動(dòng)采集,并對(duì)海量數(shù)據(jù)進(jìn)行分析和監(jiān)控,挖掘動(dòng)態(tài)輿情信息,把握處理突發(fā)事件的最佳時(shí)機(jī)。軍事網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)主要包括信息采集、輿情分析和輿情服務(wù)模塊,系統(tǒng)體系結(jié)構(gòu)如圖1所示。信息采集主要是利用網(wǎng)絡(luò)爬蟲實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)輿情信息的采集,并將網(wǎng)頁(yè)信息經(jīng)過去重和去噪,生成干凈的文本信息,通過中文分析算法提取特征值,建立文本向量空間模型(VSM,Vector Space Model);輿情分析模塊是系統(tǒng)的核心部分,利用文本聚類發(fā)現(xiàn)熱點(diǎn)話題,并對(duì)話題進(jìn)行情感傾向性分析,使人民掌握輿情趨勢(shì);輿情服務(wù)是向相關(guān)人員提供輿情報(bào)告,通過掌握?qǐng)?bào)告實(shí)現(xiàn)對(duì)突發(fā)事件的處理,并利用個(gè)性化定制,提供方便的輿情信息,給決策者制定決策提供可靠依據(jù)[4]。
圖1 系統(tǒng)體系結(jié)構(gòu)
輿情信息收集是利用網(wǎng)絡(luò)爬蟲從網(wǎng)頁(yè)中提取非結(jié)構(gòu)化信息,并存入結(jié)構(gòu)化數(shù)據(jù)庫(kù)中。依據(jù)相應(yīng)爬行規(guī)則,網(wǎng)絡(luò)爬蟲通過網(wǎng)頁(yè)鏈接地址尋找網(wǎng)頁(yè),從網(wǎng)站的某個(gè)頁(yè)面開始,讀取內(nèi)容,分析頁(yè)面中的其它鏈接地址,然后通過這些新的鏈接地址繼續(xù)查找下一個(gè)網(wǎng)頁(yè)[5],如此循環(huán),直到爬取所有頁(yè)面或達(dá)到系統(tǒng)預(yù)先設(shè)置的停止條件。最后將與主題相關(guān)的信息經(jīng)處理后保存到系統(tǒng)數(shù)據(jù)庫(kù)中。
爬蟲爬取網(wǎng)頁(yè)后,要對(duì)網(wǎng)頁(yè)信息進(jìn)行處理,主要包括網(wǎng)頁(yè)去“噪”、網(wǎng)頁(yè)去重、中文分詞及特征詞提取。通常網(wǎng)頁(yè)中包含大量的“噪聲”,主要是一些無用的廣告等,這些內(nèi)容對(duì)系統(tǒng)沒有作用,但卻影響系統(tǒng)運(yùn)行速度,并占據(jù)大量存儲(chǔ)空間,所以首先要對(duì)爬蟲爬取的網(wǎng)頁(yè)信息進(jìn)行去“噪”,保留網(wǎng)頁(yè)鏈接、正文和標(biāo)題。在本系統(tǒng)中,我們采用文檔對(duì)象模型(DOM,Document Object Model)來獲取網(wǎng)頁(yè)的正文和標(biāo)題信息,首先構(gòu)建DOM樹,然后從DOM樹上刪除節(jié)點(diǎn)的過濾器,獲得相應(yīng)文本信息[6-8]。在網(wǎng)頁(yè)中,通常存在大量重復(fù)的鏈接,為避免網(wǎng)頁(yè)冗余,提高系統(tǒng)效率,還需去除重復(fù)的網(wǎng)頁(yè)。通過分析頁(yè)面提出網(wǎng)頁(yè)特征碼,根據(jù)特征碼區(qū)分相同或相似網(wǎng)頁(yè)。利用網(wǎng)頁(yè)特征碼索引網(wǎng)頁(yè),建立檢索系統(tǒng),并將特征碼存入檢索系統(tǒng)中。當(dāng)爬取出新的網(wǎng)頁(yè)后,根據(jù)文檔特征碼進(jìn)行判斷,相似度大于系統(tǒng)設(shè)定的閾值則認(rèn)為是重復(fù)網(wǎng)頁(yè),系統(tǒng)自動(dòng)刪除。
經(jīng)上述網(wǎng)頁(yè)處理后,將得到結(jié)構(gòu)化的網(wǎng)頁(yè)信息,然后進(jìn)行分詞處理。文中利用中科院自行研制的ICTCLAS(Institute of Computing Technology,Chinese Lexical Analysis System)進(jìn)行分詞,去除停用詞后建立VSM。
話題發(fā)現(xiàn)和聚類是輿情監(jiān)控系統(tǒng)的基礎(chǔ),就是把描述同一話題和事件的網(wǎng)頁(yè)按一定序列聚合在一起,減少冗余和重復(fù)信息,給用戶提供方便[9-10]。話題發(fā)現(xiàn)流程如圖2所示。
圖2 話題自動(dòng)發(fā)現(xiàn)流程
話題發(fā)現(xiàn)和聚類算法受信息本身被關(guān)注程度的影響,關(guān)注程度高,聚類效果就好,對(duì)話題的評(píng)估能力也強(qiáng),從而更好的為網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)提供可靠依據(jù)。常見的話題發(fā)現(xiàn)和聚類算法主要包括Single-Pass算法,基于文本劃分、層次、密度和網(wǎng)格的聚類算法。對(duì)上述五類算法進(jìn)行比較,可得出以下結(jié)論,如表1所示。
表1 常見聚類算法的指標(biāo)表現(xiàn)
由表1可知,在預(yù)知主題的情況下,Single-Pass算法更適合用于輿情話題發(fā)現(xiàn)和聚類,在實(shí)際應(yīng)用中,此算法也是使用最廣泛的算法之一,其各項(xiàng)性能指標(biāo)及聚類結(jié)果都得到開發(fā)者的認(rèn)可。但由于其精度一般,并受文本輸入順序的影響較大,也制約著其聚類效果的提升。
文中對(duì)Single-Pass算法進(jìn)行改進(jìn),以彌補(bǔ)其算法精度上的不足。首先是改進(jìn)特征詞的選擇,在對(duì)網(wǎng)頁(yè)進(jìn)行向量化時(shí),只選擇具有實(shí)際意義的名詞和動(dòng)詞表示向量,而不是對(duì)所有詞語都向量化;并加入網(wǎng)頁(yè)的標(biāo)題表示向量,用網(wǎng)頁(yè)標(biāo)題和正文的雙向兩表示法;在文本初步聚類時(shí),每次處理一批文檔,而不是簡(jiǎn)單的單個(gè)處理,這樣就可以有效避免Single-Pass對(duì)文本輸入順序的依賴性,完成初步聚類后,再進(jìn)行偏離點(diǎn)的調(diào)整,直至滿足系統(tǒng)設(shè)置停止條件。
1)特征詞選擇
改進(jìn)后的Single-Pass算法把網(wǎng)頁(yè)中去掉停用詞后的名詞、動(dòng)詞作為特征詞,然后統(tǒng)計(jì)出這些詞的出現(xiàn)次數(shù)以及反文檔頻率。利用公式(1)計(jì)算得出特征詞權(quán)重,根據(jù)權(quán)重組合計(jì)算出文本相似度。
其中,Wi指第 i個(gè)特征詞的權(quán)重,TFi(t,d)指特征詞t出現(xiàn)在文檔d中的次數(shù),N是網(wǎng)頁(yè)的文檔總數(shù),DF(t)指網(wǎng)頁(yè)中含有特征詞t的網(wǎng)頁(yè)總數(shù)。在實(shí)際中,由于文本的復(fù)雜性,會(huì)使得文本向量中有較多的0項(xiàng)值,給計(jì)算帶來較大開銷,并使得文本相似度區(qū)分不明顯,本文對(duì)Single-Pass算法進(jìn)行改進(jìn),文本輸入后,首先對(duì)其內(nèi)容進(jìn)行分詞,根據(jù)辭典辨識(shí),將經(jīng)過分詞后的每個(gè)詞語進(jìn)行詞性標(biāo)注;選取特征詞時(shí),只選擇文本中的動(dòng)詞和名詞(此步驟只需經(jīng)過一個(gè)詞性判斷就能實(shí)現(xiàn));然后統(tǒng)計(jì)動(dòng)詞和名詞的詞頻,從而減少特征詞數(shù)量,降低運(yùn)算量,減少開銷,同時(shí)也保存了文本內(nèi)容的關(guān)鍵信息,避免了矩陣稀疏現(xiàn)象,也提高算法準(zhǔn)確性。然后根據(jù)Single-Pass算法的步驟,統(tǒng)計(jì)特征詞頻率及反文檔頻率,利用TFIDF公式得到特征詞權(quán)重,然后計(jì)算相似度。本文采用空間夾角余弦公式實(shí)現(xiàn)對(duì)文本相似度的計(jì)算,如公式(2)。公式得到的數(shù)值都介于0~1之間,數(shù)值越接近1,就說明兩個(gè)文本相似度越高,它們被歸為同一話題的可能性就越大;反之,兩個(gè)文本越不相似,屬于同一話題的幾率就小。
2)雙向量表示
Single-Pass算法在選擇特征向量時(shí)只選擇文本正文,忽略了文本的標(biāo)題。而文本標(biāo)題卻涵蓋了文本的主要內(nèi)容,網(wǎng)絡(luò)新聞和各類帖子更是如此,新聞和帖子的標(biāo)題往往蘊(yùn)含事件的主要內(nèi)容。如果能較好的運(yùn)用標(biāo)題的這一屬性,從標(biāo)題中得出事件的關(guān)鍵元素,并強(qiáng)調(diào)標(biāo)題的作用,將能較好的促進(jìn)文本聚類效果,從而改進(jìn)常見文本聚類算法的不足。因此在本文中,我們選擇標(biāo)題和正文雙向量表示法。在計(jì)算文本相似度時(shí),標(biāo)題和正文都參與運(yùn)算。首先我們計(jì)算得出標(biāo)題和主題的相似度,以及正文和主題的相似度;然后對(duì)標(biāo)題和正文的相似度進(jìn)行加權(quán)求和,并對(duì)標(biāo)題中的關(guān)鍵詞賦予較高的權(quán)重。本文中,通過反復(fù)試驗(yàn),賦予標(biāo)題特征詞權(quán)重0.75,正文特征詞權(quán)重0.25時(shí),聚類效果較好。此方法加入了標(biāo)題特征詞,無疑會(huì)增加運(yùn)算,但由于標(biāo)題的文字?jǐn)?shù)量遠(yuǎn)低于正文,所以對(duì)計(jì)算無較大影響,卻對(duì)話題發(fā)現(xiàn)和聚類精度有了較大改善。
3)偏離點(diǎn)調(diào)整
Single-Pass算法在處理文本時(shí),根據(jù)文本輸入的順序,一個(gè)一個(gè)處理文本,在第一次讀取時(shí)就確定文本所屬的類簇,之后輸入的文本根據(jù)與前面文本的相似度劃分類簇,這就導(dǎo)致文本的輸入順序會(huì)很大程度上影響聚類結(jié)果。所以說,一個(gè)好的文本輸入順序會(huì)使文本有較好的聚類效果。但根據(jù)實(shí)際應(yīng)用,文本的內(nèi)容確定后,其聚類結(jié)果就應(yīng)當(dāng)確定,不應(yīng)該受到輸入順序的影響。為了克服此類問題,本文在進(jìn)行文本聚類時(shí),一批一批的來處理,而不是單個(gè)的進(jìn)行處理。由于每次加入新的文本后,會(huì)引起類歸屬的變化,在本改進(jìn)算法中,允許類進(jìn)行重選擇,稱為偏離點(diǎn)的調(diào)整。即當(dāng)有新的文本加入話題后,此類內(nèi)的所有話題重新計(jì)算相似度,看是否處于最相似的類中,若是,則不變動(dòng);若不是,就調(diào)整類簇,將此文本放入經(jīng)處理后最接近的類簇中。這些調(diào)整會(huì)引起連鎖的反應(yīng),導(dǎo)致系統(tǒng)無法終止。因此,在本文中為了防止這種現(xiàn)象的發(fā)生,本文設(shè)定當(dāng)有90%或者以上的文本處于最接近的類簇中時(shí),將不再進(jìn)行調(diào)整。根據(jù)大量的實(shí)驗(yàn)驗(yàn)證,此終止條件達(dá)到預(yù)期效果,令人滿意。
輿情服務(wù)是系統(tǒng)的輸出層,給用戶提供相關(guān)信息,包括輿情報(bào)告、郵件、用戶個(gè)性化定制和輿情信息發(fā)布等[11-13]。從而為用戶提供清晰、精確、快捷方便的網(wǎng)頁(yè)輿情信息服務(wù)功能,滿足用戶對(duì)信息的各種不同需求。
實(shí)驗(yàn)采用Single-Pass算法和改進(jìn)的Single-Pass算法進(jìn)行比較測(cè)試。實(shí)驗(yàn)環(huán)境采用為Windows XP系統(tǒng),1G以上內(nèi)存機(jī)器,用VC 2010進(jìn)行編譯。數(shù)據(jù)用以下6個(gè)關(guān)鍵字:教育、娛樂、汽車、經(jīng)濟(jì)、軍事、體育。通過百度進(jìn)行搜索,采用每個(gè)主題的前100條文檔,總共600條文檔進(jìn)行聚類分析,故K=6。由于這兩類算法對(duì)初始聚類中心的依賴性都比較高(即初始聚類中心的選擇能較大程度地影響聚類結(jié)果),所以我們采用多次隨機(jī)選取聚類中心,多次重復(fù)運(yùn)行,然后取平均值作為聚類算法性能的結(jié)果。實(shí)驗(yàn)結(jié)果如表2和表3。
表2 Single-Pass算法結(jié)果
表3 改進(jìn)的Single-Pass算法結(jié)果
比較上述兩表發(fā)現(xiàn),在準(zhǔn)確率方面,改進(jìn)的Single-Pass只有經(jīng)濟(jì)一項(xiàng)比原Single-Pass略低一點(diǎn);在召回率方面,改進(jìn)的Single-Pass只有汽車一項(xiàng)比原Single-Pass略低一點(diǎn)。除此之外,其它項(xiàng)無論在準(zhǔn)確率還是召回率,改進(jìn)的Single-Pass都比原Single-Pass效果要好。改進(jìn)的Single-Pass算法的兩項(xiàng)數(shù)據(jù)均高于Single-Pass算法5個(gè)百分點(diǎn)以上。且改進(jìn)的Single-Pass聚類算法比Single-Pass聚類算法在處理異常數(shù)據(jù)和噪聲數(shù)據(jù)方面更好。
網(wǎng)絡(luò)輿情預(yù)警的作用在于,盡早發(fā)現(xiàn)可能的危機(jī)苗頭,盡早判斷可能產(chǎn)生的危機(jī)走向和規(guī)模,盡早讓有關(guān)職能部門做好應(yīng)對(duì)準(zhǔn)備[14-15]。本系統(tǒng)預(yù)警能力較高,能夠及時(shí)從海量的互聯(lián)網(wǎng)信息中發(fā)現(xiàn)潛在的危機(jī)苗頭,并能準(zhǔn)確預(yù)計(jì)輿情發(fā)生的時(shí)間差,從而為相關(guān)職能部門提供足夠的時(shí)間來做準(zhǔn)備,為網(wǎng)絡(luò)輿情應(yīng)對(duì)贏得寶貴時(shí)間,并將有效推進(jìn)軍隊(duì)信息化建設(shè)進(jìn)程。
[1]Agrawal D,BudakC,El Abbadi A,et al.Big Data in Online Social Networks:User Interaction Analysis to ModelUser Behavior in Social Networks[M].Databases in Networked Information Systems.Springer International Publishing,2014.
[2]張玉珠.基于內(nèi)容相似性的論壇用戶社會(huì)網(wǎng)絡(luò)挖掘[J].通信技術(shù),2013,46(253):57-59.
[3]張玉峰,王志芳.基于內(nèi)容相似性的論壇用戶社會(huì)網(wǎng)絡(luò)挖掘[J].情報(bào)雜志,2010,29(8):125-130.
[4]何佳,周長(zhǎng)勝,石顯鋒.網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)的實(shí)現(xiàn)方法[J].鄭州大學(xué)學(xué)報(bào):理學(xué)版,2010,42(1):82-85.
[5]張長(zhǎng)利.面向特定領(lǐng)域的互聯(lián)網(wǎng)輿情分析技術(shù)研究[D].吉林:吉林大學(xué),2011.
[6]Feng Cao,Zhenji Zhang.A model of ecological monitoring and response system for internet[J].International Journal of Multimedia and Ubiquitous Engineering,2014,9(5):373-390.
[7]劉恒文.基于網(wǎng)絡(luò)語義挖掘的輿情監(jiān)測(cè)預(yù)警研究[D].武漢:武漢理工大學(xué),2010.
[8]Jennifer Bachner,Kathy W.Hill.Advances in Public Opinion and Policy Attitudes Research[J].The Policy Studies Journal,2014,42(1):51-70.
[9]Feng Cao,Zhenji Zhang.A model of ecological monitoring and response system for internet[J].International Journal of Multimedia and Ubiquitous Engineering,2014,9(5):373-39.
[10]劉恒文.基于網(wǎng)絡(luò)語義挖掘的輿情監(jiān)測(cè)預(yù)警研究[D].武漢:武漢理工大學(xué),2010.
[11]殷風(fēng)景.面向網(wǎng)絡(luò)輿情監(jiān)控的熱點(diǎn)話題發(fā)現(xiàn)技術(shù)研究[D].北京:國(guó)防科學(xué)技術(shù)大學(xué),2010.
[12]張春華.網(wǎng)絡(luò)輿情社會(huì)學(xué)的闡釋[M].北京:社會(huì)科學(xué)文獻(xiàn)出版社,2012.
[13]李金海,何有世,熊強(qiáng).基于大數(shù)據(jù)技術(shù)的網(wǎng)絡(luò)輿情文本挖掘研究[J].情報(bào)雜志,2014,33(10):1-6.
[14]方星星,呂永強(qiáng).基于改進(jìn)的single-pass網(wǎng)絡(luò)輿情話題發(fā)現(xiàn)研究[J].計(jì)算機(jī)與數(shù)字工程,2014,42(7):1233-1237.
[15]高承實(shí),陳越.網(wǎng)絡(luò)輿情幾個(gè)基本問題的探討[J].情報(bào)雜志,2011,30(11):52-56.
Design of network public opinion monitoring system in military based on Single-Pass
ZHAO Xiao-nan,MA Chen-chen
(Army Unit 68303,Wuwei 733004,China)
Military network public opinion is the main source of military information.These information will directly affect people's judgment,and even endanger social security.According to the characteristics of military,this paper compares common text clustering algorithms,and improves Single-Pass algorithm.Then design network public opinion monitoring system which is suitable for military.The accuracy and recall rate are above 5 percentage points than the Single-Pass,and so as to provide a reliable basis for the relevant departments to make decision.
Single-Pass; military; text clustering; network public opinion monitoring
TN957.52
A
1674-6236(2017)16-0117-04
2016-07-04稿件編號(hào):201607025
趙曉楠(1986—),女,河南偃師人,碩士研究生,中級(jí)工程師。研究方向:人工智能與應(yīng)用。