鄭兢
[摘 ?要]近年來我國產(chǎn)品質(zhì)量安全問題頻繁發(fā)生,不僅引起了社會恐慌而且造成了國家巨大的經(jīng)濟損失,甚至在一定程度上會影響我國在國際貿(mào)易中的信譽。產(chǎn)品質(zhì)量危機是公共危機的一種形式,但是其安全問題是涉及范圍最廣、影響公眾生命健康最直接的一種公共危機。由于網(wǎng)上的信息量十分巨大,僅依靠人工的方法難以應(yīng)對網(wǎng)上海量信息的收集和處理,需要加強相關(guān)信息技術(shù)的研究,形成一套自動化的網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng),及時應(yīng)對網(wǎng)絡(luò)輿情,由被動防堵,化為主動梳理、引導(dǎo)。
[關(guān)鍵詞]輿情、風險監(jiān)測、質(zhì)量安全
中圖分類號:TP391.1 文獻標識碼:A 文章編號:1009-914X(2016)27-0147-01
1、引言
近年來,隨著新媒體的迅猛發(fā)展, 我國網(wǎng)絡(luò)輿情的影響日益巨大。自2008年以來,“三聚氰胺”,“一滴香”、“瘦肉精”事件以及近期出現(xiàn)的“搖搖車”、“電梯事故”等一系列質(zhì)量安全問題的出現(xiàn),都在社會中產(chǎn)生了巨大的負面影響,產(chǎn)品質(zhì)量安全的網(wǎng)絡(luò)輿情的數(shù)量和影響持續(xù)上升,對政府輿論應(yīng)對能力提出新的挑戰(zhàn),加強產(chǎn)品質(zhì)量安全網(wǎng)絡(luò)輿情監(jiān)控管理研究的現(xiàn)實需求十分迫切。
2、輿情檢索技術(shù)
網(wǎng)絡(luò)輿情監(jiān)測系統(tǒng)是一項復(fù)雜而龐大工程,它涵蓋了幾乎所有的互聯(lián)網(wǎng)領(lǐng)域的基本技術(shù),但從系統(tǒng)的功能實現(xiàn)上看,輿情監(jiān)測系統(tǒng)的關(guān)鍵技術(shù)是由數(shù)據(jù)采集和關(guān)鍵信息提取技術(shù)構(gòu)成的。
2.1 數(shù)據(jù)采集
網(wǎng)絡(luò)爬蟲是當前主流網(wǎng)絡(luò)搜索引擎使用的技術(shù),也是輿情監(jiān)測工具中處理網(wǎng)頁獲取、網(wǎng)頁跟蹤、網(wǎng)頁分析、網(wǎng)頁搜索、網(wǎng)頁評級和結(jié)構(gòu)/非結(jié)構(gòu)化數(shù)據(jù)抽取以及后期更細粒度的數(shù)據(jù)挖掘等方方面面的主要工具。
網(wǎng)絡(luò)爬蟲的實現(xiàn)方式是通過訪問網(wǎng)頁中的超文本鏈接,自動抓取互聯(lián)網(wǎng)內(nèi)部的程序或者腳本。
2.2 通用型爬蟲與主題性爬蟲介紹
當前主流的網(wǎng)絡(luò)爬蟲技術(shù)主要分為通用型網(wǎng)絡(luò)爬蟲技術(shù)和主題性網(wǎng)絡(luò)爬蟲技術(shù)。通用型網(wǎng)絡(luò)爬蟲的主要目標是大量采集信息頁面[1],有較高的網(wǎng)絡(luò)覆蓋率,但其盲目的抓取會下載大量的垃圾頁面,浪費網(wǎng)絡(luò)資源。
主題型爬蟲以自定義的主題信息為出發(fā)點抓取信息,基于此假設(shè):如果網(wǎng)頁U與主題相關(guān),并且頁面V到網(wǎng)頁U通過一個超鏈接進行連接,那么抓取頁面V的主題相關(guān)度比從網(wǎng)頁中隨機抓取的頁面相關(guān)度要高。與通用型爬蟲不同之處在于主題型爬蟲可專門面向某一特定主題進行搜索,對于質(zhì)檢行業(yè)所關(guān)注的產(chǎn)品、標準、項目有更好的適應(yīng)性。
2.3 主題型爬蟲的工作方式
主題型爬蟲的運行過程大致為:
1.將搜索到的頁面和各種信息項放到一個信息集合項中;
2.分析每個信息項,將其中的基本信息單元作為索引,并形成索引庫。同時建立一個存儲Web頁面的metadata數(shù)據(jù)庫。
3.Web瀏覽器將用戶通過瀏覽器的查詢請求通過HTTP協(xié)議傳到搜索引擎,搜索引擎利用索引庫找到相關(guān)文檔并返回Web頁面,或者將URL列表以及相應(yīng)的摘要反饋給Web瀏覽器的用戶查詢界面。
4.用戶獲得Web頁面摘要信息或者信息項的列表,若想查看其中具體的內(nèi)容,則點擊標題訪問,瀏覽器在matadata數(shù)據(jù)庫的支持下通過HTTP協(xié)議從信息的原始位置取回Web頁面或其他信息。
2.4 主題型爬蟲的爬行策略
實現(xiàn)主題型爬蟲最常用的策略是PageRank和HITS算法,其共同點是根據(jù)頁面與主題的相似程度來確定主題的相關(guān)度,并根據(jù)主題的相關(guān)度來評估子網(wǎng)頁的重要性。[2]
RageRank算法可以得出網(wǎng)頁的重要程度,進而對其權(quán)威性進行評價。
HITS算法也是一種通過網(wǎng)頁鏈接來評估網(wǎng)頁重要性的算法。相較于PageRank算法,HITS算法在網(wǎng)頁鏈接與用戶需求主體的關(guān)聯(lián)性上有所改進。
3 質(zhì)量輿情系統(tǒng)架構(gòu)設(shè)計研究
3.1 數(shù)據(jù)預(yù)處理
預(yù)處理包括網(wǎng)頁噪音去除和語義分析。
噪音去除:
對抓取到的數(shù)據(jù)進行噪音去除,包括網(wǎng)頁周邊廣告和版權(quán)聲明。對保留的有效內(nèi)容,逐句做正負面判定,以及品牌、屬性詞條的露出標注。并將預(yù)處理后的信息入庫保存。
語義分析:
1,智能語義分析:基于基礎(chǔ)的分詞詞典、正負面詞典、15個領(lǐng)域的知識庫和句法分析算法,可以自動的對網(wǎng)絡(luò)信息進行實體、屬性識別以及正負面判定,從而實現(xiàn)了海量信息下的口碑分類與危機識別。
2,半結(jié)構(gòu)化信息的自動提?。嚎梢宰詣犹崛』ヂ?lián)網(wǎng)網(wǎng)頁中的有用信息,保存到結(jié)構(gòu)化的數(shù)據(jù)庫中實現(xiàn)方便的查詢,如網(wǎng)絡(luò)論壇中的分樓、帖子作者、時間、點擊數(shù)、回復(fù)數(shù)等。
3,海量文本的分類與聚類:可靈活的為各種分類體系訓(xùn)練相應(yīng)的分類器,適應(yīng)應(yīng)用場景中多變的分類需求。基于LDA改進算法的聚類結(jié)果,可以充分挖掘語義層的關(guān)聯(lián),進行大規(guī)模的文本聚類,并進一步應(yīng)用到互聯(lián)網(wǎng)內(nèi)容傳播中的話題管理與新話題發(fā)現(xiàn)。
4,內(nèi)容關(guān)聯(lián)性分析:基于FSP、卡方、Word2Vec等各種算法開發(fā)的內(nèi)容關(guān)聯(lián)性分析,適合各種不同應(yīng)用場景中的關(guān)聯(lián)發(fā)現(xiàn)需求,產(chǎn)品-屬性、產(chǎn)品-競品、產(chǎn)品-廣告匹配,等等。
5,分詞與領(lǐng)域內(nèi)命名實體識別:常規(guī)自動發(fā)現(xiàn)互聯(lián)網(wǎng)新詞、領(lǐng)域內(nèi)新詞、以及領(lǐng)域內(nèi)的命名實體識別,從而在應(yīng)用中更為準確的定位目標實體。
3.2 數(shù)據(jù)提取
提取出網(wǎng)頁中內(nèi)容的結(jié)構(gòu)化數(shù)據(jù)并入庫保存,供報告統(tǒng)計和前臺查詢時使用。結(jié)構(gòu)化數(shù)據(jù)包括文章的作者、時間、發(fā)布站點、點擊、回復(fù)、閱讀、評論、點贊等。動態(tài)指標數(shù)據(jù)可以根據(jù)需求做定期更新。對于頁面中的互動內(nèi)容,如論壇的分樓回復(fù)、新聞下評論、可以做精細化提取為作者、時間、回復(fù)內(nèi)容?;觾?nèi)容需要根據(jù)站點做定制開發(fā),目前覆蓋熱門100個論壇,以及4大門戶的新聞評論。
3.3 數(shù)據(jù)索引
為了提供快速的關(guān)鍵詞檢索,系統(tǒng)采用倒排表作為文本內(nèi)容的索引。為提高效率,系統(tǒng)索引分為三級。當日內(nèi)的數(shù)據(jù)放在一級索引里,本周數(shù)據(jù)放在二級索引里,本周前的數(shù)據(jù)放在三級索引里。每日抓取回的數(shù)據(jù)每小時都會更新到一級索引里。當抓取內(nèi)容進入索引后,就可以提供對外的查詢。
3.4 數(shù)據(jù)檢索
用戶在平臺上做監(jiān)測關(guān)鍵詞配置后,系統(tǒng)的數(shù)據(jù)檢索模塊會定期對后臺的索引進行檢索,篩選出來符合平臺配置的文章,放到平臺上提供展示和統(tǒng)計篩選。對于有特殊需求的客戶,比如危機預(yù)警客戶,可以定制平臺數(shù)據(jù)更新頻次和時間點,從而實現(xiàn)平臺更頻繁更新。
3.5 平臺信息展示與API數(shù)據(jù)接口
系統(tǒng)通過Web 服務(wù)的方式,呈現(xiàn)監(jiān)測對象的相關(guān)數(shù)據(jù),并按照時間、站點、正負面、作者等維度進行數(shù)據(jù)篩選。并在數(shù)據(jù)基礎(chǔ)上統(tǒng)計出熱門話題、負面話題、熱詞云圖等數(shù)據(jù)統(tǒng)計結(jié)果。
4、結(jié)束語
我國的質(zhì)檢行業(yè)面臨的市場化的挑戰(zhàn),而當前質(zhì)檢行業(yè)對信息技術(shù)手段的利用離現(xiàn)代企業(yè)管理還有差距。輿情監(jiān)測系統(tǒng)能夠幫助質(zhì)量監(jiān)管部門獲取當前市場上最關(guān)注的的質(zhì)量問題。我國的質(zhì)檢行業(yè)面臨的市場化的挑戰(zhàn),而當前質(zhì)檢行業(yè)對信息技術(shù)手段的利用離現(xiàn)代企業(yè)管理還有差距。輿情監(jiān)測系統(tǒng)能夠幫助質(zhì)量監(jiān)管部門獲取當前市場上最關(guān)注的的質(zhì)量問題。通過網(wǎng)絡(luò)輿情監(jiān)測系統(tǒng),利用計算機網(wǎng)絡(luò)技術(shù)的優(yōu)勢,系統(tǒng)、科學(xué)、高效的分析和預(yù)警質(zhì)量信息,是質(zhì)量監(jiān)管部門維護社會穩(wěn)定,保護企業(yè)形象的基礎(chǔ)保障。但是對于怎樣挖掘更深入的信息,怎樣對挖掘的信息進行風險等級評價,依然需要深入研究。
參考文獻
[1] 王桂梅.主題網(wǎng)絡(luò)爬蟲關(guān)鍵技術(shù)研究[D].哈爾濱工業(yè)大學(xué),2009.
[2] 劉毅, 網(wǎng)絡(luò)輿情研究概論[M],天津;天津出版社,2007.