王民昆,王浩,蘇博
(1.國家電網(wǎng)公司西南分部,成都610041;2.成都信息工程大學(xué),成都610225)
網(wǎng)絡(luò)輿情的定義為在一定的社會空間內(nèi),圍繞中介性社會事項的發(fā)生、發(fā)展和變化,作為輿情主體的民眾對國家管理者產(chǎn)生和持有的社會政治態(tài)度。由于現(xiàn)目前信息化的普及,社交媒體提要、新聞博客、在線報紙等網(wǎng)絡(luò)信息的大量涌現(xiàn)。網(wǎng)絡(luò)輿情可以在突破空間和時間和的限制下進(jìn)行高速傳播,進(jìn)而傳播到世界各地,使其具有廣泛的傳播性。這樣的廣泛傳播的民眾意見即會被視為互聯(lián)網(wǎng)的公眾意見。如果我們能夠動態(tài)地發(fā)現(xiàn)社會網(wǎng)絡(luò)中的熱點網(wǎng)絡(luò)輿論,在高速地向那些尋求者提供有用的信息的同時,并且實時地監(jiān)測這一熱點網(wǎng)絡(luò)輿論的趨勢,就會對現(xiàn)實社會我的安全產(chǎn)生影響公眾輿論。如果一些具有非真實性的網(wǎng)絡(luò)輿情未被檢測出來,就會對民眾帶來極大的負(fù)面態(tài)度以及情緒,以及在認(rèn)識上和意愿上表現(xiàn)出多重不良影響,這就會給社交網(wǎng)絡(luò)的安全安全帶來嚴(yán)重的威脅[1]。因此,及時掌握網(wǎng)絡(luò)輿情,正確認(rèn)識其輿情動向十分重要。這也極大地推動了網(wǎng)絡(luò)輿論檢測的研究。
例如2013年4月23日,一個被盜的名為美聯(lián)社的Twitter帳戶四處報道白宮發(fā)生兩起爆炸事件并且巴拉克·奧巴馬受傷的假新聞。雖然美聯(lián)社和白宮在幾分鐘后向民眾保證該報告不真實,但是由于辟謠的滯后性,等到官方辟謠的時候,數(shù)百萬用戶的快速妄想導(dǎo)致由作者引起的嚴(yán)重的社會恐慌,直接導(dǎo)致股市損失1365億美元,這是一起虛假信息的網(wǎng)絡(luò)輿情,展示出社交媒體對虛假信息的脆弱性。突出了網(wǎng)絡(luò)輿情監(jiān)測準(zhǔn)確性的實用價值,而且網(wǎng)絡(luò)輿情的實時監(jiān)測對早期防范謠言傳播具有重要意義,有助于將謠言傳播的負(fù)面影響降到最低。
以前對網(wǎng)絡(luò)輿論的研究主要是從心理學(xué)或社會學(xué)的角度,研究網(wǎng)絡(luò)信息中其對政府或社會的影響,并分析其活動的模式觀點。但是如果缺少了計算機等工學(xué)方面對其活動的量化分析,無法為互聯(lián)網(wǎng)管理部門的決策提供更可信的結(jié)果[2]。在當(dāng)今的社會網(wǎng)絡(luò)輿論的監(jiān)測中,不僅可以提取文本信息,還能從網(wǎng)絡(luò)中提取出文本的情感。與傳統(tǒng)的文本文檔相比,網(wǎng)頁包含有已被證明在提取情感方面是有用的額外的信息,如URL、HTML標(biāo)簽等。近年來,工業(yè)界對網(wǎng)絡(luò)輿情都進(jìn)行了大量研究,。例如Liu等人分析了微內(nèi)容下的網(wǎng)絡(luò)輿論,他們將微內(nèi)容定義為信息本體和信息狀態(tài)的組合,分析了微內(nèi)容的信息特征,觀點收斂和演化特征。分析出由于微觀內(nèi)容的融合便利性,易爆炸性和社會性等特性,造成熱點的形成是網(wǎng)絡(luò)輿論的主要原因[3]。葉平豪等人利用共詞分析和可視化方法,在前沿研究文獻(xiàn)的熱點上利用對知識圖譜的知識,進(jìn)行了許多規(guī)模分析和社會網(wǎng)絡(luò)分析[4]。劉志明等人利用用戶的影響力和用戶的積極性,構(gòu)建了輿論領(lǐng)導(dǎo)者的指標(biāo)體系,并運用層次分析法對指標(biāo)的權(quán)重進(jìn)行了分析,明意見領(lǐng)袖是與主題相關(guān)的,只有少數(shù)用戶可以成為不同主題的意見領(lǐng)袖[5]。黃偉等人將本體和語義計算的相關(guān)技術(shù)引入網(wǎng)絡(luò)群體事件的主題發(fā)現(xiàn)研究中,并進(jìn)行實證研究,實驗結(jié)果表明該方法可以有效地獲取主題信息,有助于網(wǎng)絡(luò)群體事件的主題發(fā)現(xiàn)[6]。陳翔等人分析了基于CBR的網(wǎng)絡(luò)輿情輔助決策系統(tǒng)的工作流程,并提出了基于CBR的網(wǎng)絡(luò)輿情輔助決策系統(tǒng)的框架并分析了輔助決策系統(tǒng)的關(guān)鍵要素[7]。而鄭奎等人針對網(wǎng)絡(luò)輿情研究在公共安全中的需求,運用中文分詞技術(shù)在應(yīng)急管理領(lǐng)域,提出了一種基于ICTCLAS的網(wǎng)絡(luò)輿情熱點信息自動檢測方法,并通過實例驗證了該方法的可靠性與實用性[8]。
網(wǎng)絡(luò)輿情的監(jiān)測研究問題可以定義如下:對于一個給定的關(guān)于特定網(wǎng)絡(luò)信息的文本,當(dāng)前系統(tǒng)的任務(wù)是判斷該信息它是否是輿情。這個問題可以定義為一個二分類問題,通過輸入推文,將該推文分類為輿情信息與正常信息。
圖1為本文提出的基于深度學(xué)習(xí)的網(wǎng)絡(luò)輿情研究的結(jié)構(gòu)與流程,如圖1所示,整個模型由基于Word2Vec算法中的CBOW模型的但詞向量化處理,與基于LSTM算法的輸出預(yù)測來判斷輿情構(gòu)成,大致的處理流程如下:
(1)將要使用的數(shù)據(jù)集進(jìn)行去重,刪除特殊符號,去除表情等去噪聲操作,然后再將文本通過分詞工具,將句子分為一系列的詞語{word(1),word(2),…,word(i)}。
(2)再通過使用Word2Vec中的CBOW模型,將經(jīng)過分詞后的詞語向量化,將詞語序列變?yōu)橄蛄啃蛄?。并計算出該模型中的各個詞的權(quán)重。并計算一個總的權(quán)重。
(3)將向量序列的詞語輸入RNN的深度學(xué)習(xí)算法的LSTM模型中,然后將最后一個時間步驟上預(yù)測類作為輸出向量。然后輸出的標(biāo)簽結(jié)果判定該網(wǎng)絡(luò)信息為輿論信息還是正常信息。
圖1 輿論監(jiān)測模型
Word2Vec算法:Word2Vec算法是Google公司推出的一個自然語言處理工具,它能夠?qū)⒁粋€一個的單詞轉(zhuǎn)化為向量,這樣就讓詞與詞之間形成定量的去度量他們之間的關(guān)系,從而達(dá)到挖掘詞語之間的聯(lián)系。本文就使用Word2Vec中的CBOW神經(jīng)網(wǎng)絡(luò)模型來訓(xùn)練以得到合適的詞向量。
(1)輸入層:因為上下文單詞采用的One-Hot編碼來記錄詞向量,V為詞庫的單詞個數(shù),C為上下文的單詞個數(shù)。假設(shè)上下文的單詞個數(shù)C=i,那么模型的輸入就是i個單詞由One-Hot編碼的詞向量。
(2)開始初始化權(quán)重矩陣WV×N,使用輸入的One-Hot編碼詞向量乘上該矩陣,所得到向量w1,w2,…,wc,維數(shù)為N。不過這里的維數(shù)N根據(jù)任務(wù)根據(jù)自己需要設(shè)置。
(3)然后將所得的權(quán)重向量w1,w2,…,wc相加,求得平均數(shù)作為隱藏層的向量h。
(4)上述操作結(jié)束后,就可以初始化另一權(quán)重矩陣W’MxV,將隱藏層向量h乘上W’MxV,再通過激活函數(shù)的處理得到向量y,維數(shù)為V,向量y中每一個數(shù)據(jù)代表每個單詞的概率分布。
(5)向量y中概率最大的概率分布的單詞輸出為預(yù)測出的中間詞,與真標(biāo)簽的One-Hot編碼的詞向量相互比較,他們之間的誤差越小越好,然后再根據(jù)誤差來更新兩個權(quán)重矩陣以達(dá)到權(quán)重更新。
CBOW在訓(xùn)練前需要先定義好交叉熵代價函數(shù),權(quán)重更新采用梯度下降算法。模型訓(xùn)練完畢后,在輸入層的每個單詞和輸入層的向量矩陣W相乘得到的數(shù)據(jù)也就是詞向量,因為在One-Hot編碼的詞向量中為1元素,只有一個,剩下的都為0,所以會出現(xiàn)矩陣W乘上第i個詞向量得到矩陣的第i行,有了該矩陣就可以丟棄模型訓(xùn)練的過程,直接通過查表而得到單詞的詞向量。
圖2 CBOW模型原理
LSTM是深度學(xué)習(xí)中一種特定的RNN形式。LSTM的優(yōu)勢在于增加遺忘門限,輸入門限與輸出門限,從而讓自己具有變化的循環(huán)權(quán)重,這就會在有參數(shù)固定的情況下,即使在不同時刻,積分尺度依然可以隨之動態(tài)改變,這就解決了梯度膨脹或者梯度消失等問題。根據(jù)LSTM網(wǎng)絡(luò)的結(jié)構(gòu),每個LSTM單元的計算公式如下所示,其中Ft表示遺忘門限,It表示輸入門限,Ct表示前一時刻cell狀態(tài)、Ct表示cell狀態(tài)(這里就是循環(huán)發(fā)生的地方),Ot表示輸出門限,Ht表示當(dāng)前單元的輸出,Ht-1表示前一時刻單元的輸出。
(1)LIAR數(shù)據(jù)集[9]是用于偽造新聞檢測的最新基準(zhǔn)數(shù)據(jù)集。該數(shù)據(jù)集由PolitiFact收集了12,836個現(xiàn)實世界的短信息,來自包括辯論、競選、Facebook、Twit?ter、訪談、廣告等各種場合。每個語句都標(biāo)有真實性的大小。有關(guān)主題的信息、派對、背景和演講者也在內(nèi)在此數(shù)據(jù)集中。
(2)Vlachos是第一個研究的人PolitiFact數(shù)據(jù)[10],但LIAR數(shù)據(jù)集的數(shù)量級更大更全面。但是,請注意該原始LIAR數(shù)據(jù)集不包括編輯的理由或版權(quán)證明問題,用戶將需要獲取理由/證據(jù)分別使用API。
本文用到的數(shù)據(jù)集即為上述兩個數(shù)據(jù)集的混合,整個數(shù)據(jù)集上應(yīng)用了10倍的交叉驗證,并對數(shù)據(jù)集中缺失的信息進(jìn)行了填充,以便在不同的場合下信息,而保持特征向量的統(tǒng)一,以便后續(xù)分析及處理。
為了模擬出現(xiàn)實生活中的網(wǎng)絡(luò)輿情的爆發(fā),我們進(jìn)行了5倍的交叉驗證。在每次運行中,我們使用四分之三的數(shù)據(jù)集來訓(xùn)練我們的模型以及基線分類器。然后使用剩余的四分之一的數(shù)據(jù)集來評估這些分類器在精度、召回和F1方面的性能。此外,為了確保訓(xùn)練結(jié)果的穩(wěn)定性,并對分類進(jìn)行更穩(wěn)健的估計。對于我們的深度學(xué)習(xí)模型,我們對每個模型配置重復(fù)了5倍交叉驗證的每一次運行五次。
基線分類器:本文不僅通過對比K-means、SVM與樸素貝葉斯等幾種傳統(tǒng)的機器學(xué)習(xí)方法,還對比了在網(wǎng)絡(luò)輿情方面先進(jìn)的監(jiān)測技術(shù)。DTR:一種基于決策規(guī)則的識別趨勢謠言的排序方法,它搜索有爭議的事實索賠的查詢短語和聚類,并對聚類結(jié)果進(jìn)行排序關(guān)于統(tǒng)計特征的SED。SVM-RBF:基于SVM的Twitter信息可信度模型,該模型具有RBF內(nèi)核的模型,使用了基于帖子總體統(tǒng)計的手工制作的特性。
表1分別有準(zhǔn)確度、F1值、召回率的平均分?jǐn)?shù),數(shù)字越大,代表模型效果越好,分別在同樣的數(shù)據(jù)集對比了不同基線模型得出的分?jǐn)?shù)。
表1 不同方法各個評價值
實驗結(jié)果表明,在所有基線分類器中,DTC在較其他傳統(tǒng)機器學(xué)習(xí)在準(zhǔn)確率方面表現(xiàn)較好,而條件隨機字段(SVM-RBF)在精確度方面表現(xiàn)較好。這和使用該方法的論文結(jié)果一致。從表1可以看出,我們提出的方法明顯在精度、F1值等評價指標(biāo)下得出的數(shù)據(jù)都優(yōu)于本數(shù)據(jù)集上的同時訓(xùn)練的所有基線,它實現(xiàn)了高召回率,能更好地實現(xiàn)網(wǎng)絡(luò)輿情的監(jiān)測,更加實現(xiàn)實時監(jiān)測效果。
我們提出了一種基于CBOW詞向量化,LSTM的深度學(xué)習(xí)算法的新方法來監(jiān)測網(wǎng)絡(luò)輿情,使用了liar這種包含各個場景的信息,并且在數(shù)據(jù)集里面還包含標(biāo)簽,鏈接等額外信息用于輔助判斷輿情的發(fā)展。在模型訓(xùn)練的每個時間步驟中,LSTM的上時間段的輸出被用作下一時間段的輸入,具有時效性,能看清輿情的發(fā)展受時間影響的大小。
這項研究還表明在深度學(xué)習(xí)訓(xùn)練的模型中,RNN和CNN往往都需要更大的數(shù)據(jù)集,雖然本文訓(xùn)練較其他方法有較好的效果,但是效果并沒有達(dá)到理想狀態(tài)。在某些情況下,需要更多層的神經(jīng)網(wǎng)絡(luò)來有效地訓(xùn)練它們的模型,從而提高模型性能的魯棒性。