基于深度學(xué)習(xí)LSTM算法的社會網(wǎng)絡(luò)的輿情監(jiān)測

2021-01-18 04:37王民昆王浩蘇博

現(xiàn)代計算機 2020年33期

王民昆，王浩，蘇博

（1.國家電網(wǎng)公司西南分部，成都610041；2.成都信息工程大學(xué)，成都610225）

0 引言

網(wǎng)絡(luò)輿情的定義為在一定的社會空間內(nèi)，圍繞中介性社會事項的發(fā)生、發(fā)展和變化，作為輿情主體的民眾對國家管理者產(chǎn)生和持有的社會政治態(tài)度。由于現(xiàn)目前信息化的普及，社交媒體提要、新聞博客、在線報紙等網(wǎng)絡(luò)信息的大量涌現(xiàn)。網(wǎng)絡(luò)輿情可以在突破空間和時間和的限制下進(jìn)行高速傳播，進(jìn)而傳播到世界各地，使其具有廣泛的傳播性。這樣的廣泛傳播的民眾意見即會被視為互聯(lián)網(wǎng)的公眾意見。如果我們能夠動態(tài)地發(fā)現(xiàn)社會網(wǎng)絡(luò)中的熱點網(wǎng)絡(luò)輿論，在高速地向那些尋求者提供有用的信息的同時，并且實時地監(jiān)測這一熱點網(wǎng)絡(luò)輿論的趨勢，就會對現(xiàn)實社會我的安全產(chǎn)生影響公眾輿論。如果一些具有非真實性的網(wǎng)絡(luò)輿情未被檢測出來，就會對民眾帶來極大的負(fù)面態(tài)度以及情緒，以及在認(rèn)識上和意愿上表現(xiàn)出多重不良影響，這就會給社交網(wǎng)絡(luò)的安全安全帶來嚴(yán)重的威脅[1]。因此，及時掌握網(wǎng)絡(luò)輿情，正確認(rèn)識其輿情動向十分重要。這也極大地推動了網(wǎng)絡(luò)輿論檢測的研究。

例如2013年4月23日，一個被盜的名為美聯(lián)社的Twitter帳戶四處報道白宮發(fā)生兩起爆炸事件并且巴拉克·奧巴馬受傷的假新聞。雖然美聯(lián)社和白宮在幾分鐘后向民眾保證該報告不真實，但是由于辟謠的滯后性，等到官方辟謠的時候，數(shù)百萬用戶的快速妄想導(dǎo)致由作者引起的嚴(yán)重的社會恐慌，直接導(dǎo)致股市損失1365億美元，這是一起虛假信息的網(wǎng)絡(luò)輿情，展示出社交媒體對虛假信息的脆弱性。突出了網(wǎng)絡(luò)輿情監(jiān)測準(zhǔn)確性的實用價值，而且網(wǎng)絡(luò)輿情的實時監(jiān)測對早期防范謠言傳播具有重要意義，有助于將謠言傳播的負(fù)面影響降到最低。

1 相關(guān)工作

以前對網(wǎng)絡(luò)輿論的研究主要是從心理學(xué)或社會學(xué)的角度，研究網(wǎng)絡(luò)信息中其對政府或社會的影響，并分析其活動的模式觀點。但是如果缺少了計算機等工學(xué)方面對其活動的量化分析，無法為互聯(lián)網(wǎng)管理部門的決策提供更可信的結(jié)果[2]。在當(dāng)今的社會網(wǎng)絡(luò)輿論的監(jiān)測中，不僅可以提取文本信息，還能從網(wǎng)絡(luò)中提取出文本的情感。與傳統(tǒng)的文本文檔相比，網(wǎng)頁包含有已被證明在提取情感方面是有用的額外的信息，如URL、HTML標(biāo)簽等。近年來，工業(yè)界對網(wǎng)絡(luò)輿情都進(jìn)行了大量研究，。例如Liu等人分析了微內(nèi)容下的網(wǎng)絡(luò)輿論，他們將微內(nèi)容定義為信息本體和信息狀態(tài)的組合，分析了微內(nèi)容的信息特征，觀點收斂和演化特征。分析出由于微觀內(nèi)容的融合便利性，易爆炸性和社會性等特性，造成熱點的形成是網(wǎng)絡(luò)輿論的主要原因[3]。葉平豪等人利用共詞分析和可視化方法，在前沿研究文獻(xiàn)的熱點上利用對知識圖譜的知識，進(jìn)行了許多規(guī)模分析和社會網(wǎng)絡(luò)分析[4]。劉志明等人利用用戶的影響力和用戶的積極性，構(gòu)建了輿論領(lǐng)導(dǎo)者的指標(biāo)體系，并運用層次分析法對指標(biāo)的權(quán)重進(jìn)行了分析，明意見領(lǐng)袖是與主題相關(guān)的，只有少數(shù)用戶可以成為不同主題的意見領(lǐng)袖[5]。黃偉等人將本體和語義計算的相關(guān)技術(shù)引入網(wǎng)絡(luò)群體事件的主題發(fā)現(xiàn)研究中，并進(jìn)行實證研究，實驗結(jié)果表明該方法可以有效地獲取主題信息，有助于網(wǎng)絡(luò)群體事件的主題發(fā)現(xiàn)[6]。陳翔等人分析了基于CBR的網(wǎng)絡(luò)輿情輔助決策系統(tǒng)的工作流程，并提出了基于CBR的網(wǎng)絡(luò)輿情輔助決策系統(tǒng)的框架并分析了輔助決策系統(tǒng)的關(guān)鍵要素[7]。而鄭奎等人針對網(wǎng)絡(luò)輿情研究在公共安全中的需求，運用中文分詞技術(shù)在應(yīng)急管理領(lǐng)域，提出了一種基于ICTCLAS的網(wǎng)絡(luò)輿情熱點信息自動檢測方法，并通過實例驗證了該方法的可靠性與實用性[8]。

2 網(wǎng)絡(luò)輿情檢測模型

2.1 問題定義

網(wǎng)絡(luò)輿情的監(jiān)測研究問題可以定義如下：對于一個給定的關(guān)于特定網(wǎng)絡(luò)信息的文本，當(dāng)前系統(tǒng)的任務(wù)是判斷該信息它是否是輿情。這個問題可以定義為一個二分類問題，通過輸入推文，將該推文分類為輿情信息與正常信息。

2.2 模型處理流程

圖1為本文提出的基于深度學(xué)習(xí)的網(wǎng)絡(luò)輿情研究的結(jié)構(gòu)與流程，如圖1所示，整個模型由基于Word2Vec算法中的CBOW模型的但詞向量化處理，與基于LSTM算法的輸出預(yù)測來判斷輿情構(gòu)成，大致的處理流程如下：

（1）將要使用的數(shù)據(jù)集進(jìn)行去重，刪除特殊符號，去除表情等去噪聲操作，然后再將文本通過分詞工具，將句子分為一系列的詞語{word（1）,word（2）,…,word（i）}。

（2）再通過使用Word2Vec中的CBOW模型，將經(jīng)過分詞后的詞語向量化，將詞語序列變?yōu)橄蛄啃蛄?。并計算出該模型中的各個詞的權(quán)重。并計算一個總的權(quán)重。

（3）將向量序列的詞語輸入RNN的深度學(xué)習(xí)算法的LSTM模型中，然后將最后一個時間步驟上預(yù)測類作為輸出向量。然后輸出的標(biāo)簽結(jié)果判定該網(wǎng)絡(luò)信息為輿論信息還是正常信息。

圖1 輿論監(jiān)測模型

3 算法介紹

Word2Vec算法：Word2Vec算法是Google公司推出的一個自然語言處理工具，它能夠?qū)⒁粋€一個的單詞轉(zhuǎn)化為向量，這樣就讓詞與詞之間形成定量的去度量他們之間的關(guān)系，從而達(dá)到挖掘詞語之間的聯(lián)系。本文就使用Word2Vec中的CBOW神經(jīng)網(wǎng)絡(luò)模型來訓(xùn)練以得到合適的詞向量。

3.1 CBOW 模型

（1）輸入層：因為上下文單詞采用的One-Hot編碼來記錄詞向量，V為詞庫的單詞個數(shù)，C為上下文的單詞個數(shù)。假設(shè)上下文的單詞個數(shù)C=i，那么模型的輸入就是i個單詞由One-Hot編碼的詞向量。

（2）開始初始化權(quán)重矩陣WV×N，使用輸入的One-Hot編碼詞向量乘上該矩陣，所得到向量w1,w2,…,wc，維數(shù)為N。不過這里的維數(shù)N根據(jù)任務(wù)根據(jù)自己需要設(shè)置。

（3）然后將所得的權(quán)重向量w1,w2,…,wc相加，求得平均數(shù)作為隱藏層的向量h。

（4）上述操作結(jié)束后，就可以初始化另一權(quán)重矩陣W’MxV，將隱藏層向量h乘上W’MxV，再通過激活函數(shù)的處理得到向量y，維數(shù)為V，向量y中每一個數(shù)據(jù)代表每個單詞的概率分布。

（5）向量y中概率最大的概率分布的單詞輸出為預(yù)測出的中間詞，與真標(biāo)簽的One-Hot編碼的詞向量相互比較，他們之間的誤差越小越好，然后再根據(jù)誤差來更新兩個權(quán)重矩陣以達(dá)到權(quán)重更新。

CBOW在訓(xùn)練前需要先定義好交叉熵代價函數(shù)，權(quán)重更新采用梯度下降算法。模型訓(xùn)練完畢后，在輸入層的每個單詞和輸入層的向量矩陣W相乘得到的數(shù)據(jù)也就是詞向量，因為在One-Hot編碼的詞向量中為1元素，只有一個，剩下的都為0，所以會出現(xiàn)矩陣W乘上第i個詞向量得到矩陣的第i行，有了該矩陣就可以丟棄模型訓(xùn)練的過程，直接通過查表而得到單詞的詞向量。

圖2 CBOW模型原理

3.2 LSTM 算法

LSTM是深度學(xué)習(xí)中一種特定的RNN形式。LSTM的優(yōu)勢在于增加遺忘門限，輸入門限與輸出門限，從而讓自己具有變化的循環(huán)權(quán)重，這就會在有參數(shù)固定的情況下，即使在不同時刻，積分尺度依然可以隨之動態(tài)改變，這就解決了梯度膨脹或者梯度消失等問題。根據(jù)LSTM網(wǎng)絡(luò)的結(jié)構(gòu)，每個LSTM單元的計算公式如下所示，其中Ft表示遺忘門限，It表示輸入門限，Ct表示前一時刻cell狀態(tài)、Ct表示cell狀態(tài)（這里就是循環(huán)發(fā)生的地方），Ot表示輸出門限，Ht表示當(dāng)前單元的輸出，Ht-1表示前一時刻單元的輸出。

4 實驗

4.1 數(shù)據(jù)集

（1）LIAR數(shù)據(jù)集[9]是用于偽造新聞檢測的最新基準(zhǔn)數(shù)據(jù)集。該數(shù)據(jù)集由PolitiFact收集了12,836個現(xiàn)實世界的短信息，來自包括辯論、競選、Facebook、Twit?ter、訪談、廣告等各種場合。每個語句都標(biāo)有真實性的大小。有關(guān)主題的信息、派對、背景和演講者也在內(nèi)在此數(shù)據(jù)集中。

（2）Vlachos是第一個研究的人PolitiFact數(shù)據(jù)[10]，但LIAR數(shù)據(jù)集的數(shù)量級更大更全面。但是，請注意該原始LIAR數(shù)據(jù)集不包括編輯的理由或版權(quán)證明問題，用戶將需要獲取理由/證據(jù)分別使用API。

本文用到的數(shù)據(jù)集即為上述兩個數(shù)據(jù)集的混合，整個數(shù)據(jù)集上應(yīng)用了10倍的交叉驗證，并對數(shù)據(jù)集中缺失的信息進(jìn)行了填充，以便在不同的場合下信息，而保持特征向量的統(tǒng)一，以便后續(xù)分析及處理。

4.2 實驗設(shè)置

為了模擬出現(xiàn)實生活中的網(wǎng)絡(luò)輿情的爆發(fā)，我們進(jìn)行了5倍的交叉驗證。在每次運行中，我們使用四分之三的數(shù)據(jù)集來訓(xùn)練我們的模型以及基線分類器。然后使用剩余的四分之一的數(shù)據(jù)集來評估這些分類器在精度、召回和F1方面的性能。此外，為了確保訓(xùn)練結(jié)果的穩(wěn)定性，并對分類進(jìn)行更穩(wěn)健的估計。對于我們的深度學(xué)習(xí)模型，我們對每個模型配置重復(fù)了5倍交叉驗證的每一次運行五次。

基線分類器：本文不僅通過對比K-means、SVM與樸素貝葉斯等幾種傳統(tǒng)的機器學(xué)習(xí)方法，還對比了在網(wǎng)絡(luò)輿情方面先進(jìn)的監(jiān)測技術(shù)。DTR：一種基于決策規(guī)則的識別趨勢謠言的排序方法，它搜索有爭議的事實索賠的查詢短語和聚類，并對聚類結(jié)果進(jìn)行排序關(guān)于統(tǒng)計特征的SED。SVM-RBF：基于SVM的Twitter信息可信度模型，該模型具有RBF內(nèi)核的模型，使用了基于帖子總體統(tǒng)計的手工制作的特性。

4.3 結(jié)果分析

表1分別有準(zhǔn)確度、F1值、召回率的平均分?jǐn)?shù)，數(shù)字越大，代表模型效果越好，分別在同樣的數(shù)據(jù)集對比了不同基線模型得出的分?jǐn)?shù)。

表1 不同方法各個評價值

實驗結(jié)果表明，在所有基線分類器中，DTC在較其他傳統(tǒng)機器學(xué)習(xí)在準(zhǔn)確率方面表現(xiàn)較好，而條件隨機字段（SVM-RBF）在精確度方面表現(xiàn)較好。這和使用該方法的論文結(jié)果一致。從表1可以看出，我們提出的方法明顯在精度、F1值等評價指標(biāo)下得出的數(shù)據(jù)都優(yōu)于本數(shù)據(jù)集上的同時訓(xùn)練的所有基線，它實現(xiàn)了高召回率，能更好地實現(xiàn)網(wǎng)絡(luò)輿情的監(jiān)測，更加實現(xiàn)實時監(jiān)測效果。

5 結(jié)語

我們提出了一種基于CBOW詞向量化，LSTM的深度學(xué)習(xí)算法的新方法來監(jiān)測網(wǎng)絡(luò)輿情，使用了liar這種包含各個場景的信息，并且在數(shù)據(jù)集里面還包含標(biāo)簽，鏈接等額外信息用于輔助判斷輿情的發(fā)展。在模型訓(xùn)練的每個時間步驟中，LSTM的上時間段的輸出被用作下一時間段的輸入，具有時效性，能看清輿情的發(fā)展受時間影響的大小。

這項研究還表明在深度學(xué)習(xí)訓(xùn)練的模型中，RNN和CNN往往都需要更大的數(shù)據(jù)集，雖然本文訓(xùn)練較其他方法有較好的效果，但是效果并沒有達(dá)到理想狀態(tài)。在某些情況下，需要更多層的神經(jīng)網(wǎng)絡(luò)來有效地訓(xùn)練它們的模型，從而提高模型性能的魯棒性。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡