半監(jiān)督學(xué)習(xí)的微博謠言檢測分析

2021-07-19 09:37陳耿黃取治

電腦知識與技術(shù) 2021年15期

陳耿黃取治

摘要：謠言檢測是社交網(wǎng)絡(luò)謠言研究、監(jiān)測及整治的基礎(chǔ)，其實(shí)施情況得到社會的廣泛關(guān)注，相伴隨的是微博謠言辨識的研究工作不斷增多。該文把微博謠言作為研究對象，搭建了微博謠言的檢測框架，其主要是由獲取數(shù)據(jù)、處理數(shù)據(jù)及謠言檢測三大步驟構(gòu)成，基于實(shí)驗(yàn)研究過程，對比了差異化數(shù)據(jù)已標(biāo)注比例時(shí)不同半監(jiān)督學(xué)習(xí)的性能和ImCo-Forest算法之間的差異，發(fā)現(xiàn)ImCo-Forest在謠言檢測方面更占優(yōu)勢。希望能和同行共同分享方法與經(jīng)驗(yàn)，以期進(jìn)一步完善微博謠言檢測工作。

關(guān)鍵詞：微博謠言;半監(jiān)督學(xué)習(xí);ImCo-Forest算法;謠言檢測系統(tǒng)

中圖分類號：TP311? ? ? 文獻(xiàn)標(biāo)識碼：A

文章編號：1009-3044（2021）15-0012-02

1 背景

微博憑借自身在即時(shí)性、匿名性、廣泛性等方面占據(jù)的優(yōu)勢，從根本上扭轉(zhuǎn)了傳統(tǒng)媒介下信息傳播的樣態(tài)，塑造了去中心化的傳播局勢，成為傳播社會輿論的新載體。

微博平臺上每次只能發(fā)布長度為140字符的文字信息，其不具有完整闡述事實(shí)的功能，外加微博用戶的草根性，使微博逐漸成為聚集、散播謠言的載體，頻繁轉(zhuǎn)播、評論虛假信息，不斷拓展負(fù)面影響的范圍，使用用戶主觀上生成強(qiáng)烈的“信任危機(jī)感”，不利于社會的和諧、平穩(wěn)發(fā)展。謠言檢測隸屬于網(wǎng)絡(luò)信息可信度研究的范圍，微博謠言檢測能凈化微博平臺環(huán)境，引導(dǎo)平臺健康運(yùn)作發(fā)展，創(chuàng)造出更大的效益。

2 背景分析

微博是現(xiàn)代生活中的一種常用社交網(wǎng)絡(luò)平臺，廣大用戶可以利用瀏覽器、智能手機(jī)及他類智能聯(lián)網(wǎng)的客戶端傳送信息，進(jìn)而達(dá)到分享即時(shí)信息的目的。謠言是作為一種特別的語言現(xiàn)象，長期以來是人們關(guān)注與研究的熱點(diǎn)之一。伴隨新媒體網(wǎng)絡(luò)的蓬勃發(fā)展，網(wǎng)絡(luò)謠言隨之產(chǎn)生與流傳，在社會上形成較大的影響。近些年中，因微博謠言泛濫引起的危害，使各級政府及學(xué)術(shù)領(lǐng)域?qū)Υ私o予高度重視，為對虛假話題傳播過程形成抑制，我國政府頒發(fā)了相應(yīng)的懲處法規(guī)，針對網(wǎng)絡(luò)謠言制造及傳播者，公安機(jī)關(guān)加大了打擊力度。以上這些治理措施的實(shí)施，對維持微博傳播秩序有很大助益，明顯減少了微博謠言。通過觀察謠言數(shù)據(jù)，不難發(fā)現(xiàn)微博內(nèi)的謠言數(shù)目明顯少于非謠言，精準(zhǔn)辨識謠言具有很大現(xiàn)實(shí)意義。

3 ImCo-Forest算法

Co-Forest是聚集了集成學(xué)習(xí)算法的一種算法類型，其不僅能處理協(xié)同訓(xùn)練算法中噪聲數(shù)據(jù)引進(jìn)相關(guān)問題，還通過加強(qiáng)不同分類器之間的合作，對那些價(jià)值較高且無標(biāo)記數(shù)據(jù)的預(yù)測工作發(fā)出了挑戰(zhàn)，強(qiáng)化了集成學(xué)習(xí)算法的分類功能。

半監(jiān)督學(xué)習(xí)算法ImCo-Forest就是以Co-Forest算法為基礎(chǔ)提出的，應(yīng)用該算法的目的需要是通過優(yōu)化集中訓(xùn)練中少數(shù)類的分布狀態(tài)，將偏高的誤分類代價(jià)賦予部分感興趣的少數(shù)類，進(jìn)而強(qiáng)化分類器的辨識能力。假定用[L={（x1，y1），……（xl，yc）}]去表示已標(biāo)注的數(shù)據(jù)，[yl∈{1，……c}]，[U={（x1，yu），……（xj，yu）}]表示沒有標(biāo)注數(shù)據(jù)，且有l(wèi)

該算法應(yīng)用階段，針對添加的新標(biāo)記數(shù)據(jù)的數(shù)據(jù)集，應(yīng)用了以正負(fù)類為基礎(chǔ)形成的分層抽樣法進(jìn)行抽樣操作，借此方式使類別平衡性得到更大保障，規(guī)避了由于樣本選擇不恰當(dāng)而引起的分類性能逐漸惡化的問題。

4 檢測框架

從宏觀層面上，可以將微博謠言檢測細(xì)化為數(shù)據(jù)獲得、數(shù)據(jù)處置及謠言檢測三步驟，本文搭建的微博謠言檢測框架見圖1所示[2]。

4.1 數(shù)據(jù)獲得

參照新浪微博官方對外發(fā)布的數(shù)據(jù)，到2017年年末時(shí)，新浪微博月活躍、日活躍用戶分別是3.92億、1.65億，為現(xiàn)階段國內(nèi)應(yīng)用用戶數(shù)目最多、社會影響力最大的微博平臺類型。本課題選擇新浪微博作為研究對象去分析謠言檢測相關(guān)問題。通過觀察新浪微博的信息結(jié)構(gòu)，不難發(fā)現(xiàn)用戶個人信息、微博文案及傳播信息是一條微博的主要構(gòu)成。獲得數(shù)據(jù)是謠言檢測的基礎(chǔ)，以新浪API為基礎(chǔ)的數(shù)據(jù)獲取方法是常用手段之一，流程可以做出如下概述：首先，創(chuàng)建賬號與運(yùn)用獲得研發(fā)者身份，能獲取專屬型的App Key與App Secret;其次，開發(fā)者將授權(quán)請求傳送到授權(quán)地址，基于OAuth2.0認(rèn)證過程誘導(dǎo)Request Token授權(quán)返回過程，在確認(rèn)授權(quán)成功以后，開發(fā)者再獲得Access Token;最后，調(diào)取使用接口，便能順利地獲取到JOSN數(shù)據(jù)流或XML文件，系統(tǒng)化分析后便預(yù)示著微博數(shù)據(jù)采集工作結(jié)束。利用該種方法采集數(shù)據(jù)有研發(fā)代價(jià)偏低、便于達(dá)成等優(yōu)點(diǎn)，但官方設(shè)定的數(shù)據(jù)獲取頻次與方式會對其形成一定約束，很難保證謠言數(shù)據(jù)獲取的有效性、整體性。而相比之下，基于微博爬蟲獲取數(shù)據(jù)的方法在應(yīng)用階段，能基于網(wǎng)絡(luò)抓包工具能構(gòu)建數(shù)據(jù)請求過程與各請求URL之間的關(guān)系，獲得kie并建立session，實(shí)現(xiàn)模擬登陸，利用HTTP協(xié)議、GET方法去采集與分析數(shù)據(jù)。

4.2 數(shù)據(jù)處置

謠言檢測的宗旨在于從批量化的微博消息內(nèi)，基于分類算法對其作出合理判斷。處理數(shù)據(jù)是計(jì)算機(jī)“理解”數(shù)據(jù)的前提，這樣方能精準(zhǔn)辨別出微博謠言。本文把微博文本表示為向量這些適用于機(jī)器學(xué)習(xí)算法處理的數(shù)據(jù)[3]。1）過濾噪聲：去噪的目的以解除無用數(shù)據(jù)為主，這是提升后期檢測工效的基礎(chǔ)，具體是當(dāng)微博用戶的粉絲數(shù)目在給定閾值之下時(shí)，就將其微博數(shù)據(jù)刪除。2）分詞：從本質(zhì)上分析，對微博文本進(jìn)行分類就是細(xì)化短文本的所屬類型，對文本進(jìn)行分詞操作這是預(yù)處理階段需落實(shí)的第一要務(wù)，當(dāng)下可供選擇的分詞方法較多，比如由統(tǒng)計(jì)學(xué)習(xí)形成的，或者以人工智能為基礎(chǔ)形成的分詞法等，合理使用如上方法，能將連貫的字符串序列轉(zhuǎn)變成組合式的成詞序列，并化繁為簡，獲得簡單容易處理、向量化的文本數(shù)據(jù)。3）表示向量：即參照一定的特征項(xiàng)，把微博文案信息轉(zhuǎn)變成特征性向量的方法，當(dāng)前在該環(huán)節(jié)中多采用空間向量模型（VSM），其應(yīng)用思想可以做出如下表述：將文本視為無序詞與其相對應(yīng)權(quán)重的集合體，統(tǒng)一映射至高維空間內(nèi)，具體操作是把文案內(nèi)的各詞項(xiàng)作為唯一屬性用t1表示，測算出文檔內(nèi)各詞項(xiàng)的重要程度進(jìn)而獲取到權(quán)重W1，那么便可以將一個文檔表示成例如（t1，W1;t2，W2;……tn，Wn）的向量形式，而后通過測算文本相似度去對不同內(nèi)容之間的相關(guān)性作出科學(xué)判斷。

4.3 選擇微博特征

這是謠言檢測過程中的關(guān)鍵一環(huán)，影響著檢測效果，當(dāng)下國內(nèi)外針對微博謠言檢測的研究主要聚集在選擇分類特征方面。也有人員通過系統(tǒng)分析與科學(xué)實(shí)驗(yàn)過程獲取到文本的基本特征，即內(nèi)容特征、用戶屬性信息與傳播特征，希望據(jù)此能提升微博謠言檢測效率，本文以此為基礎(chǔ)，從多個維度分析微博謠言的特點(diǎn)，構(gòu)建出用于檢測微博謠言的特征向量集合[4]。1）內(nèi)容特征：是微博消息內(nèi)的統(tǒng)計(jì)特征，可以將其看成是微博內(nèi)容的延展信息或不同用戶交流中形成的信息，影響著文本的可信度。2）用戶特征：由是否認(rèn)證、注冊時(shí)間、微博數(shù)等構(gòu)成，其呈現(xiàn)出的是廣大微博用戶自身的權(quán)威性與影響力。3）傳播特征：看中的主要是用戶上傳的文本信息的轉(zhuǎn)發(fā)及評論數(shù)，這種特征主要是能表現(xiàn)出該用戶對其他網(wǎng)絡(luò)用戶產(chǎn)生的影響力。

5 實(shí)證檢驗(yàn)

5.1 實(shí)驗(yàn)步驟

1）獲取和標(biāo)注數(shù)據(jù)：把官方的辟謠信息及網(wǎng)絡(luò)材料作為憑據(jù)，選擇5895條微博并進(jìn)行人工標(biāo)注處理。

2）提獲特征：在該操作之前需要對獲得的微博數(shù)據(jù)進(jìn)行預(yù)處理，宗旨在于盡量解除噪聲數(shù)據(jù)，將無用數(shù)據(jù)對后續(xù)檢測工作形成的負(fù)面影響降至最低。具體是刪減到粉絲數(shù)<5的用戶信息。預(yù)處理后參照特征去提獲數(shù)據(jù)，構(gòu)建出微博文本數(shù)據(jù)的特征向量[5]。

3）鑒于ImCo-Forest算法在微博謠言檢測領(lǐng)域中表現(xiàn)出的有效性，擬定于WEKA平臺上開展謠言檢測的實(shí)驗(yàn)研究。針對各個數(shù)據(jù)集，通過十折交叉驗(yàn)證進(jìn)行測評，把已標(biāo)注及未標(biāo)注集作為檢測算法的輸入項(xiàng)，對分類器進(jìn)行規(guī)范訓(xùn)練后于測試集上進(jìn)行檢測，獲得真正例、假負(fù)例、假正例及真負(fù)例。

5.2 實(shí)驗(yàn)結(jié)果

比較了不同數(shù)據(jù)已標(biāo)注比例時(shí)不同半監(jiān)督學(xué)習(xí)的性能和ImCo-Forest算法。對比分析后發(fā)現(xiàn)，和其他半監(jiān)督學(xué)習(xí)算法相比較，在已標(biāo)注比例下ImCo-Forest算法的F-measure值和G-mean值更高，這表明ImCo-Forest算法在檢測微博謠言方面優(yōu)越性更大。并且通過讀圖發(fā)現(xiàn)，在已標(biāo)注數(shù)據(jù)占比達(dá)到40%時(shí)Co-Forest算法的性能最優(yōu)，當(dāng)數(shù)據(jù)占比為60%、80%時(shí)算法的性能卻有降低趨勢，這主要是由Co-Forest算法自身的特點(diǎn)決定的，與既往很多研究形成的結(jié)論一致。

為了能進(jìn)一步證實(shí)本文所設(shè)計(jì)的ImCo-Forest算法和現(xiàn)有研究所應(yīng)用的監(jiān)督學(xué)習(xí)算法更占據(jù)優(yōu)勢，本文基于L[?]U，在μ=0%狀態(tài)對應(yīng)的數(shù)據(jù)集上對SVM、Bayes和J48分類器進(jìn)行系統(tǒng)化訓(xùn)練，將他們和已經(jīng)標(biāo)注數(shù)據(jù)比例為10%情景下的ImCo-Forest算法持有的性能進(jìn)行對比分析，選擇了“少女遭毀容”語料，統(tǒng)計(jì)了評價(jià)指標(biāo)，實(shí)驗(yàn)結(jié)果見表1[6]。

對表1內(nèi)的數(shù)據(jù)進(jìn)行比較分析，不難發(fā)現(xiàn)在"少女遭毀容"語料上，ImCo-Forest算法的與F-measure指標(biāo)都較好，提示該種算法在處理非平衡數(shù)據(jù)問題方面和其他算法相比較表現(xiàn)出較好效能。在這里需另外關(guān)注的問題是，SVM算法盡管在整體準(zhǔn)確率指標(biāo)上相對較高，達(dá)到了90.04%，但其G-mean和F-measure指標(biāo)數(shù)值均處于較低的水平，提示該算法對少數(shù)類的辨識性能偏差，說明其不能精準(zhǔn)辨識出微博謠言[7]。

還需要關(guān)注的內(nèi)容是，本次實(shí)驗(yàn)中對選用的三種監(jiān)督學(xué)習(xí)算法均采用了100%完全性標(biāo)注的理想化數(shù)據(jù)集進(jìn)行訓(xùn)練，統(tǒng)計(jì)結(jié)果后發(fā)現(xiàn)，在整體準(zhǔn)確率指標(biāo)上，只有SVM、J48算法比ImCo-Forest更優(yōu)秀，提示為了獲得相對較高的總體準(zhǔn)確率，和ImCo-Forest算法相比較，其他算法需要數(shù)目更龐大的標(biāo)注數(shù)據(jù)，這在很大程度上削弱了其在現(xiàn)實(shí)運(yùn)用領(lǐng)域中的可執(zhí)行性。

6 結(jié)束語

綜合分析以上實(shí)驗(yàn)過程產(chǎn)出的結(jié)果，可以認(rèn)定ImCo-Forest算法能在標(biāo)注數(shù)據(jù)少量的情景下，較好的檢測出謠言，這樣便能在微博謠言辨識階段明顯減少數(shù)據(jù)標(biāo)注過程中付出的代價(jià)。但是回顧研究歷程，筆者自知還存在著一定不足，比如沒有考慮到微博文本語義等因素形成的影響，故而后續(xù)工作中應(yīng)重視專研分析語義特征、傳播過程中用戶主體行為對信息可信度形成的影響，參照語義技術(shù)拓展對微博文本特征挖掘的深度性，借此方式進(jìn)一步提升半監(jiān)督學(xué)習(xí)算法在檢測微博謠言方面的精準(zhǔn)度，將自身價(jià)值發(fā)揮到最大化。

參考文獻(xiàn)：

[1] 劉彤，魏靜，倪維健，等.基于半監(jiān)督學(xué)習(xí)與CRF的應(yīng)急預(yù)案命名實(shí)體識別[J].軟件導(dǎo)刊，2020，19（3）：35-38.

[2] 馮雨庭，張錦，肖斌.基于半監(jiān)督SVM的交通方式特征分析和識別[J].綜合運(yùn)輸，2019，41（9）：57-63.

[3] 金志剛，楊洋.基于用戶關(guān)聯(lián)度的半監(jiān)督情感分析模型[J].哈爾濱工業(yè)大學(xué)學(xué)報(bào)，2019，51（5）：50-56.

[4] 董哲瑾，王健，錢凌飛，等.一種用戶成長性畫像的建模方法[J].山東大學(xué)學(xué)報(bào)（理學(xué)版），2019，54（3）：38-45.

[5] 陳珂，黎樹俊，謝博.基于半監(jiān)督學(xué)習(xí)的微博情感分析[J].計(jì)算機(jī)與數(shù)字工程，2018，46（9）：1850-1855.

[6] 李澤魁，李雪婷，趙妍妍.中文微博熱點(diǎn)事件情感分布的原因分析[J].中文信息學(xué)報(bào)，2018，32（1）：131-138.

[7] 劉桂鋒，汪滿容，劉海軍.基于概率超圖半監(jiān)督學(xué)習(xí)的專利文本分類方法研究[J].情報(bào)雜志，2016，35（9）：187-191，173.

【通聯(lián)編輯：謝媛媛】

電腦知識與技術(shù)2021年15期

電腦知識與技術(shù)的其它文章: 基于迭代SVD的電影推薦算法的研究; NURBS曲面細(xì)分建模技術(shù)的研究與應(yīng)用; 基于NB-IoT的農(nóng)作物種植測控系統(tǒng)的研究; 思維導(dǎo)圖在醫(yī)藥數(shù)理統(tǒng)計(jì)知識框架中的應(yīng)用; 圖像超分辨率重建技術(shù)研究綜述; 大數(shù)據(jù)背景下智慧校園平臺的設(shè)計(jì)與實(shí)現(xiàn)研究

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

半監(jiān)督學(xué)習(xí)的微博謠言檢測分析