国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

半監(jiān)督學(xué)習(xí)的微博謠言檢測分析

2021-07-19 09:37陳耿黃取治
電腦知識與技術(shù) 2021年15期

陳耿 黃取治

摘要:謠言檢測是社交網(wǎng)絡(luò)謠言研究、監(jiān)測及整治的基礎(chǔ),其實(shí)施情況得到社會的廣泛關(guān)注,相伴隨的是微博謠言辨識的研究工作不斷增多。該文把微博謠言作為研究對象,搭建了微博謠言的檢測框架,其主要是由獲取數(shù)據(jù)、處理數(shù)據(jù)及謠言檢測三大步驟構(gòu)成,基于實(shí)驗(yàn)研究過程,對比了差異化數(shù)據(jù)已標(biāo)注比例時(shí)不同半監(jiān)督學(xué)習(xí)的性能和ImCo-Forest算法之間的差異,發(fā)現(xiàn)ImCo-Forest在謠言檢測方面更占優(yōu)勢。希望能和同行共同分享方法與經(jīng)驗(yàn),以期進(jìn)一步完善微博謠言檢測工作。

關(guān)鍵詞:微博謠言;半監(jiān)督學(xué)習(xí);ImCo-Forest算法;謠言檢測系統(tǒng)

中圖分類號:TP311? ? ? 文獻(xiàn)標(biāo)識碼:A

文章編號:1009-3044(2021)15-0012-02

1 背景

微博憑借自身在即時(shí)性、匿名性、廣泛性等方面占據(jù)的優(yōu)勢,從根本上扭轉(zhuǎn)了傳統(tǒng)媒介下信息傳播的樣態(tài),塑造了去中心化的傳播局勢,成為傳播社會輿論的新載體。

微博平臺上每次只能發(fā)布長度為140字符的文字信息,其不具有完整闡述事實(shí)的功能,外加微博用戶的草根性,使微博逐漸成為聚集、散播謠言的載體,頻繁轉(zhuǎn)播、評論虛假信息,不斷拓展負(fù)面影響的范圍,使用用戶主觀上生成強(qiáng)烈的“信任危機(jī)感”,不利于社會的和諧、平穩(wěn)發(fā)展。謠言檢測隸屬于網(wǎng)絡(luò)信息可信度研究的范圍,微博謠言檢測能凈化微博平臺環(huán)境,引導(dǎo)平臺健康運(yùn)作發(fā)展,創(chuàng)造出更大的效益。

2 背景分析

微博是現(xiàn)代生活中的一種常用社交網(wǎng)絡(luò)平臺,廣大用戶可以利用瀏覽器、智能手機(jī)及他類智能聯(lián)網(wǎng)的客戶端傳送信息,進(jìn)而達(dá)到分享即時(shí)信息的目的。謠言是作為一種特別的語言現(xiàn)象,長期以來是人們關(guān)注與研究的熱點(diǎn)之一。伴隨新媒體網(wǎng)絡(luò)的蓬勃發(fā)展,網(wǎng)絡(luò)謠言隨之產(chǎn)生與流傳,在社會上形成較大的影響。近些年中,因微博謠言泛濫引起的危害,使各級政府及學(xué)術(shù)領(lǐng)域?qū)Υ私o予高度重視,為對虛假話題傳播過程形成抑制,我國政府頒發(fā)了相應(yīng)的懲處法規(guī),針對網(wǎng)絡(luò)謠言制造及傳播者,公安機(jī)關(guān)加大了打擊力度。以上這些治理措施的實(shí)施,對維持微博傳播秩序有很大助益,明顯減少了微博謠言。通過觀察謠言數(shù)據(jù),不難發(fā)現(xiàn)微博內(nèi)的謠言數(shù)目明顯少于非謠言,精準(zhǔn)辨識謠言具有很大現(xiàn)實(shí)意義。

3 ImCo-Forest算法

Co-Forest是聚集了集成學(xué)習(xí)算法的一種算法類型,其不僅能處理協(xié)同訓(xùn)練算法中噪聲數(shù)據(jù)引進(jìn)相關(guān)問題,還通過加強(qiáng)不同分類器之間的合作,對那些價(jià)值較高且無標(biāo)記數(shù)據(jù)的預(yù)測工作發(fā)出了挑戰(zhàn),強(qiáng)化了集成學(xué)習(xí)算法的分類功能。

半監(jiān)督學(xué)習(xí)算法ImCo-Forest就是以Co-Forest算法為基礎(chǔ)提出的,應(yīng)用該算法的目的需要是通過優(yōu)化集中訓(xùn)練中少數(shù)類的分布狀態(tài),將偏高的誤分類代價(jià)賦予部分感興趣的少數(shù)類,進(jìn)而強(qiáng)化分類器的辨識能力。假定用[L={(x1,y1),……(xl,yc)}]去表示已標(biāo)注的數(shù)據(jù),[yl∈{1,……c}],[U={(x1,yu),……(xj,yu)}]表示沒有標(biāo)注數(shù)據(jù),且有l(wèi)

該算法應(yīng)用階段,針對添加的新標(biāo)記數(shù)據(jù)的數(shù)據(jù)集,應(yīng)用了以正負(fù)類為基礎(chǔ)形成的分層抽樣法進(jìn)行抽樣操作,借此方式使類別平衡性得到更大保障,規(guī)避了由于樣本選擇不恰當(dāng)而引起的分類性能逐漸惡化的問題。

4 檢測框架

從宏觀層面上,可以將微博謠言檢測細(xì)化為數(shù)據(jù)獲得、數(shù)據(jù)處置及謠言檢測三步驟,本文搭建的微博謠言檢測框架見圖1所示[2]。

4.1 數(shù)據(jù)獲得

參照新浪微博官方對外發(fā)布的數(shù)據(jù),到2017年年末時(shí),新浪微博月活躍、日活躍用戶分別是3.92億、1.65億,為現(xiàn)階段國內(nèi)應(yīng)用用戶數(shù)目最多、社會影響力最大的微博平臺類型。本課題選擇新浪微博作為研究對象去分析謠言檢測相關(guān)問題。通過觀察新浪微博的信息結(jié)構(gòu),不難發(fā)現(xiàn)用戶個人信息、微博文案及傳播信息是一條微博的主要構(gòu)成。獲得數(shù)據(jù)是謠言檢測的基礎(chǔ),以新浪API為基礎(chǔ)的數(shù)據(jù)獲取方法是常用手段之一,流程可以做出如下概述:首先,創(chuàng)建賬號與運(yùn)用獲得研發(fā)者身份,能獲取專屬型的App Key與App Secret;其次,開發(fā)者將授權(quán)請求傳送到授權(quán)地址,基于OAuth2.0認(rèn)證過程誘導(dǎo)Request Token授權(quán)返回過程,在確認(rèn)授權(quán)成功以后,開發(fā)者再獲得Access Token;最后,調(diào)取使用接口,便能順利地獲取到JOSN數(shù)據(jù)流或XML文件,系統(tǒng)化分析后便預(yù)示著微博數(shù)據(jù)采集工作結(jié)束。利用該種方法采集數(shù)據(jù)有研發(fā)代價(jià)偏低、便于達(dá)成等優(yōu)點(diǎn),但官方設(shè)定的數(shù)據(jù)獲取頻次與方式會對其形成一定約束,很難保證謠言數(shù)據(jù)獲取的有效性、整體性。而相比之下,基于微博爬蟲獲取數(shù)據(jù)的方法在應(yīng)用階段,能基于網(wǎng)絡(luò)抓包工具能構(gòu)建數(shù)據(jù)請求過程與各請求URL之間的關(guān)系,獲得kie并建立session,實(shí)現(xiàn)模擬登陸,利用HTTP協(xié)議、GET方法去采集與分析數(shù)據(jù)。

4.2 數(shù)據(jù)處置

謠言檢測的宗旨在于從批量化的微博消息內(nèi),基于分類算法對其作出合理判斷。處理數(shù)據(jù)是計(jì)算機(jī)“理解”數(shù)據(jù)的前提,這樣方能精準(zhǔn)辨別出微博謠言。本文把微博文本表示為向量這些適用于機(jī)器學(xué)習(xí)算法處理的數(shù)據(jù)[3]。1)過濾噪聲:去噪的目的以解除無用數(shù)據(jù)為主,這是提升后期檢測工效的基礎(chǔ),具體是當(dāng)微博用戶的粉絲數(shù)目在給定閾值之下時(shí),就將其微博數(shù)據(jù)刪除。2)分詞:從本質(zhì)上分析,對微博文本進(jìn)行分類就是細(xì)化短文本的所屬類型,對文本進(jìn)行分詞操作這是預(yù)處理階段需落實(shí)的第一要務(wù),當(dāng)下可供選擇的分詞方法較多,比如由統(tǒng)計(jì)學(xué)習(xí)形成的,或者以人工智能為基礎(chǔ)形成的分詞法等,合理使用如上方法,能將連貫的字符串序列轉(zhuǎn)變成組合式的成詞序列,并化繁為簡,獲得簡單容易處理、向量化的文本數(shù)據(jù)。3)表示向量:即參照一定的特征項(xiàng),把微博文案信息轉(zhuǎn)變成特征性向量的方法,當(dāng)前在該環(huán)節(jié)中多采用空間向量模型(VSM),其應(yīng)用思想可以做出如下表述:將文本視為無序詞與其相對應(yīng)權(quán)重的集合體,統(tǒng)一映射至高維空間內(nèi),具體操作是把文案內(nèi)的各詞項(xiàng)作為唯一屬性用t1表示,測算出文檔內(nèi)各詞項(xiàng)的重要程度進(jìn)而獲取到權(quán)重W1,那么便可以將一個文檔表示成例如(t1,W1;t2,W2;……tn,Wn)的向量形式,而后通過測算文本相似度去對不同內(nèi)容之間的相關(guān)性作出科學(xué)判斷。

4.3 選擇微博特征

這是謠言檢測過程中的關(guān)鍵一環(huán),影響著檢測效果,當(dāng)下國內(nèi)外針對微博謠言檢測的研究主要聚集在選擇分類特征方面。也有人員通過系統(tǒng)分析與科學(xué)實(shí)驗(yàn)過程獲取到文本的基本特征,即內(nèi)容特征、用戶屬性信息與傳播特征,希望據(jù)此能提升微博謠言檢測效率,本文以此為基礎(chǔ),從多個維度分析微博謠言的特點(diǎn),構(gòu)建出用于檢測微博謠言的特征向量集合[4]。1)內(nèi)容特征:是微博消息內(nèi)的統(tǒng)計(jì)特征,可以將其看成是微博內(nèi)容的延展信息或不同用戶交流中形成的信息,影響著文本的可信度。2)用戶特征:由是否認(rèn)證、注冊時(shí)間、微博數(shù)等構(gòu)成,其呈現(xiàn)出的是廣大微博用戶自身的權(quán)威性與影響力。3)傳播特征:看中的主要是用戶上傳的文本信息的轉(zhuǎn)發(fā)及評論數(shù),這種特征主要是能表現(xiàn)出該用戶對其他網(wǎng)絡(luò)用戶產(chǎn)生的影響力。

5 實(shí)證檢驗(yàn)

5.1 實(shí)驗(yàn)步驟

1)獲取和標(biāo)注數(shù)據(jù):把官方的辟謠信息及網(wǎng)絡(luò)材料作為憑據(jù),選擇5895條微博并進(jìn)行人工標(biāo)注處理。

2)提獲特征:在該操作之前需要對獲得的微博數(shù)據(jù)進(jìn)行預(yù)處理,宗旨在于盡量解除噪聲數(shù)據(jù),將無用數(shù)據(jù)對后續(xù)檢測工作形成的負(fù)面影響降至最低。具體是刪減到粉絲數(shù)<5的用戶信息。預(yù)處理后參照特征去提獲數(shù)據(jù),構(gòu)建出微博文本數(shù)據(jù)的特征向量[5]。

3)鑒于ImCo-Forest算法在微博謠言檢測領(lǐng)域中表現(xiàn)出的有效性,擬定于WEKA平臺上開展謠言檢測的實(shí)驗(yàn)研究。針對各個數(shù)據(jù)集,通過十折交叉驗(yàn)證進(jìn)行測評,把已標(biāo)注及未標(biāo)注集作為檢測算法的輸入項(xiàng),對分類器進(jìn)行規(guī)范訓(xùn)練后于測試集上進(jìn)行檢測,獲得真正例、假負(fù)例、假正例及真負(fù)例。

5.2 實(shí)驗(yàn)結(jié)果

比較了不同數(shù)據(jù)已標(biāo)注比例時(shí)不同半監(jiān)督學(xué)習(xí)的性能和ImCo-Forest算法。對比分析后發(fā)現(xiàn),和其他半監(jiān)督學(xué)習(xí)算法相比較,在已標(biāo)注比例下ImCo-Forest算法的F-measure值和G-mean值更高,這表明ImCo-Forest算法在檢測微博謠言方面優(yōu)越性更大。并且通過讀圖發(fā)現(xiàn),在已標(biāo)注數(shù)據(jù)占比達(dá)到40%時(shí)Co-Forest算法的性能最優(yōu),當(dāng)數(shù)據(jù)占比為60%、80%時(shí)算法的性能卻有降低趨勢,這主要是由Co-Forest算法自身的特點(diǎn)決定的,與既往很多研究形成的結(jié)論一致。

為了能進(jìn)一步證實(shí)本文所設(shè)計(jì)的ImCo-Forest算法和現(xiàn)有研究所應(yīng)用的監(jiān)督學(xué)習(xí)算法更占據(jù)優(yōu)勢,本文基于L[?]U,在μ=0%狀態(tài)對應(yīng)的數(shù)據(jù)集上對SVM、Bayes和J48分類器進(jìn)行系統(tǒng)化訓(xùn)練,將他們和已經(jīng)標(biāo)注數(shù)據(jù)比例為10%情景下的ImCo-Forest算法持有的性能進(jìn)行對比分析,選擇了“少女遭毀容”語料,統(tǒng)計(jì)了評價(jià)指標(biāo),實(shí)驗(yàn)結(jié)果見表1[6]。

對表1內(nèi)的數(shù)據(jù)進(jìn)行比較分析,不難發(fā)現(xiàn)在"少女遭毀容"語料上,ImCo-Forest算法的與F-measure指標(biāo)都較好,提示該種算法在處理非平衡數(shù)據(jù)問題方面和其他算法相比較表現(xiàn)出較好效能。在這里需另外關(guān)注的問題是,SVM算法盡管在整體準(zhǔn)確率指標(biāo)上相對較高,達(dá)到了90.04%,但其G-mean和F-measure指標(biāo)數(shù)值均處于較低的水平,提示該算法對少數(shù)類的辨識性能偏差,說明其不能精準(zhǔn)辨識出微博謠言[7]。

還需要關(guān)注的內(nèi)容是,本次實(shí)驗(yàn)中對選用的三種監(jiān)督學(xué)習(xí)算法均采用了100%完全性標(biāo)注的理想化數(shù)據(jù)集進(jìn)行訓(xùn)練,統(tǒng)計(jì)結(jié)果后發(fā)現(xiàn),在整體準(zhǔn)確率指標(biāo)上,只有SVM、J48算法比ImCo-Forest更優(yōu)秀,提示為了獲得相對較高的總體準(zhǔn)確率,和ImCo-Forest算法相比較,其他算法需要數(shù)目更龐大的標(biāo)注數(shù)據(jù),這在很大程度上削弱了其在現(xiàn)實(shí)運(yùn)用領(lǐng)域中的可執(zhí)行性。

6 結(jié)束語

綜合分析以上實(shí)驗(yàn)過程產(chǎn)出的結(jié)果,可以認(rèn)定ImCo-Forest算法能在標(biāo)注數(shù)據(jù)少量的情景下,較好的檢測出謠言,這樣便能在微博謠言辨識階段明顯減少數(shù)據(jù)標(biāo)注過程中付出的代價(jià)。但是回顧研究歷程,筆者自知還存在著一定不足,比如沒有考慮到微博文本語義等因素形成的影響,故而后續(xù)工作中應(yīng)重視專研分析語義特征、傳播過程中用戶主體行為對信息可信度形成的影響,參照語義技術(shù)拓展對微博文本特征挖掘的深度性,借此方式進(jìn)一步提升半監(jiān)督學(xué)習(xí)算法在檢測微博謠言方面的精準(zhǔn)度,將自身價(jià)值發(fā)揮到最大化。

參考文獻(xiàn):

[1] 劉彤,魏靜,倪維健,等.基于半監(jiān)督學(xué)習(xí)與CRF的應(yīng)急預(yù)案命名實(shí)體識別[J].軟件導(dǎo)刊,2020,19(3):35-38.

[2] 馮雨庭,張錦,肖斌.基于半監(jiān)督SVM的交通方式特征分析和識別[J].綜合運(yùn)輸,2019,41(9):57-63.

[3] 金志剛,楊洋.基于用戶關(guān)聯(lián)度的半監(jiān)督情感分析模型[J].哈爾濱工業(yè)大學(xué)學(xué)報(bào),2019,51(5):50-56.

[4] 董哲瑾,王健,錢凌飛,等.一種用戶成長性畫像的建模方法[J].山東大學(xué)學(xué)報(bào)(理學(xué)版),2019,54(3):38-45.

[5] 陳珂,黎樹俊,謝博.基于半監(jiān)督學(xué)習(xí)的微博情感分析[J].計(jì)算機(jī)與數(shù)字工程,2018,46(9):1850-1855.

[6] 李澤魁,李雪婷,趙妍妍.中文微博熱點(diǎn)事件情感分布的原因分析[J].中文信息學(xué)報(bào),2018,32(1):131-138.

[7] 劉桂鋒,汪滿容,劉海軍.基于概率超圖半監(jiān)督學(xué)習(xí)的專利文本分類方法研究[J].情報(bào)雜志,2016,35(9):187-191,173.

【通聯(lián)編輯:謝媛媛】

仙居县| 韩城市| 通州区| 木里| 修文县| 杭州市| 云南省| 松阳县| 垣曲县| 明溪县| 柳江县| 湟中县| 徐州市| 古田县| 乐平市| 扶余县| 肥西县| 杭州市| 额济纳旗| 建宁县| 宝应县| 车险| 资阳市| 永丰县| 乌鲁木齐县| 元谋县| 滁州市| 曲麻莱县| 莱芜市| 东丰县| 晴隆县| 阿拉善盟| 大英县| 宽城| 准格尔旗| 罗定市| 花莲市| 卓资县| 宜兰县| 盐亭县| 定安县|