徐銘達(dá) 張子柯 許小可
1(大連民族大學(xué)信息與通信工程學(xué)院 遼寧大連 116600)
2(浙江大學(xué)傳媒與國際文化學(xué)院 杭州 310058)
3(杭州師范大學(xué)阿里巴巴復(fù)雜科學(xué)研究中心 杭州 311121)
社交網(wǎng)絡(luò)(social networks)是一種典型的復(fù)雜網(wǎng)絡(luò)[1],它包含了一定范圍內(nèi)人與人之間的聯(lián)系,其中個(gè)人用戶可以抽象為網(wǎng)絡(luò)中的節(jié)點(diǎn),聯(lián)系抽象為節(jié)點(diǎn)間的鏈接[2].在線社交網(wǎng)絡(luò)中,海量信息通過用戶的交互和轉(zhuǎn)發(fā)行為進(jìn)行傳播,社交媒體作為信息傳播的載體,既可以使人們快捷地分享信息流獲取時(shí)事新聞,方便人與人之間的思想交流與信息交互,同時(shí)也可能成為虛假信息泛濫蔓延的重要渠道.
虛假信息中通常充斥著具有誤導(dǎo)性質(zhì)的謠言[3-4],大多數(shù)人在網(wǎng)絡(luò)中面對大量信息往往不能準(zhǔn)確判斷信息的真?zhèn)?,?dǎo)致了虛假信息的廣泛傳播.新浪微博是我國用戶閱讀新聞信息、分享個(gè)人日常的重要平臺,用戶作為信息傳播的生產(chǎn)者與傳播者,不僅可以通過接受信息帶來的影響,也可以通過發(fā)送推文的方式獲得影響.用戶通過在社交媒體散布虛假信息,可能會影響輿論、政治[5-6]、經(jīng)濟(jì)[7]等諸多領(lǐng)域.
虛假信息通常也伴有主觀形式的偏見[8]與情感的煽動性,因此在熱點(diǎn)事件爆發(fā)的同時(shí),往往也是虛假信息醞釀與擴(kuò)散的重要時(shí)機(jī),成為信息傳播中幾乎不可避免的副產(chǎn)品.在信息技術(shù)快速發(fā)展的今天,如何避免大量攝入虛假信息,準(zhǔn)確識別信息源的真實(shí)性,揭示微博信息的傳播重要性度量及虛假信息檢測機(jī)制已然成為復(fù)雜網(wǎng)絡(luò)領(lǐng)域的熱點(diǎn)研究方向.對虛假信息網(wǎng)絡(luò)傳播特性深入挖掘,有助于分析在線社交網(wǎng)絡(luò)中虛假信息的傳播機(jī)制,因此研究虛假信息傳播機(jī)制具有非常重要的科學(xué)意義與實(shí)際應(yīng)用價(jià)值.
本文對社交網(wǎng)絡(luò)中信息傳播結(jié)構(gòu)進(jìn)行定量分析與刻畫,將模體度的概念應(yīng)用于微博社交平臺的虛假信息傳播研究,具有重要的現(xiàn)實(shí)意義,主要貢獻(xiàn)有3個(gè)方面:
1) 提出了廣度模體度和深度模體度的模體度傳播特征概念來量化微博的傳播特性.模體理論可從微觀尺度提取網(wǎng)絡(luò)中重要的局部結(jié)構(gòu)特征,通過廣度模體度與深度模體度構(gòu)建的二維模體度量化指標(biāo),精細(xì)刻畫微博的廣度與深度傳播特性,進(jìn)而分析微博中虛假信息的傳播規(guī)律;
2) 通過將模體度和其他網(wǎng)絡(luò)傳播重要性指標(biāo)的相關(guān)性分析,表明基于模體度的網(wǎng)絡(luò)傳播重要性計(jì)算是對傳統(tǒng)網(wǎng)絡(luò)結(jié)構(gòu)指標(biāo)中傳播規(guī)模與傳播深度指標(biāo)的進(jìn)一步拓展,相較于結(jié)構(gòu)性病毒特征更全面地測度了網(wǎng)絡(luò)結(jié)構(gòu)的復(fù)雜性和傳播模型的多維度重要性;
3) 模體度重要性指標(biāo)可揭示微博網(wǎng)絡(luò)中虛假信息傳播模式,信息傳播是由廣度傳播與深度傳播共同作用,深度模體度主要影響虛假信息傳播的網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜性,廣度模體度在真實(shí)信息傳播中起主導(dǎo)作用.相對于傳統(tǒng)網(wǎng)絡(luò)結(jié)構(gòu)特征的虛假信息檢測方法,基于模體度結(jié)構(gòu)特征的虛假信息檢測算法具有更高的準(zhǔn)確性.
廣度和深度模體度可應(yīng)用于的虛假信息傳播機(jī)制分析與檢測、遏制虛假信息的早期傳播以及虛假信息傳播規(guī)模預(yù)測等實(shí)際場景中.
虛假信息傳播通常作為熱點(diǎn)事件傳播的附加產(chǎn)物,在不確定、焦慮性和輕信性的共同作用下出現(xiàn)[9].虛假信息表現(xiàn)出比在線真實(shí)信息更具有病毒特征[4],研究證明虛假信息傳播網(wǎng)絡(luò)具有獨(dú)特的結(jié)構(gòu)特征,例如,虛假信息具有長穿透直徑傳播模式,且該模式不受限于多種社交平臺[10-11].虛假信息所帶來的“負(fù)偏見”在無形中可能導(dǎo)致虛假信息的后期傳播,從而表現(xiàn)出與真實(shí)信息傳播本質(zhì)上的不同.傳統(tǒng)的研究中,新聞信息的傳播與社交平臺賬號的朋友數(shù)量和粉絲數(shù)量相關(guān).然而,無論發(fā)布信息作者是人類還是機(jī)器人用戶,由于用戶特征對真實(shí)信息的傳播具有較大影響,因此僅從用戶特征的角度無法充分解釋虛假信息更易傳播的事實(shí)[12].
現(xiàn)有的虛假信息檢測研究多基于機(jī)器學(xué)習(xí)或深度學(xué)習(xí)的相關(guān)算法,如基于用戶對于微博新聞觀點(diǎn)的謠言檢測算法以及基于微博新聞文本的情感分類算法.Liu等人提出了一種通過對信息傳播路徑進(jìn)行分類在社交媒體上早期檢測虛假信息的模型[13];Jin等人基于傳播行為建模,對虛假信息的傳播游走軌跡跟蹤,以及通過圖模型和演化模型中針對特定虛假信息的進(jìn)一步調(diào)查,最終發(fā)現(xiàn)識別虛假信息的關(guān)鍵傳播者,對于減輕社交媒體的傳播范圍至關(guān)重要[14];Chuai等人根據(jù)在線傳播信息時(shí)的情緒因素,采取在社交媒體上標(biāo)記情感的措施,從源頭上減緩或防止虛假信息傳播[15];Ma等人提出基于RNN的謠言檢測模型,性能優(yōu)于手動尋找特征的謠言監(jiān)測模型,速度與準(zhǔn)確性均領(lǐng)先于現(xiàn)有的在線謠言揭穿服務(wù)[16];也有學(xué)者Liu等人通過提取信息推文中圖片內(nèi)嵌文本內(nèi)容的方法,提出了基于深度神經(jīng)網(wǎng)絡(luò)的多模態(tài)網(wǎng)絡(luò)謠言檢測的方法[17].
基于黑盒的機(jī)器學(xué)習(xí)算法,雖然通常具有較高的識別準(zhǔn)確率,但往往僅使用虛假信息的網(wǎng)絡(luò)結(jié)構(gòu)特征來提高識別虛假信息的可能性,而忽略了與真實(shí)信息網(wǎng)絡(luò)結(jié)構(gòu)的對比.從復(fù)雜網(wǎng)絡(luò)的角度看待虛假信息檢測是基于網(wǎng)絡(luò)結(jié)構(gòu)特征,通過信息轉(zhuǎn)發(fā)情況可以構(gòu)建完整的級聯(lián)網(wǎng)絡(luò)結(jié)構(gòu),計(jì)算得到復(fù)雜網(wǎng)絡(luò)中的多種拓?fù)浣y(tǒng)計(jì)量,如傳播的深度和廣度、傳播的速率和擴(kuò)散率、傳播的規(guī)模和級聯(lián)率等特性都可以作為基于網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)的信息重要性度量指標(biāo).虛假信息網(wǎng)絡(luò)通常具有鮮明的結(jié)構(gòu)特征,Goel等人提出了一種計(jì)算所有節(jié)點(diǎn)間的平均距離算法的結(jié)構(gòu)性病毒式傳播特征,該方法通過引入病毒性傳播特征,來解解釋Twitter網(wǎng)絡(luò)中信息具有病毒式傳播這一現(xiàn)象[18].Zhao等人提出網(wǎng)絡(luò)異質(zhì)性、網(wǎng)絡(luò)層級比率、平均距離等指標(biāo),能夠在早期階段高效、準(zhǔn)確地識別虛假信息的信號,有助于防止虛假信息對現(xiàn)代社會的負(fù)面影響,并且發(fā)現(xiàn)了虛假信息可以多顆星型網(wǎng)絡(luò)的形式傳播,而真實(shí)信息通常具有高耦合性且圍繞一個(gè)信息來源進(jìn)行廣播傳播[19].
在復(fù)雜網(wǎng)絡(luò)領(lǐng)域中,模體是一種網(wǎng)絡(luò)子圖[20],通常由少數(shù)幾個(gè)節(jié)點(diǎn)組合連接構(gòu)成,這些模體被定義為網(wǎng)絡(luò)中發(fā)生頻率較高的節(jié)點(diǎn)交互子圖,用以研究在時(shí)間級聯(lián)拓?fù)浣Y(jié)構(gòu)中節(jié)點(diǎn)之間的交互模式.基于模體的復(fù)雜網(wǎng)絡(luò)研究能夠揭示網(wǎng)絡(luò)的結(jié)構(gòu)演化和功能特性,被廣泛應(yīng)用于節(jié)點(diǎn)重要性、鏈路預(yù)測等相關(guān)研究中.模體分析除了有助于深入理解復(fù)雜網(wǎng)絡(luò)的局部結(jié)構(gòu)和功能[21],也可以從微觀的角度來探索社交網(wǎng)絡(luò)的信息傳播模式.Sarkar等人使用模體來描述社交網(wǎng)絡(luò)的擴(kuò)散過程及級聯(lián)生命周期,并通過對模體的組合對未來短期的網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行了預(yù)測[22].然而,雖然已有實(shí)驗(yàn)探索了社交網(wǎng)絡(luò)和信息內(nèi)容的結(jié)合,但很少有研究涉及基于模體的虛假信息傳播機(jī)制與真實(shí)信息的異同,因此從社交網(wǎng)絡(luò)的模體結(jié)構(gòu)作為出發(fā)點(diǎn),在揭示社交網(wǎng)絡(luò)的虛假信息傳播機(jī)制,探索影響虛假信息檢測精度等方向?qū)⒕哂袑?shí)際應(yīng)用前景.
廣度傳播和深度傳播的概念源自信息轉(zhuǎn)推網(wǎng)絡(luò)中的2種主要但獨(dú)特的信息傳播模式.首先,廣度傳播是指大量個(gè)人直接從同一社交媒體用戶接收信息,信息源經(jīng)過意見領(lǐng)袖廣播發(fā)送到大量受眾,因此其擴(kuò)散模式類似星型網(wǎng)絡(luò).由于原始用戶的信息大量轉(zhuǎn)發(fā),該信息迅速傳播.這個(gè)過程是一個(gè)“一對多”過程,社交媒體用戶會圍繞一個(gè)話題迅速傳播來影響大眾的觀點(diǎn)和行為[23].社交媒體上的第二種傳播方式是深度傳播.深度傳播具有病毒性,其傳播形式具有傳染機(jī)制,即信息通過多代和多分支向更縱深的方向擴(kuò)散[24],深度傳播的典型特征體現(xiàn)在內(nèi)容通過人與人之間“一對一”的影響而后達(dá)到了流行,其傳播往往依靠人與人之間的鏈?zhǔn)礁腥?,傳播鏈條會更趨向于增加結(jié)構(gòu)的復(fù)雜性而不是擴(kuò)大廣播形式.
以往研究中往往側(cè)重于將單個(gè)節(jié)點(diǎn)作為信息傳播過程的影響因素[25],而忽略了多節(jié)點(diǎn)同時(shí)產(chǎn)生的潛在影響.本文根據(jù)每個(gè)節(jié)點(diǎn)所構(gòu)建的廣度傳播模體與深度傳播模體,計(jì)算傳播網(wǎng)絡(luò)中所構(gòu)成2類模體的數(shù)量和,將其作為網(wǎng)絡(luò)廣度傳播特性與深度傳播特性的度量,定義模體度這一網(wǎng)絡(luò)結(jié)構(gòu)特性來度量網(wǎng)絡(luò)的廣度傳播與深度傳播特性.本文為了能夠準(zhǔn)確地刻畫上述2種方式的傳播特點(diǎn),分別基于2種模體識別算法[26]的定向無環(huán)三節(jié)點(diǎn)模體,定義了廣度傳播模體與深度傳播模體結(jié)構(gòu).本研究選取2種三節(jié)點(diǎn)模體基本結(jié)構(gòu)如圖1所示:
Fig. 1 Motif structure of breadth and depth diffusion圖1 廣度傳播模體結(jié)構(gòu)與深度傳播模體結(jié)構(gòu)
圖1的2類模體中,圖1(a)中節(jié)點(diǎn)S作為信息源,將信息廣播至節(jié)點(diǎn)T1與T2,此時(shí)S作為網(wǎng)絡(luò)中的上級節(jié)點(diǎn),T1,T2為轉(zhuǎn)發(fā)節(jié)點(diǎn),而在下一級傳播中,T1,T2可能作為上級節(jié)點(diǎn)進(jìn)行信息的再傳播.圖1(b)中信息傳播遵循鏈?zhǔn)絺鞑ヌ卣鳎耙粚σ弧钡膶蛹墏鬟f使網(wǎng)絡(luò)向縱深方向發(fā)展.在線社交網(wǎng)絡(luò)中,廣度和深度傳播往往是共同存在的,因此我們基于這2類傳播,提出了模體度的符號定義和解釋.
定義1.廣度模體度(breadth motif degree,BM).廣度模體度是反映了信息傳播過程中的廣播效應(yīng),是星型網(wǎng)絡(luò)結(jié)構(gòu)的主要構(gòu)成成分.典型擴(kuò)散傳播特征是由于單個(gè)有影響力的節(jié)點(diǎn)i所致,由節(jié)點(diǎn)i所能產(chǎn)生的廣度傳播模體數(shù)量即為節(jié)點(diǎn)廣度模體度bmi,而網(wǎng)絡(luò)中所包含的節(jié)點(diǎn)總數(shù)n對應(yīng)的節(jié)點(diǎn)廣度模體度bmi之和為該網(wǎng)絡(luò)的廣度模體度BM,廣度模體度的取值范圍為BM∈[0,(n-1)*(n-2)/2],當(dāng)BM取極大值時(shí)網(wǎng)絡(luò)結(jié)構(gòu)為深度為1的完全星型拓?fù)浣Y(jié)構(gòu).
(1)
定義2.深度模體度(depth motif degree,DM).深度模體度反映了信息傳播過程中的深度傳播效應(yīng),其中節(jié)點(diǎn)僅直接影響相鄰的分支,深度傳播模體將信息傳播至網(wǎng)絡(luò)的更深層,使網(wǎng)絡(luò)結(jié)構(gòu)的塑造更趨于復(fù)雜,節(jié)點(diǎn)間的距離更長.同樣的,由節(jié)點(diǎn)i所能產(chǎn)生的深度傳播模體數(shù)量即為節(jié)點(diǎn)深度模體度dmi,節(jié)點(diǎn)總數(shù)n對應(yīng)的節(jié)點(diǎn)深度模體度dmi之和為該網(wǎng)絡(luò)的深度模體度DM,取值范圍為DM∈[0,n-2],DM取極大值時(shí)有2種情況:1)網(wǎng)絡(luò)完全為鏈?zhǔn)浇Y(jié)構(gòu)網(wǎng)絡(luò);2)根節(jié)點(diǎn)只發(fā)生一次轉(zhuǎn)發(fā),而其子節(jié)點(diǎn)只進(jìn)行信息的廣度傳播.
(2)
網(wǎng)絡(luò)的廣度模體度與深度模體度是傳播網(wǎng)絡(luò)的全局結(jié)構(gòu)特性,該指標(biāo)忽略了網(wǎng)絡(luò)中節(jié)點(diǎn)本身的屬性差異,只考察整個(gè)傳播網(wǎng)絡(luò)的宏觀特征.
本節(jié)將重點(diǎn)描述模體度的計(jì)算過程.首先構(gòu)建轉(zhuǎn)發(fā)關(guān)系數(shù)據(jù)集,該數(shù)據(jù)集包括源節(jié)點(diǎn)S以及目的節(jié)點(diǎn)T,然后讀取數(shù)據(jù)構(gòu)建單條微博級聯(lián)的傳播結(jié)構(gòu),對每個(gè)網(wǎng)絡(luò)結(jié)構(gòu),遍歷其包含的節(jié)點(diǎn),計(jì)算以每個(gè)節(jié)點(diǎn)為源節(jié)點(diǎn)能夠構(gòu)成的2類有向模體數(shù)量,將其記為節(jié)點(diǎn)模體度,最后將所有節(jié)點(diǎn)模體度進(jìn)行求和得到網(wǎng)絡(luò)的廣度與深度模體度.模體度算法具體流程如算法1所示:
算法1.模體度算法(G).
輸入:網(wǎng)絡(luò)G;
輸出:網(wǎng)絡(luò)廣度模體度BM、深度模體度DM.
①bm←?,dm←?;
/*初始化節(jié)點(diǎn)模體度儲存列表*/
② for all (v∈G.nodes) do
③node_list←?,node_i←?;
/*初始化節(jié)點(diǎn)存儲列表*/
④ if (v.successors≠?) then
⑤node_list.push(v.successors);
⑥bm.push(len(node_list)*len(node_list)-1)/2);/*計(jì)算每個(gè)節(jié)點(diǎn)的廣度模體度*/
⑦ for all(node_j∈node_list) do
⑧ if (node_j.successors≠?) then
⑨node_i.push(node_j.successors);
⑩ end if
/*計(jì)算每個(gè)節(jié)點(diǎn)的深度模體度*/
本研究使用Ma等人收集的基于事件的微博公開數(shù)據(jù)集[16],該數(shù)據(jù)集收集了虛假謠言和真實(shí)信息的轉(zhuǎn)發(fā)傳播數(shù)據(jù).合計(jì)為4 664個(gè)微博事件源微博的完整轉(zhuǎn)發(fā)數(shù)據(jù),其中包括2 313條虛假信息微博,2 351條真實(shí)信息微博,涉及到2 746 818個(gè)用戶節(jié)點(diǎn)、3 805 656次微博轉(zhuǎn)發(fā).虛假信息來自微博官方網(wǎng)站,如果微博的源用戶所報(bào)道信息為虛假信息,則該微博即視為虛假信息.該數(shù)據(jù)集包括源微博id、微博上級用戶id、微博轉(zhuǎn)發(fā)用戶id、微博發(fā)布與轉(zhuǎn)發(fā)時(shí)間、以及微博文本內(nèi)容等信息.為了創(chuàng)建級聯(lián)轉(zhuǎn)發(fā)網(wǎng)絡(luò),選擇微博用戶作為網(wǎng)絡(luò)節(jié)點(diǎn),去除2個(gè)節(jié)點(diǎn)間的重復(fù)連邊只保留一次有效轉(zhuǎn)發(fā).根據(jù)用戶間的轉(zhuǎn)發(fā)行為構(gòu)成了鏈?zhǔn)絺鞑リP(guān)系,首先提取2類數(shù)據(jù),以獲取虛假信息和真實(shí)信息的各種特征:
1) 微博上級用戶.信息傳播的父節(jié)點(diǎn),與轉(zhuǎn)發(fā)用戶為傳遞關(guān)系,同時(shí)在網(wǎng)絡(luò)中也標(biāo)記了根源用戶節(jié)點(diǎn),該節(jié)點(diǎn)為信息散布的最初節(jié)點(diǎn).
2) 微博轉(zhuǎn)發(fā)用戶.定向轉(zhuǎn)發(fā)上級微博信息的唯一用戶節(jié)點(diǎn),轉(zhuǎn)發(fā)用戶具有傳播信息、擴(kuò)大源微博影響力的功能.
我們發(fā)現(xiàn),由于個(gè)別微博涉及用戶節(jié)點(diǎn)數(shù)量級龐大,傳播時(shí)間較長,少數(shù)熱點(diǎn)事件的源微博傳播時(shí)間達(dá)到了2~4年,類似這種極值在信息傳播過程中具有特殊性,其復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)會對數(shù)值計(jì)算以及整體分布會造成較大影響.而對一定范圍內(nèi)的數(shù)據(jù)樣本進(jìn)行采樣將具有代表性,本文也將僅討論在相同傳播范圍內(nèi)的微博網(wǎng)絡(luò)虛假信息傳播特征.
因此,在微博總體的4 664個(gè)事件數(shù)據(jù)中,本文將只研究用戶節(jié)點(diǎn)數(shù)量在2 000以內(nèi)的微博事件樣本,最終使用數(shù)據(jù)集為2 133個(gè)虛假信息微博事件與2 213個(gè)真實(shí)信息微博事件.該樣本數(shù)據(jù)占總體數(shù)據(jù)的93.4%,可以反映在一定傳播范圍內(nèi)的普遍規(guī)律,基本不會對整體數(shù)據(jù)的分析過程造成影響.
定義3.微博傳播深度(depth).假設(shè)微博在傳播過程中形成有向無權(quán)圖,相鄰節(jié)點(diǎn)距離為1,那么從根源用戶節(jié)點(diǎn)到其他節(jié)點(diǎn)的最長距離即為該微博的傳播深度.
定義4.微博傳播規(guī)模(scale).微博的傳播規(guī)模定義為微博傳播網(wǎng)絡(luò)中所有節(jié)點(diǎn)的數(shù)目之和.
定義5.結(jié)構(gòu)性病毒特征(structural virality).該指標(biāo)基于所有節(jié)點(diǎn)間的最短平均距離,其被定義為
(3)
其中,V是所有節(jié)點(diǎn)的集合,d(s,t)表示網(wǎng)絡(luò)中節(jié)點(diǎn)s到節(jié)點(diǎn)t之間的最短路徑長度,n表示網(wǎng)絡(luò)中節(jié)點(diǎn)的數(shù)量.當(dāng)結(jié)構(gòu)性病毒特征趨近于2時(shí),其網(wǎng)絡(luò)結(jié)構(gòu)趨近于完全廣播的星型結(jié)構(gòu).Goel等人提出的結(jié)構(gòu)性病毒傳播特征,主要考察的是傳播機(jī)制導(dǎo)致的網(wǎng)絡(luò)結(jié)構(gòu)特性[18].信息的傳播能力可能不僅取決于傳播規(guī)模,傳播形成的網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜程度也能反映信息的病毒傳播特性,結(jié)構(gòu)性病毒特征可以度量傳播結(jié)構(gòu)的多樣性與復(fù)雜性.
若一條微博的傳播方式屬于廣度傳播,通常這條微博的擴(kuò)散深度較低.如果該微博的傳播具有深度傳播特性,該信息經(jīng)過多級轉(zhuǎn)發(fā),那么該信息就具有較大的傳播深度.為了探索微博網(wǎng)絡(luò)的模體度指標(biāo)的傳播特性,本文計(jì)算并使用每條微博的傳播深度、傳播規(guī)模、結(jié)構(gòu)性病毒特征等指標(biāo)構(gòu)建了每個(gè)微博事件傳播網(wǎng)絡(luò)的度量,并將這些指標(biāo)與網(wǎng)絡(luò)廣度模體度、深度模體度進(jìn)行基于皮爾遜系數(shù)的相關(guān)性分析.
根據(jù)已構(gòu)建的微博傳播網(wǎng)絡(luò),使用皮爾遜相關(guān)性系數(shù)來度量2個(gè)變量之間的線性相關(guān)程度.皮爾遜相關(guān)系數(shù)已廣泛應(yīng)用于聚類和特征分析中,其定義為
(4)
根據(jù)統(tǒng)計(jì)的虛假信息和真實(shí)信息的微博網(wǎng)絡(luò)結(jié)構(gòu)特征指標(biāo),特征相關(guān)性熱力圖如圖2所示,相關(guān)性熱力圖中顏色的深淺表示對應(yīng)行列元素相關(guān)性的強(qiáng)弱.
根據(jù)圖2的結(jié)果可知,在微博傳播網(wǎng)絡(luò)結(jié)構(gòu)特征中,廣度模體度與微博的傳播規(guī)模具有強(qiáng)正相關(guān)性.由于微博信息發(fā)布之后龐大的受眾群體會加快信息的廣播效應(yīng),微博信息會圍繞一個(gè)信息源進(jìn)行擴(kuò)散,所以廣度播模體度數(shù)值也相應(yīng)增大.同時(shí)相關(guān)性分析顯示,深度模體度也與傳播規(guī)模和傳播深度具有一定正相關(guān)關(guān)系.在全部樣本數(shù)據(jù)中,隨著傳播規(guī)模的擴(kuò)大,通常會伴隨微博網(wǎng)絡(luò)結(jié)構(gòu)的復(fù)雜化,網(wǎng)絡(luò)的深度也會隨之增加.
Fig. 2 Correlation among network structure features圖2 網(wǎng)絡(luò)結(jié)構(gòu)特征之間的相關(guān)性
在圖3中展示了真實(shí)信息微博與虛假信息微博中傳播規(guī)模大于100的網(wǎng)絡(luò)的互補(bǔ)累計(jì)分布函數(shù)(complementary cumulative distribution function, CCDF),圖3中縱坐標(biāo)軸CCDF反映了對應(yīng)變量的概率分布,是對離散的變量中,所有大于x軸上的某一值,其出現(xiàn)概率的和,圖中即表示傳播規(guī)模及結(jié)構(gòu)性病毒特征大于某一值時(shí),對應(yīng)的概率之和.我們發(fā)現(xiàn)相對真實(shí)信息的傳播,虛假信息的傳播規(guī)模可以變得非常龐大,虛假信息更容易吸引指數(shù)級的轉(zhuǎn)發(fā)與傳播.同樣圖3(b)真假信息的結(jié)構(gòu)性病毒特征也明顯反映了微博信息在傳播過程中的巨大差異,結(jié)構(gòu)性病毒特征的取值范圍分布展現(xiàn)的差異性,也說明了真假信息的網(wǎng)絡(luò)結(jié)構(gòu)總體上具有區(qū)別明顯的特征.
Fig. 3 Distribution of diffusion scale and structural virality圖3 傳播規(guī)模和結(jié)構(gòu)性病毒特征的互補(bǔ)累計(jì)分布
真假信息在傳播模式上產(chǎn)生的差異,會直觀地反映在所構(gòu)成的網(wǎng)絡(luò)結(jié)構(gòu)上,就結(jié)構(gòu)性病毒特征而言,虛假信息比真實(shí)信息(K-S test~0.610,p-value~0)更具病毒性,且平均路徑更長,在傳播深度上,虛假信息的平均深度要大于真實(shí)信息(K-S test~0.438,p-value~0),同時(shí)該驗(yàn)證在整體微博數(shù)據(jù)集上也依然成立,具有一定的普適性.表1統(tǒng)計(jì)了真假信息數(shù)據(jù)的詳細(xì)信息,其中數(shù)值表示虛假信息與真實(shí)信息網(wǎng)絡(luò)結(jié)構(gòu)特征的均值:
Table 1 Features of Weibo Network表1 微博網(wǎng)絡(luò)數(shù)據(jù)統(tǒng)計(jì)
表1數(shù)據(jù)說明了虛假信息與真實(shí)信息網(wǎng)絡(luò)在相同傳播規(guī)模內(nèi)的樣本數(shù)據(jù)具有明顯的差異,虛假信息網(wǎng)絡(luò)在結(jié)構(gòu)上表現(xiàn)出具有更深的傳播深度與相對較小的傳播規(guī)模,就模體度而言真實(shí)信息往往廣度模體度數(shù)值更大,深度模體度小于虛假信息網(wǎng)絡(luò).
在信息擴(kuò)散的早期,微博網(wǎng)絡(luò)結(jié)構(gòu)表現(xiàn)出不穩(wěn)定性,虛假信息也可能形成星型結(jié)構(gòu),但在整體生命周期中,2類信息所呈現(xiàn)的結(jié)構(gòu)特征便具有一定的差異,如表1所示.虛假信息多以更深層更復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)傳播,表現(xiàn)在虛假信息網(wǎng)絡(luò)傳播深度更深,可能是由于熟人之間的牢固聯(lián)系導(dǎo)致了更多的轉(zhuǎn)發(fā),真實(shí)信息大多數(shù)更多的是圍繞著一個(gè)信息源,例如大V認(rèn)證用戶、官方賬號、政府組織等權(quán)威機(jī)構(gòu),也存在一部分非官方用戶進(jìn)行真實(shí)信息的散布,進(jìn)而實(shí)現(xiàn)信息的爆發(fā)廣播.可以說虛假信息更具有煽動性,會存在偏見以及不穩(wěn)定性,因此與真實(shí)信息的傳播方式呈現(xiàn)出明顯差異.
當(dāng)然,虛假信息的傳播也涉及到新聞學(xué)、心理學(xué)與社會學(xué)范疇,其傳播模式不僅僅取決于文本內(nèi)容與節(jié)點(diǎn)信息,例如有研究發(fā)現(xiàn):謠言是人們更感興趣的且更覺得重要的話題[2].這種話題的重要性越高,虛假信息的流行度也就越廣,且謠言越具戲劇性與煽動性越容易引起人們的關(guān)注.人們往往對具有戲劇性或者具有娛樂性質(zhì)的信息更具偏好,多數(shù)虛假信息的內(nèi)容與人們對客觀事實(shí)的認(rèn)知背道而馳,可能是它易吸引人們關(guān)注的原因之一.如果有人制造謠言,與大家的預(yù)期相悖,得到轉(zhuǎn)發(fā)的可能性會更高,因?yàn)樵趨⑴c話題討論的過程時(shí),往往會無意識地推進(jìn)了謠言的傳播,進(jìn)而導(dǎo)致了虛假信息的泛濫蔓延.
我們觀察到近似相同傳播規(guī)模的微博可以具有截然不同的網(wǎng)絡(luò)結(jié)構(gòu),為了定量分析在近似相同的傳播規(guī)模內(nèi)的微博網(wǎng)絡(luò)的傳播影響因素,篩選出傳播規(guī)模在[99~111]區(qū)間的5條微博,構(gòu)建傳播層級結(jié)構(gòu),如圖4所示.圖4(a)與圖(b)網(wǎng)絡(luò)為真實(shí)信息微博,圖4(c)~(e)等網(wǎng)絡(luò)為虛假信息微博.根據(jù)微博網(wǎng)絡(luò)結(jié)構(gòu)分析,在近似相等的傳播規(guī)模下,發(fā)現(xiàn)信息擴(kuò)散可以完全通過廣度傳播來驅(qū)動,所有用戶都從一個(gè)來源接收到一條消息;也可以具有較大的傳播深度,信息通過多個(gè)后代和分支傳播,形成較長的鏈?zhǔn)浇Y(jié)構(gòu).
圖4(a)微博網(wǎng)絡(luò)中,信息的傳播完全是由廣播形式的來驅(qū)動的,該類微博多表現(xiàn)為認(rèn)證賬號發(fā)布的公共信息,例如人民日報(bào)、新華社等公共機(jī)構(gòu)賬號,通常只存在大量低深度轉(zhuǎn)發(fā),將信息廣播擴(kuò)散到所有聽眾,而不會觸發(fā)多層級深度轉(zhuǎn)發(fā).在圖4(c)~(e)等網(wǎng)絡(luò)中,通常表現(xiàn)為朋友親屬之間小規(guī)模轉(zhuǎn)發(fā)行為,但會伴隨著多級“一對一”形式的信息傳播,最終形成的微博網(wǎng)絡(luò)會表現(xiàn)出較強(qiáng)的深度傳播特性,往往會形成多個(gè)星型結(jié)構(gòu)或長鏈?zhǔn)絺鞑サ膹?fù)雜網(wǎng)絡(luò).上述網(wǎng)絡(luò)均為所有微博網(wǎng)絡(luò)中的特殊情況,但實(shí)際上絕大多數(shù)微博的傳播過程最終會形成圖4(b)與圖4(c)等形式的網(wǎng)絡(luò)結(jié)構(gòu),即2種傳播模式的混合是驅(qū)動信息進(jìn)行擴(kuò)散的主要原因,這表明信息傳播是由廣度和深度傳播機(jī)制的共同驅(qū)動作用的.
Fig. 4 Structure of the network at the same diffusion scale圖4 有相同傳播規(guī)模的網(wǎng)絡(luò)結(jié)構(gòu)
由于微博生命周期不同以及信息內(nèi)容的差異,最終形成的拓?fù)浣Y(jié)構(gòu)差異明顯.為了刻畫模體度分布以及模體度與傳播規(guī)模的具體影響,我們分別將真假信息微博的廣度模體度和深度模體度投影到二維平面,并以該投影點(diǎn)到坐標(biāo)系原點(diǎn)的歐氏距離歸一化作為度量網(wǎng)絡(luò)傳播重要性的指標(biāo),該指標(biāo)反映了微博傳播中所產(chǎn)生的影響力.影響力越強(qiáng)的內(nèi)容與事件越容易得到大量轉(zhuǎn)發(fā)與傳播,同時(shí)廣度傳播與深度傳播也會對微博網(wǎng)絡(luò)結(jié)構(gòu)相應(yīng)產(chǎn)生一定影響.繪制模體度散點(diǎn)分布熱力圖如圖5所示,紅色實(shí)線為深度模體度的平均值,綠色實(shí)線為廣度模體度的平均值.整體分布情況而言,虛假信息微博的深度模體度要高于真實(shí)信息,真實(shí)信息微博的廣度模體度的平均值也要高于虛假信息.傳播重要性強(qiáng)的網(wǎng)絡(luò)往往是廣度傳播與深度傳播共同作用的結(jié)果,廣度傳播占有主導(dǎo)作用.
Fig. 5 Motif degree scatter heat map圖5 模體度散點(diǎn)熱力圖
為了探索虛假信息與真實(shí)信息網(wǎng)絡(luò)傳播規(guī)模的主要驅(qū)動因素的差異,以及進(jìn)一步分析造成這種差異的規(guī)律,我們通過圖6來反應(yīng)不同信息與傳播規(guī)模的關(guān)聯(lián).圖中黑色實(shí)線分別為當(dāng)前傳播規(guī)模下級聯(lián)達(dá)到星型網(wǎng)絡(luò)和鏈狀網(wǎng)絡(luò)的模體取值范圍的理論極大值,當(dāng)廣度模體度取理論極大值時(shí),那么規(guī)模為n的網(wǎng)絡(luò)對應(yīng)的BM為(n-1)×(n-2)/2,深度模體度的理論極大值為n-2.微博網(wǎng)絡(luò)中在相近似傳播規(guī)模條件下真假信息模體度有較明顯區(qū)分,真實(shí)信息中星型網(wǎng)絡(luò)的廣度模體度與對應(yīng)傳播規(guī)模呈線性關(guān)系.與虛假信息相對比,圖6(a)中相同傳播規(guī)模下真實(shí)信息的廣度模體度整體上要大于虛假信息,分布更為集中,因此真實(shí)信息更多驅(qū)動于廣度式的傳播形式.圖6(b)中虛假信息網(wǎng)絡(luò)深度模體度相對更收斂于深度模體度極大值,而真實(shí)信息分布極為離散,這表明虛假信息網(wǎng)絡(luò)結(jié)構(gòu)受深度傳播形式主導(dǎo).
Fig. 6 Comparing the motif degree for false and real information圖6 真假信息的模體度比較
為了更直觀地觀察模體度分布差異,將網(wǎng)絡(luò)模體度進(jìn)行離差標(biāo)準(zhǔn)化(min-max normalization)處理,通過將模體度縮放至[0,1]區(qū)間內(nèi),統(tǒng)計(jì)各模體度區(qū)間內(nèi)網(wǎng)絡(luò)所占比例,進(jìn)而反映模體度分布對應(yīng)真假信息的可能性.結(jié)果如圖7所示,虛假信息網(wǎng)絡(luò)的深度模體度分布較集中于數(shù)值較大的區(qū)間,相較于真實(shí)信息分布區(qū)分較為明顯,相對的真實(shí)信息中廣度模體度數(shù)值較大的網(wǎng)絡(luò)也具有更大的占比,該結(jié)果也進(jìn)一步說明了在微博平臺上,虛假信息網(wǎng)絡(luò)的深度模體度相對較大.結(jié)合深度模體度定義分析,如果一個(gè)網(wǎng)絡(luò)的深度模體度越趨近其理論極大值,那么該網(wǎng)絡(luò)所對應(yīng)內(nèi)容為虛假信息的可能性也更大.這也揭示了虛假信息網(wǎng)絡(luò)結(jié)構(gòu)較復(fù)雜,而真實(shí)信息網(wǎng)絡(luò)表現(xiàn)出更穩(wěn)定的結(jié)構(gòu)布局,單傳播源的廣度傳播占據(jù)整個(gè)傳播過程的主導(dǎo)作用.
Fig. 7 Motif degree distribution of false and real information network圖7 虛假信息與真實(shí)信息網(wǎng)絡(luò)模體度分布
目前基于內(nèi)容的微博虛假信息檢測方法主要是從文本信息、用戶屬性以及時(shí)序特征的角度,通過識別推文文本特征、用戶屬性以及時(shí)間變化趨勢,使用機(jī)器學(xué)習(xí)及深度學(xué)習(xí)分類算法,進(jìn)行謠言檢測.這些方法通常具有較高分類準(zhǔn)確精度,但是忽略了網(wǎng)絡(luò)結(jié)構(gòu)特征在虛假信息網(wǎng)絡(luò)檢測時(shí)的作用.Zhao等人提出的結(jié)構(gòu)異質(zhì)性特征(structural heterogeneity)是一種基于網(wǎng)絡(luò)結(jié)構(gòu)的度量方法,該指標(biāo)反映了傳播網(wǎng)絡(luò)與其大小相同的星型網(wǎng)絡(luò)之間的差異,且該方法未知類型的微博網(wǎng)絡(luò)在相對較短的轉(zhuǎn)發(fā)時(shí)間內(nèi),具有相對較高的識別精度[19].
本文提取微博傳播網(wǎng)絡(luò)的模體度特征,基于XGBoost模型構(gòu)建有監(jiān)督分類模型對真假信息進(jìn)行分類.XGBoost模型是基于特征選擇法的封裝法,通過訓(xùn)練分類器模型,可以根據(jù)分類器的性能對特征進(jìn)行評價(jià)[27].研究中將基于廣度與深度模體度特征的檢測方法,與基于結(jié)構(gòu)異質(zhì)性特征的檢測方法以及結(jié)構(gòu)性病毒特征做對比,對微博信息數(shù)據(jù)的完整生命周期(第1次轉(zhuǎn)發(fā)到最近1次轉(zhuǎn)發(fā))和信息發(fā)布的前3 h進(jìn)行特征計(jì)算,使用準(zhǔn)確率Accuracy指標(biāo)比較3種基于網(wǎng)絡(luò)結(jié)構(gòu)特征以及融合3種網(wǎng)絡(luò)結(jié)構(gòu)特征的虛假信息分類準(zhǔn)確率.結(jié)果如表2所示,發(fā)現(xiàn)基于模體度特征的虛假信息檢測方法,相對于結(jié)構(gòu)異質(zhì)性特征和結(jié)構(gòu)性病毒特征,在微博網(wǎng)絡(luò)的完整生命周期以及傳播早期均具有更高的分類準(zhǔn)確率.并且融合3種網(wǎng)絡(luò)結(jié)構(gòu)特征后,模型預(yù)測準(zhǔn)確率得到進(jìn)一步提升.
Table 2 Detection Accuracy of Weibo False Information表2 微博虛假信息檢測準(zhǔn)確率
為了進(jìn)一步驗(yàn)證在更多社交媒體平臺虛假信息傳播網(wǎng)絡(luò)數(shù)據(jù)中,使用基于模體度的結(jié)構(gòu)特征進(jìn)行虛假信息檢測的有效性與泛用性,實(shí)驗(yàn)使用基于Ma等人發(fā)布的2個(gè)Twitter公開數(shù)據(jù)集:Twitter15和Twitter16.該數(shù)據(jù)集將謠言數(shù)據(jù)細(xì)分為4種類型[28],并根據(jù)Twitter謠言信息的轉(zhuǎn)發(fā)關(guān)系以及時(shí)序先后,可構(gòu)建級聯(lián)傳播樹,該數(shù)據(jù)集統(tǒng)計(jì)匯總?cè)绫?所示:
Table 3 Statistics of Twitter Datasets表3 Twitter數(shù)據(jù)集統(tǒng)計(jì)
我們將Twitter15與Twitter16數(shù)據(jù)進(jìn)行預(yù)處理后合并,使用全部的2 308條Twitter,采用與微博數(shù)據(jù)相同的特征提取方法,進(jìn)行了基于XGBoost多分類模型的Twitter虛假信息的檢測準(zhǔn)確率對比.表4匯總了4分類的結(jié)果,同樣在基于3種網(wǎng)絡(luò)結(jié)構(gòu)特征的分類準(zhǔn)確率對比中,模體度特征具有更好的識別精度,并且融合的網(wǎng)絡(luò)結(jié)構(gòu)特征可以更有效地進(jìn)行Twitter網(wǎng)絡(luò)的虛假信息檢測.
Table 4 Detection Accuracy of Twitter False Information表4 Twitter虛假信息檢測準(zhǔn)確率
基于微博與Twitter平臺的研究結(jié)果表明,即使不構(gòu)建文本特征、用戶屬性特征與時(shí)序特征,基于網(wǎng)絡(luò)結(jié)構(gòu)特征也可以得到較高的虛假信息檢測準(zhǔn)確率,并能夠在信息傳播的早期實(shí)現(xiàn)對虛假信息的檢測.由于Twitter數(shù)據(jù)數(shù)量較少,且網(wǎng)絡(luò)結(jié)構(gòu)呈現(xiàn)出較小的差異,基于網(wǎng)絡(luò)結(jié)構(gòu)特征虛假信息檢測準(zhǔn)確率相對較低,但基于模體度特征的分類檢測仍具有一定的參考價(jià)值.
本文提出了一種基于模體度的社交媒體虛假信息檢測方法,對微博傳播網(wǎng)絡(luò)中的熱點(diǎn)事件進(jìn)行了基于廣度模體度與深度模體度構(gòu)建的二維模體度量化.通過對模體度重要性指和其他經(jīng)典網(wǎng)絡(luò)結(jié)構(gòu)特征之間的相關(guān)性分析,發(fā)現(xiàn)基于模體度重要性指標(biāo)的計(jì)算方法是對傳統(tǒng)網(wǎng)絡(luò)結(jié)構(gòu)影響力指標(biāo)的一種改進(jìn)與拓展.模體度細(xì)致刻畫了真假信息的網(wǎng)絡(luò)結(jié)構(gòu)特性,可用于分析微博網(wǎng)絡(luò)中虛假信息的傳播機(jī)制.
微博平臺的真假信息傳播機(jī)制差異明顯,真實(shí)信息更趨近于廣度傳播,而虛假信息網(wǎng)絡(luò)結(jié)構(gòu)更為復(fù)雜.基于模體度的虛假信息檢測方法可有效地區(qū)分真假信息,并可以根據(jù)早期網(wǎng)絡(luò)結(jié)構(gòu)特征實(shí)現(xiàn)對微博虛假信息的分類.而由于Twitter平臺數(shù)據(jù)量較少以及網(wǎng)絡(luò)結(jié)構(gòu)差異相對不明顯等原因,網(wǎng)絡(luò)結(jié)構(gòu)特征的檢測準(zhǔn)確率相對較低,但基于模體度特征的研究在未來的虛假信息傳播工作中仍將具有一定的參考價(jià)值.需要注意的是,信息早期傳播結(jié)構(gòu)的不穩(wěn)定性會增加虛假信息檢測的難度,并且考慮到虛假信息內(nèi)容的復(fù)雜性與多樣性,未來基于模體度結(jié)構(gòu)特征與文本信息相結(jié)合將可能構(gòu)建出一個(gè)更具魯棒性的虛假信息檢測框架.此外,基于模體度特征對微博平臺之外的社交媒體信息傳播進(jìn)行分析也具有廣泛的應(yīng)用前景.