方勁皓,錢(qián)曉東
1.蘭州交通大學(xué) 自動(dòng)化與電氣工程學(xué)院,蘭州730070
2.蘭州交通大學(xué) 經(jīng)濟(jì)管理學(xué)院,蘭州730070
伴隨著社交網(wǎng)絡(luò)用戶群體的不斷擴(kuò)大,不同用戶之間形成了規(guī)模龐大的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),同時(shí)各種社交信息在不斷傳遞過(guò)程中形成了復(fù)雜的傳播機(jī)理,能否利用模型來(lái)刻畫(huà)信息的傳播過(guò)程,是否可以科學(xué)地控制信息傳播過(guò)程已經(jīng)成為當(dāng)下研究的熱點(diǎn)。隨著研究者對(duì)社交網(wǎng)絡(luò)分析的日益深入,其中形成的理論、方法和技術(shù)已經(jīng)成為一種重要的社會(huì)結(jié)構(gòu)研究范式,在市場(chǎng)營(yíng)銷、犯罪預(yù)防、網(wǎng)絡(luò)謠言控制等領(lǐng)域發(fā)揮著重要的作用。
然而由于在線社交網(wǎng)絡(luò)結(jié)構(gòu)具有的節(jié)點(diǎn)海量性、結(jié)構(gòu)復(fù)雜性和多維演化性等特點(diǎn),導(dǎo)致信息傳播具有多源并發(fā)性,其相互影響形成了路徑多變和內(nèi)容演化的特點(diǎn)[1];如何準(zhǔn)確刻畫(huà)社交網(wǎng)絡(luò)結(jié)構(gòu)的演化,用戶行為如何產(chǎn)生交互影響,如何計(jì)算信息在網(wǎng)絡(luò)上傳播過(guò)程與態(tài)勢(shì)的分析仍舊是在線社交網(wǎng)絡(luò)研究中亟待解決的問(wèn)題。
目前在探索社交網(wǎng)絡(luò)中信息傳播機(jī)制的研究中,主要包含三個(gè)方向,并相提出了相應(yīng)的建模方法和改進(jìn)策略。
(1)在針對(duì)社交網(wǎng)絡(luò)結(jié)構(gòu)的研究中,主要有Grandovetter[2]提出的線性閾值模型,為提出每個(gè)節(jié)點(diǎn)分配閾值,節(jié)點(diǎn)每次行為都需要達(dá)到激活閾值;Goldenberg[3-4]提出了基于概率的獨(dú)立級(jí)聯(lián)模型,假定節(jié)點(diǎn)在激活其鄰居節(jié)點(diǎn)為概率事件;Gruhl等人[5]通過(guò)給出計(jì)算節(jié)點(diǎn)間閱讀概率和復(fù)制概率的算法,使得獨(dú)立級(jí)聯(lián)模型能夠使用可能發(fā)生延遲的環(huán)境;Saito等人[6]為每條邊添加事件延遲參數(shù)將獨(dú)立級(jí)聯(lián)模型和線性閾值模型進(jìn)行擴(kuò)展。
(2)在基于信息特性的傳播模型研究中,Myers[7]認(rèn)為社交網(wǎng)絡(luò)中節(jié)點(diǎn)除了通過(guò)網(wǎng)絡(luò)獲取信息外,還從外部影響獲取信息,建立了多源信息傳播模型,給出了節(jié)點(diǎn)從內(nèi)部和外部獲得信息的期望,Beutel 等人[8]引入了交互因子,描述兩個(gè)信息之間的作用強(qiáng)度,對(duì)SIS 模型進(jìn)行擴(kuò)展,提出信息交互影響的SI1|2S模型[9];信息所包含的時(shí)間、內(nèi)容、來(lái)源等特性使其本身具有內(nèi)在的傳播屬性,如何將其與用戶的作用結(jié)合起來(lái),是深入研究傳播機(jī)制的關(guān)鍵。
(3)基于群體狀態(tài)的研究主要借鑒了傳染病模型的思想,將網(wǎng)絡(luò)中節(jié)點(diǎn)分為幾類狀態(tài)。文獻(xiàn)[10]提出改進(jìn)的SI(Susceptible Infected)模型,S 和I 類節(jié)點(diǎn)的轉(zhuǎn)化方式重新進(jìn)行了定義。文獻(xiàn)[11]提出考慮概率遞減機(jī)制Decreasing Probability Susceptible Infected,DPSI)模型,將傳播概率的計(jì)算方法從全局角度進(jìn)行改進(jìn)。文獻(xiàn)[12]提出引入潛伏節(jié)點(diǎn)E 的SEIR模型,在原有節(jié)點(diǎn)基礎(chǔ)上引入新的節(jié)點(diǎn),對(duì)傳播過(guò)程進(jìn)一步細(xì)分。文獻(xiàn)[13]提出考慮直接免疫策略的改進(jìn)SIR(Susceptible Infected Removed)模型,對(duì)傳播過(guò)程中節(jié)點(diǎn)康復(fù)概率計(jì)算做出改進(jìn)。文獻(xiàn)[14]將網(wǎng)絡(luò)流通量代入SIR 模型中,發(fā)現(xiàn)均勻的負(fù)載分布有利于信息傳播,大度節(jié)點(diǎn)對(duì)信息傳播有雙重作用,而通信量擁擠會(huì)阻礙信息傳播。
但是,上述研究思路中仍然存在缺陷,對(duì)于基于拓?fù)浣Y(jié)構(gòu)的傳播模型:從時(shí)效性方面,研究的社交網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)多為靜態(tài);其次,網(wǎng)絡(luò)上連接邊的權(quán)重都是相等或同分布的,忽略了用戶之間的影響力。關(guān)于傳染病模型在信息傳播的研究中,個(gè)體只有感染、易感和免疫三種狀態(tài),并且會(huì)維持較長(zhǎng)時(shí)間,然而真實(shí)社交網(wǎng)路中個(gè)體狀態(tài)極易受到周邊環(huán)境和其他信息影響而發(fā)生較快的轉(zhuǎn)化,因此節(jié)點(diǎn)狀態(tài)難以準(zhǔn)確刻畫(huà)。
因此本文對(duì)影響用戶轉(zhuǎn)發(fā)行為相關(guān)因素分析,并改進(jìn)了轉(zhuǎn)發(fā)概率計(jì)算力公式,增加現(xiàn)有的SCIR 傳染病模型的節(jié)點(diǎn)狀態(tài);通過(guò)理論分析和數(shù)學(xué)證明,研究了用戶轉(zhuǎn)發(fā)行為的具體過(guò)程和動(dòng)力學(xué)機(jī)制,以及在整個(gè)信息傳播中網(wǎng)絡(luò)的演化過(guò)程,分析和揭示了社交網(wǎng)絡(luò)中大量用戶的轉(zhuǎn)發(fā)行為與信息傳播的之間的關(guān)聯(lián)性以及關(guān)鍵影響因素。
在線社交網(wǎng)絡(luò)中用戶行為是研究信息傳播的重要內(nèi)容,用戶對(duì)自身需求、社會(huì)影響和社交網(wǎng)絡(luò)技術(shù)進(jìn)行綜合評(píng)估的基礎(chǔ)上所引起的各種使用活動(dòng)的綜合。以時(shí)下主流的社交平臺(tái)facebook、twitter和新浪微博為例,用戶之間通過(guò)關(guān)注、好友等關(guān)系構(gòu)成了網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu),而用戶發(fā)表或轉(zhuǎn)發(fā)自其他用戶的推文、微博等成了其中信息傳播的主要渠道,因此本文認(rèn)為用戶的轉(zhuǎn)發(fā)行為類似傳染病模型中個(gè)體的感染過(guò)程;而傳統(tǒng)模型中對(duì)感染概率,即轉(zhuǎn)發(fā)概率的計(jì)算進(jìn)行歸一化處理,沒(méi)有體現(xiàn)社交網(wǎng)絡(luò)中不同用戶行為特點(diǎn)和網(wǎng)絡(luò)結(jié)構(gòu)特征。針對(duì)這一點(diǎn),本文對(duì)模型中用戶轉(zhuǎn)發(fā)概率的計(jì)算進(jìn)行了修改。
3.1.1 用戶連接強(qiáng)度計(jì)算
真實(shí)社交網(wǎng)絡(luò)中,用戶個(gè)體之間的關(guān)聯(lián)關(guān)系一定會(huì)有不同程度上的區(qū)別,在聯(lián)系頻率、聯(lián)系時(shí)長(zhǎng)上都會(huì)有差異,也就是用戶之間的關(guān)系強(qiáng)弱之分。經(jīng)驗(yàn)告訴我們,現(xiàn)實(shí)中人們對(duì)于與之關(guān)系較好的朋友會(huì)有更大的支持的傾向,即在轉(zhuǎn)發(fā)過(guò)程中,強(qiáng)關(guān)聯(lián)關(guān)系的好友往往會(huì)成為用戶選擇的重要的參考對(duì)象;本文研究的用戶轉(zhuǎn)發(fā)過(guò)程不涉及話題內(nèi)容本身的影響,主要針對(duì)社交網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)展開(kāi)。
(1)基于共同鄰居數(shù)目的連接強(qiáng)度計(jì)算
在社交網(wǎng)絡(luò)中如果節(jié)點(diǎn)u、v 擁有較多數(shù)量的共同鄰居節(jié)點(diǎn),說(shuō)明u 和v 之間有較為接近的社交圈,用戶之間的相似程度更高,也就越容易成為關(guān)系緊密的朋友,因此本文利用杰卡德相似系數(shù)(Jaccard Coefficient)計(jì)算兩個(gè)節(jié)點(diǎn)的連接強(qiáng)度:
nu和nv分別表示u 與v 的鄰居節(jié)點(diǎn),如果u 和v 之間有大量的鄰居節(jié)點(diǎn),則認(rèn)為u 與v 為強(qiáng)連接關(guān)系,否則為弱連接關(guān)系。
(2)基于邊介數(shù)的連接強(qiáng)度計(jì)算
除了共同鄰居數(shù)目,邊介數(shù)也是衡量節(jié)點(diǎn)間關(guān)系的重要參考。邊介數(shù)是網(wǎng)絡(luò)中經(jīng)過(guò)某條邊的流的總數(shù),通常以經(jīng)過(guò)某條邊的最短路徑總數(shù)來(lái)度量流的總數(shù)。因此社交網(wǎng)絡(luò)中經(jīng)過(guò)節(jié)點(diǎn)u 和v 的某條邊e 的最短路徑數(shù)目值越高,則說(shuō)明該條邊的兩個(gè)節(jié)點(diǎn)之間鏈接強(qiáng)度越高,計(jì)算公式如下:
同時(shí)考慮共同鄰居數(shù)目和邊介數(shù)的影響,因此得到轉(zhuǎn)發(fā)概率與用戶連接強(qiáng)度之間的關(guān)系如公式(3),α1、α2為影響權(quán)重。
為了驗(yàn)證連接強(qiáng)度對(duì)用戶轉(zhuǎn)發(fā)概率的影響,這里構(gòu)建初始網(wǎng)絡(luò)為底圖,選取節(jié)點(diǎn)u 和v,通過(guò)改變u 和v的共有鄰居數(shù)和邊介數(shù),即改變u、v 的連接強(qiáng)度,并根據(jù)公式(3)計(jì)算u 和v 之間轉(zhuǎn)發(fā)概率。設(shè)置初始傳播概率為0.2~0.8 且不受其他條件影響;最終得到轉(zhuǎn)發(fā)概率分布。
如圖1所示,橫軸為連接強(qiáng)度:在弱連接情況下,轉(zhuǎn)發(fā)概率受初始傳播概率影響較小;當(dāng)用戶之間連接強(qiáng)度增大,傳播概率逐漸上升,同時(shí)初始傳播概率差異的影響變得明顯;當(dāng)連接強(qiáng)度相同時(shí),初始傳染概率越大,轉(zhuǎn)發(fā)概率影響越大且最終趨于穩(wěn)定,說(shuō)明用戶連接強(qiáng)度對(duì)轉(zhuǎn)發(fā)的影響不可忽視。
圖1 不同連接強(qiáng)度下轉(zhuǎn)發(fā)頻率分布
3.1.2 鄰居節(jié)點(diǎn)狀態(tài)的影響
在信息傳播過(guò)程中,信息傳播個(gè)體的選擇傾向決定著話題的傳播廣度。在考慮是否進(jìn)行轉(zhuǎn)發(fā)的過(guò)程中,用戶往往會(huì)選擇自身社交圈內(nèi)的多數(shù)意見(jiàn)傾向,也就是所謂“從眾”現(xiàn)象。因此本文考慮在轉(zhuǎn)發(fā)過(guò)程中,除了強(qiáng)連接節(jié)點(diǎn)的影響之外,鄰居節(jié)點(diǎn)的選擇也會(huì)影響用戶的最終轉(zhuǎn)發(fā)概率計(jì)算。
但是由于消息來(lái)源的廣度與關(guān)注者數(shù)正相關(guān)。用戶關(guān)注者數(shù)越多,接收信息的范圍會(huì)隨之?dāng)U大,那么該用戶進(jìn)行轉(zhuǎn)發(fā)和被轉(zhuǎn)發(fā)概率都會(huì)增加,綜合考慮用戶和其鄰居活躍度的PageRank鄰居節(jié)點(diǎn)的影響評(píng)估算法描述如下:
其中,R(u)指的是用戶u 受到鄰居的影響程度,d 為阻尼系數(shù),一般情況下取d=0.85,假定初始R 值為1。neigh(u)表示節(jié)點(diǎn)u 的鄰居節(jié)點(diǎn)集合,ηu,v是節(jié)點(diǎn)u 分配給鄰居節(jié)點(diǎn)v 的R 值的比例。
個(gè)鄰居節(jié)點(diǎn)的活躍度,N 為用戶u 的鄰居節(jié)點(diǎn)總數(shù)。對(duì)于粉絲節(jié)點(diǎn)v,其活躍度A 表示為:
其中,Rtt、Thut、Ct分別指T 天內(nèi)用戶發(fā)布微博數(shù)、轉(zhuǎn)發(fā)微博數(shù)、點(diǎn)贊和評(píng)論數(shù)。因此考慮到鄰居節(jié)點(diǎn)活躍度的用戶轉(zhuǎn)發(fā)概率用如下公式計(jì)算:
Marlow 等[15]和Bernardo 等[16]針對(duì)社交網(wǎng)絡(luò)中用戶互動(dòng)時(shí)選擇傾向進(jìn)行定量的研究,運(yùn)用LeaderRank算法對(duì)鄰居節(jié)點(diǎn)中的意見(jiàn)傾向進(jìn)行估計(jì),并統(tǒng)計(jì)了用戶的選擇;研究結(jié)果表明,所選取的用戶對(duì)于意見(jiàn)的傾向與其鄰居節(jié)點(diǎn)中主流傾向吻合程度很高,明顯的受到鄰居節(jié)點(diǎn)選擇的影響,尤其是當(dāng)網(wǎng)絡(luò)中意見(jiàn)傾向不是很明顯的時(shí)候,鄰居節(jié)點(diǎn)的選擇會(huì)成為用戶選擇的重要參考。因此本文認(rèn)為,將鄰居用戶的意見(jiàn)傾向引入傳播概率計(jì)算中符合真實(shí)網(wǎng)絡(luò)中的情況。
3.1.3 最終轉(zhuǎn)發(fā)概率計(jì)算
真實(shí)網(wǎng)絡(luò)中,用戶的活躍程度通常受到其作息時(shí)間、生活習(xí)慣以及對(duì)社交網(wǎng)絡(luò)的沉迷程度的影響表現(xiàn)出差異性,即使大多數(shù)人的生活規(guī)律接近,但其在社交網(wǎng)絡(luò)活躍的時(shí)間仍不盡相同。因此將所有用戶看作信息傳播的參與者與實(shí)際情況明顯不符;本文考慮在每個(gè)時(shí)間段內(nèi)都應(yīng)當(dāng)存在部分用戶處于離線狀態(tài),不參與社交互動(dòng)即所謂離線節(jié)點(diǎn)。
假設(shè)社交網(wǎng)絡(luò)中大多數(shù)用戶的都服從近似的活動(dòng)規(guī)律,則在線時(shí)間較長(zhǎng)的用戶有更有可能參與的網(wǎng)絡(luò)中信息傳播,且在傳播過(guò)程中更有可能成為傳播節(jié)點(diǎn)。根據(jù)Han等[17]研究的基于興趣的人類活動(dòng)時(shí)間規(guī)律模型,當(dāng)在線社交網(wǎng)絡(luò)中用戶在線時(shí)長(zhǎng)都服從近似的指數(shù)分布時(shí),整體上會(huì)表現(xiàn)出冪律分布的特征,網(wǎng)絡(luò)中大部分用戶登錄頻率較低,活躍用戶比例相對(duì)較少。因此,當(dāng)網(wǎng)絡(luò)中個(gè)體以概率ρ上線,并且在線時(shí)長(zhǎng)為τ時(shí),整體網(wǎng)絡(luò)中的用戶在線時(shí)間分布為:
當(dāng)τ→ ∞ 的時(shí)候,e-α/τ→1,整體的分布于均勻分布的情形相同,α→1 的時(shí)候又會(huì)回復(fù)到之前的分布。由上式可以看出,在信息傳播的過(guò)程中,受到用戶在線和離線狀態(tài)的影響,傳播節(jié)點(diǎn)的分布會(huì)發(fā)生變化,說(shuō)明較長(zhǎng)時(shí)間在線的用戶會(huì)更加積極的參與轉(zhuǎn)發(fā),并可以通過(guò)控制α來(lái)改變網(wǎng)絡(luò)中用戶整體的在線時(shí)長(zhǎng)。
為了驗(yàn)證節(jié)點(diǎn)的離線節(jié)點(diǎn)對(duì)網(wǎng)絡(luò)中信息傳播過(guò)程的影響,本文建立了初始網(wǎng)絡(luò),模擬普通網(wǎng)絡(luò)以及引入離線節(jié)點(diǎn)的網(wǎng)絡(luò)。設(shè)置初始感染節(jié)點(diǎn)比例為0.3,調(diào)整參數(shù)α,改變用戶在線時(shí)長(zhǎng),統(tǒng)計(jì)網(wǎng)絡(luò)中轉(zhuǎn)發(fā)概率的分布情況。
如圖2 所示,用戶在線時(shí)長(zhǎng)增加,轉(zhuǎn)發(fā)概率隨之提高;同時(shí),當(dāng)在線時(shí)長(zhǎng)較低時(shí),離線節(jié)點(diǎn)的影響較小,兩個(gè)曲線相差較小;反之,轉(zhuǎn)發(fā)概率體現(xiàn)出較大差距,表明離線節(jié)點(diǎn)的出現(xiàn),明顯導(dǎo)致轉(zhuǎn)發(fā)過(guò)程的減緩,降低信息擴(kuò)散速率,與理論預(yù)測(cè)的結(jié)果較為接近。
圖2 用戶轉(zhuǎn)概率受在線時(shí)長(zhǎng)的影響
目前傳染病模型中包括SIR、SEIR、SCIR 等模型,無(wú)論是感染概率還是免疫概率都依據(jù)經(jīng)驗(yàn)提前設(shè)定,并沒(méi)有考慮網(wǎng)絡(luò)的結(jié)構(gòu)特性,同時(shí)轉(zhuǎn)發(fā)概率還可能受到話題自身、用戶行為習(xí)慣等因素的影響。因此,本文對(duì)將現(xiàn)有SCIR模型中傳播的概率的計(jì)算方法和傳播過(guò)程中節(jié)點(diǎn)的狀態(tài)做出改進(jìn),考慮了信息傳播過(guò)程中用戶離線狀態(tài)所產(chǎn)生的影響,建立了改進(jìn)的SCIR傳染病模型。
本文模型包含五類節(jié)點(diǎn)狀態(tài):易感狀態(tài)S(Susceptible)、接觸狀態(tài)C(Contracted)、傳播狀態(tài)I(Infected)、免疫狀態(tài)R(Recovered)和離線狀態(tài)O(Offline)。易感狀態(tài)是指用戶從未通過(guò)任何渠道獲知目標(biāo)話題,即對(duì)該話題信息處于完全未知時(shí)的狀態(tài);接觸狀態(tài)表示用戶已經(jīng)通過(guò)其他用戶的轉(zhuǎn)發(fā)而獲知了目標(biāo)話題信息,但還未轉(zhuǎn)發(fā)該話題信息時(shí)所處的狀態(tài),即用戶處于觀望狀態(tài);傳播狀態(tài)是指用戶已將目標(biāo)話題進(jìn)行轉(zhuǎn)發(fā)的狀態(tài);免疫狀態(tài)是指用戶已經(jīng)完全對(duì)目標(biāo)話題失去興趣,并且將永遠(yuǎn)不會(huì)對(duì)其進(jìn)行轉(zhuǎn)發(fā)時(shí)所處的狀態(tài);離線狀態(tài)用戶指不參與該時(shí)步的傳播,并在下一時(shí)刻恢復(fù)之前的狀態(tài),正常參與社交互動(dòng)。
基于上述的信息傳播模式,可以得到上述四類節(jié)點(diǎn)的狀態(tài)轉(zhuǎn)變過(guò)程,如圖3所示。
(1)易感節(jié)點(diǎn)S接觸到一個(gè)傳播節(jié)點(diǎn)I,則該易感節(jié)點(diǎn)以概率PSC轉(zhuǎn)變?yōu)榻佑|節(jié)點(diǎn)C,PSC稱為內(nèi)部接觸概率。
圖3 SCIR模型中節(jié)點(diǎn)狀態(tài)轉(zhuǎn)移過(guò)程
(2)易感節(jié)點(diǎn)S可以通過(guò)某種外部渠道,如新聞媒體、虛擬社區(qū)、即時(shí)通信以及現(xiàn)實(shí)社會(huì)網(wǎng)絡(luò)等獲知當(dāng)前的話題,并做出轉(zhuǎn)發(fā),以概率PSI轉(zhuǎn)變?yōu)閭鞑ス?jié)點(diǎn)I,PSI稱為外部影響概率,也稱為直接感染概率。
(3)部分節(jié)點(diǎn)在接觸到傳播節(jié)點(diǎn)I后無(wú)法立即做出判斷,會(huì)根據(jù)自身和鄰居節(jié)點(diǎn)狀態(tài),以及整體社交網(wǎng)絡(luò)中的話題傾向而做出轉(zhuǎn)變。
(5)另一部分部分接觸節(jié)點(diǎn)C以概率PCR轉(zhuǎn)變?yōu)槊庖吖?jié)點(diǎn)R,PCR稱為接觸節(jié)點(diǎn)C對(duì)目標(biāo)話題的直接免疫概率。
(6)傳播節(jié)點(diǎn)I以概率PIR轉(zhuǎn)變?yōu)槊庖吖?jié)點(diǎn)R,PIR稱為傳播節(jié)點(diǎn)I對(duì)目標(biāo)話題的免疫概率,也稱為直接免疫概率。
(7)進(jìn)入免疫狀態(tài)的節(jié)點(diǎn),其狀態(tài)不再發(fā)生改變,也稱之為終止節(jié)點(diǎn),不再參與網(wǎng)絡(luò)中話題信息的傳播。
其中由接觸節(jié)點(diǎn)轉(zhuǎn)變?yōu)閭鞑ス?jié)點(diǎn)的概率PCI由3.2節(jié)得到的最終轉(zhuǎn)發(fā)概率公式計(jì)算得到;而由接觸節(jié)點(diǎn)轉(zhuǎn)變?yōu)槊庖吖?jié)點(diǎn)PCR的概率由免疫概率rec計(jì)算;由傳播節(jié)點(diǎn)轉(zhuǎn)變?yōu)槊庖吖?jié)點(diǎn)的概率PIR等于網(wǎng)絡(luò)中節(jié)點(diǎn)康復(fù)概率rec。
對(duì)于離線節(jié)點(diǎn)O,綜合考慮話題熱度和網(wǎng)絡(luò)中用戶活躍度,選擇一定比例的易感節(jié)點(diǎn)和傳播節(jié)點(diǎn),在每個(gè)傳播時(shí)步,對(duì)其設(shè)置為離線狀態(tài),具體的步驟如下:
①計(jì)算網(wǎng)絡(luò)當(dāng)前的話題熱度,這里認(rèn)為當(dāng)話題熱度較高時(shí),網(wǎng)絡(luò)的活躍度會(huì)相對(duì)較高,即用戶會(huì)更加積極的參與到話題的轉(zhuǎn)發(fā)和討論中,當(dāng)前話題熱度用:K=Inode/N計(jì)算,即傳播節(jié)點(diǎn)在網(wǎng)絡(luò)總節(jié)點(diǎn)N的比例。
②在每個(gè)時(shí)步對(duì)部分節(jié)點(diǎn)進(jìn)行離線處理,即進(jìn)行標(biāo)記,不參與本時(shí)刻的信息傳播,離線節(jié)點(diǎn)比例如下:offlinenode=K×P,P為用戶在線時(shí)長(zhǎng),由公式(11)計(jì)算,與網(wǎng)絡(luò)結(jié)構(gòu)特性無(wú)關(guān)。
第一,關(guān)于研究生國(guó)際合作的論文,主要有:譚敏的《我國(guó)研究生國(guó)際合作培養(yǎng)現(xiàn)狀及其質(zhì)量保障研究》;何勇靈的《研究生國(guó)際合作教學(xué)模式研究和實(shí)踐》;殷允杰、王潮霞的《我國(guó)研究生國(guó)際合作與聯(lián)合培養(yǎng)新模式探索》。
③在傳播完成之后,在下一時(shí)步恢復(fù)離線節(jié)點(diǎn)的傳播狀態(tài),即使其處于在線狀態(tài),繼續(xù)參與后續(xù)的信息傳播。
同時(shí),在本模型中,假設(shè)話題傳播過(guò)程中不考慮網(wǎng)絡(luò)中用戶的遷入及遷出以及新的關(guān)注關(guān)系的形成,即網(wǎng)絡(luò)中的拓?fù)浣Y(jié)構(gòu)不發(fā)生變化。
本文模型中信息傳播存在如下規(guī)則:當(dāng)源點(diǎn)傳播個(gè)體發(fā)布話題后,其關(guān)注者對(duì)用戶發(fā)布的話題以概率PSI進(jìn)行轉(zhuǎn)發(fā)或者評(píng)論以傳遞給更多的人,直接轉(zhuǎn)化為傳播節(jié)點(diǎn);當(dāng)未知者瀏覽傳播信息時(shí),他已了解信息但是尚未產(chǎn)生傳播選擇,那么未知者將以概率PSC轉(zhuǎn)變成接觸節(jié)點(diǎn),保持觀望狀態(tài);接觸節(jié)點(diǎn)者可能因?yàn)閷?duì)傳播信息感興趣以概率PCI選擇對(duì)其進(jìn)行轉(zhuǎn)發(fā),也可能在一段時(shí)間后對(duì)話題失去興趣,以概率PCR轉(zhuǎn)變?yōu)槊庖吖?jié)點(diǎn);而先前參與話題轉(zhuǎn)發(fā)的用戶也會(huì)逐漸失去興趣,以概率PIR去關(guān)注其他話題,從而不再進(jìn)行傳播,最終也轉(zhuǎn)變?yōu)槊庖吖?jié)點(diǎn);除此之外會(huì)有部分用戶完全不參與轉(zhuǎn)發(fā)而依概率δ直接轉(zhuǎn)變?yōu)槊庖哂脩簟?/p>
本文模型假設(shè)網(wǎng)絡(luò)節(jié)點(diǎn)總數(shù)不變,即短時(shí)間社交網(wǎng)絡(luò)用戶數(shù)量不變,選擇轉(zhuǎn)發(fā)的概率依據(jù)3.1節(jié)的公式(7)計(jì)算;用S(t)、C(t)、I(t)、R(t)分別表示t時(shí)段易感節(jié)點(diǎn)、接觸節(jié)點(diǎn)、傳播節(jié)點(diǎn)、免疫節(jié)點(diǎn)的數(shù)量,假定人口總數(shù)為N(t) ,那么S(t)+C(t)+I(t)+R(t)=N(t)。對(duì)應(yīng)態(tài)人口密度分別記作s(t)、c(t)、i(t)、r(t),則各態(tài)人口密度變化公式表示如下:
其中,k為初始接入網(wǎng)絡(luò)的節(jié)點(diǎn)單位時(shí)間度平均值,節(jié)點(diǎn)轉(zhuǎn)變速率同圖3 中的節(jié)點(diǎn)轉(zhuǎn)變概率,δ表示用戶未參與話題傳播而自發(fā)轉(zhuǎn)變未免狀態(tài)的速率,假設(shè)S(0)=N-1,I(0)=1,C(0)=0,R(0)=0,即除了一個(gè)傳播者節(jié)點(diǎn),其余節(jié)點(diǎn)全部為易感染節(jié)點(diǎn)。當(dāng)k=1時(shí),PSC=PCI=PCR=δ=0,本文模型的傳播過(guò)程近似SIR 模型。
本文利用Matlab生成無(wú)標(biāo)度和小世界網(wǎng)絡(luò),作為社交網(wǎng)絡(luò)信息傳播的底圖,再構(gòu)建改進(jìn)的SCIR 模型的傳播規(guī)則,模擬本文模型的傳播過(guò)程,并統(tǒng)計(jì)各類節(jié)點(diǎn)在傳播過(guò)程中每個(gè)時(shí)步的變化以及傳播結(jié)束后的模型的相關(guān)性能指標(biāo);同時(shí)建立SCIR模型作為對(duì)照,分析不同網(wǎng)絡(luò)上信息傳播的分布狀況;最后在新浪微博網(wǎng)絡(luò)上進(jìn)行仿真,分析了真實(shí)網(wǎng)絡(luò)結(jié)構(gòu)對(duì)信息傳播的影響。
無(wú)標(biāo)度網(wǎng)絡(luò)節(jié)點(diǎn)度分布不均勻,用hub型節(jié)點(diǎn)作為影響信息傳播的樞紐節(jié)點(diǎn),與真實(shí)網(wǎng)絡(luò)中的領(lǐng)袖型傳播節(jié)點(diǎn)極為相似,但是與小世界網(wǎng)絡(luò)相比其聚類系數(shù)偏低。小世界網(wǎng)絡(luò)雖然有著高聚類系數(shù),但是多數(shù)節(jié)點(diǎn)均勻分布,大度節(jié)點(diǎn)極少。本文假設(shè)網(wǎng)絡(luò)為有向無(wú)權(quán)網(wǎng)絡(luò),網(wǎng)絡(luò)參數(shù)設(shè)置以及度分布圖如表1所示。
表1 網(wǎng)絡(luò)參數(shù)設(shè)置
參考文獻(xiàn)[18]在研究針對(duì)在線社交網(wǎng)絡(luò)的傳染并模型中傳播概率的參數(shù)統(tǒng)計(jì),本文模型參數(shù)設(shè)置如下:隨機(jī)的從節(jié)點(diǎn)中,以概率0.1選取最初的傳播節(jié)點(diǎn)I,其余節(jié)點(diǎn)設(shè)置為易感節(jié)點(diǎn)S;傳播過(guò)程中,易感節(jié)點(diǎn)的傳染概率infec為0.7,康復(fù)概率rec為0.6;總共模擬25~30次時(shí)步下的傳播狀況,并分別統(tǒng)計(jì)了SCIR 模型和本文模型在無(wú)標(biāo)度網(wǎng)絡(luò)、小世界網(wǎng)絡(luò)上的傳染狀況以及各類節(jié)點(diǎn)的分布情況,如圖4所示。
從圖4 可以看出,在小世界網(wǎng)絡(luò)中,SCIR 模型傳播過(guò)程中最大傳播節(jié)點(diǎn)比例為30%,本文模型近似達(dá)到了40%,說(shuō)明在信息傳播過(guò)程中有更多的節(jié)點(diǎn)參與,信息得到了充分?jǐn)U散;在穩(wěn)態(tài)時(shí)間上,本文模型到達(dá)穩(wěn)態(tài)時(shí)間相較SCIR模型稍有延遲,相差不大;但是曲線在達(dá)到穩(wěn)態(tài)時(shí),本文模型中終止節(jié)點(diǎn)R(t)近似達(dá)到了網(wǎng)絡(luò)節(jié)點(diǎn)總規(guī)模,達(dá)到了免疫的效果,而SCIR模型中仍有部分節(jié)點(diǎn)尚未達(dá)到免疫。
如圖5所示,無(wú)標(biāo)度網(wǎng)絡(luò)中信息的傳播在兩個(gè)模型中都在10 個(gè)時(shí)步內(nèi)達(dá)到穩(wěn)態(tài),相較小世界網(wǎng)絡(luò)傳播速度更快;這是由于無(wú)標(biāo)度網(wǎng)絡(luò)度分布不均勻,有效傳播臨界值比較小,也就是說(shuō),在BA網(wǎng)絡(luò)中,只要出現(xiàn)初始傳播節(jié)點(diǎn),信息就能快速傳播并達(dá)到穩(wěn)定;同時(shí)在兩個(gè)模型中,穩(wěn)態(tài)時(shí)終止節(jié)點(diǎn)的比例相較小世界都相對(duì)較高,這是由于無(wú)標(biāo)度網(wǎng)絡(luò)中節(jié)點(diǎn)的異質(zhì)性導(dǎo)致信息的得到充分?jǐn)U散。從SCIR模型看出,在第4個(gè)時(shí)步,傳播節(jié)點(diǎn)和接觸節(jié)點(diǎn)的數(shù)量幾乎同時(shí)抵達(dá)峰值,說(shuō)明此時(shí)信息傳播進(jìn)入爆發(fā)高峰期。在第10 個(gè)時(shí)步,本文模型中免疫節(jié)點(diǎn)比例接近100%,信息傳播實(shí)現(xiàn)全網(wǎng)覆蓋,但SCIR模型中卻仍然存在少數(shù)S節(jié)點(diǎn)。
圖4 小世界網(wǎng)絡(luò)中的傳播狀態(tài)
圖5 無(wú)標(biāo)度網(wǎng)絡(luò)中的傳播狀態(tài)
綜合分析可知,本文模型對(duì)比傳統(tǒng)SCIR 模型在面對(duì)不同拓?fù)浣Y(jié)構(gòu)的網(wǎng)絡(luò)時(shí)有更好的適應(yīng)性,降低了網(wǎng)初始參數(shù)對(duì)用戶行為和信息傳播的影響;同時(shí)本文模型還反映出了不同網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)對(duì)最終免疫節(jié)點(diǎn)的影響,為后續(xù)免疫策略的研究提供了新的思路。
在實(shí)驗(yàn)中,為了定量的分析本文模型在傳播過(guò)程中變化情況,這里選取傳播中模型的最大感染比和免疫覆蓋率作為評(píng)價(jià)模型的性能指標(biāo)。
(1)最大感染比
為了判斷模型在不同類型的網(wǎng)絡(luò)中信息爆發(fā)式擴(kuò)散的程度,本文引入最大感染比,即網(wǎng)絡(luò)中S類節(jié)點(diǎn)S(t)和I類節(jié)點(diǎn)I(t)在網(wǎng)絡(luò)中的密度狀態(tài)相比的結(jié)果,以此來(lái)衡量模型中信息的爆發(fā)程度和傳播的穩(wěn)定程度,并判斷模型是否適應(yīng)不同類型的網(wǎng)絡(luò)。
圖6 不同網(wǎng)絡(luò)環(huán)境中最大感染比
實(shí)驗(yàn)假設(shè)感染概率infec和康復(fù)概率rec設(shè)定為0.8和0.6,初始感染概率為0.3,分別在兩類實(shí)驗(yàn)室網(wǎng)絡(luò)底圖上進(jìn)行,結(jié)果如圖6 所示??梢钥闯鲈趦深惥W(wǎng)絡(luò)中,隨著感染節(jié)點(diǎn)的增大,曲線呈上升趨勢(shì),當(dāng)達(dá)到峰值都開(kāi)始下降,而本文模型相較SCIR模型下降速率較低,說(shuō)明信息在網(wǎng)絡(luò)中擴(kuò)散時(shí)間長(zhǎng);兩類網(wǎng)絡(luò)中,本文的模型的最大感染比都相對(duì)較低,說(shuō)明在傳播過(guò)程中,造成的信息爆發(fā)式擴(kuò)散程度較低,傳播更為穩(wěn)定。
(2)免疫節(jié)點(diǎn)覆蓋率
最大感染比說(shuō)明了模型在不同拓?fù)浣Y(jié)構(gòu)的網(wǎng)絡(luò)中是否有較好的適應(yīng)表現(xiàn),除此之外,信息在網(wǎng)絡(luò)中的擴(kuò)散程度也是一項(xiàng)重要指標(biāo)。因此,本文在BA網(wǎng)絡(luò)、WS小世界網(wǎng)絡(luò)下,比較了SCIR 模型與本文模型隨著初始免疫概率rec的變化,在傳播達(dá)到穩(wěn)態(tài)時(shí)免疫節(jié)點(diǎn)在密度占比作為穩(wěn)定性指標(biāo),如圖7所示。
圖7 SCIR模型和本文模型的免疫節(jié)點(diǎn)密度
如圖為WS小世界網(wǎng)絡(luò)中,穩(wěn)態(tài)免疫節(jié)點(diǎn)密度隨著初始免疫概率rec增大呈現(xiàn)增長(zhǎng)趨勢(shì),設(shè)定免疫概率從0.5~1.0變化;當(dāng)rec=0.65 時(shí)兩曲線相交,之后本文模型免疫比率繼續(xù)升高,而SCIR模型的增長(zhǎng)放緩,在免疫概率很高的理想情況下,本文模型相較SCIR 模型高出10%的免疫比率,說(shuō)明免疫節(jié)點(diǎn)覆蓋率更高,并且達(dá)到了1.0,從免疫策略來(lái)說(shuō)最終實(shí)現(xiàn)了全體免疫。
為了驗(yàn)證本文模型模擬真實(shí)網(wǎng)絡(luò)中的效果,這里將網(wǎng)絡(luò)模型在新浪微博數(shù)據(jù)集上進(jìn)行驗(yàn)證。其中,文中所用的新浪微博數(shù)據(jù)來(lái)源網(wǎng)址為:https://archive.ics.uci.edu/ml/datasets/microblogPCU。所有用到的數(shù)據(jù)集中網(wǎng)絡(luò)節(jié)點(diǎn)數(shù)為6 472,邊數(shù)為14 235,在仿真過(guò)程中,參考Yang 等人[19]對(duì)主流在線社交網(wǎng)絡(luò)中出現(xiàn)的推文轉(zhuǎn)發(fā)次數(shù)以及用戶瀏覽頻率的統(tǒng)計(jì)分析的結(jié)論,選取傳播概率0.6、免疫概率0.8 進(jìn)行仿真實(shí)驗(yàn),兩類模型的傳播過(guò)程如圖8 所示;在微博網(wǎng)絡(luò)中兩種模型的對(duì)比如圖8 所示。由于新浪微博具有冪律分布特性,屬于異質(zhì)網(wǎng)絡(luò),超級(jí)傳播者對(duì)信息傳播影響比較明顯,網(wǎng)絡(luò)中傳播節(jié)點(diǎn)比例相較BA 網(wǎng)絡(luò)和WS 網(wǎng)絡(luò)都有較為明顯的增加,說(shuō)明信息在網(wǎng)絡(luò)中擴(kuò)散更為明顯。通過(guò)對(duì)比發(fā)現(xiàn):SCIR模型中初態(tài)的S節(jié)點(diǎn)密度較本文模型中S(t)值從80%下降至55%,盡管免疫節(jié)點(diǎn)比例兩個(gè)模型接近,都近似完成了100%免疫,但本文模型傳播用戶數(shù)量明顯較少,說(shuō)明用戶的轉(zhuǎn)發(fā)行為與用戶關(guān)聯(lián)強(qiáng)度之間存在相關(guān)性,真實(shí)社交網(wǎng)絡(luò)強(qiáng)連接關(guān)系較少,導(dǎo)致接觸節(jié)點(diǎn)密度較低,大部分用戶選擇直接參與了信息傳播過(guò)程。
圖8 新浪微博中的傳播狀態(tài)
圖9 新浪微博中的傳播速率變化
為了進(jìn)一步驗(yàn)證本文模型的可靠性,本文統(tǒng)計(jì)了兩個(gè)模型中傳播節(jié)點(diǎn)和免疫節(jié)點(diǎn)的變化速率的比值,以此衡量信息在社交網(wǎng)絡(luò)中傳播速率,同時(shí)也可以看作熱點(diǎn)話題在網(wǎng)絡(luò)中的走勢(shì)變化。如圖9所示,本文模型傳播速率高于SCIR模型,并且話題熱度衰減較快,因?yàn)檎鎸?shí)社交網(wǎng)絡(luò)的冪律分布特性使得信息得以快速傳播,并且當(dāng)信息充分?jǐn)U散后,其傳播速率會(huì)迅速下降;同時(shí)在11個(gè)時(shí)步傳播速率出現(xiàn)了小幅回升,類似于真實(shí)網(wǎng)絡(luò)出現(xiàn)的“二次熱度”現(xiàn)象,這是因?yàn)楫?dāng)信息在網(wǎng)絡(luò)中充分?jǐn)U散,部分接觸節(jié)點(diǎn)會(huì)根據(jù)自身?xiàng)l件做出選擇,導(dǎo)致話題熱度小幅回升。
圖10 為《新浪微博:2016 年上半年熱門(mén)話題盤(pán)點(diǎn)》中熱點(diǎn)話題:“和頤酒店女生遇襲”事件發(fā)生后24 小時(shí)內(nèi)該話題在微博的熱度走勢(shì)變化,受到用戶作息時(shí)間的影響,話題熱度在上午達(dá)到頂峰,之后話題熱度逐漸下降趨于平穩(wěn);之后出現(xiàn)了話題熱度的小幅度回升,說(shuō)明部分先前處于觀望狀態(tài)的用戶也參與到討論。由此可以看出,本文模型中信息傳播狀況更加接近真實(shí)社交網(wǎng)絡(luò)的情況。
圖10 “和頤酒店女生遇襲”微博熱度趨勢(shì)
本文以傳染病動(dòng)力學(xué)中的SCIR 模型為基礎(chǔ),改進(jìn)了傳播概率計(jì)算方式和節(jié)點(diǎn)狀態(tài)屬性,構(gòu)建了新的網(wǎng)絡(luò)信息傳播模型。本文模型假設(shè)當(dāng)用戶發(fā)布了話題信息,其所關(guān)注者依概率轉(zhuǎn)化為傳播狀態(tài)、接觸狀態(tài)和免疫狀態(tài),這幾類節(jié)點(diǎn)的狀態(tài)在傳播過(guò)程中會(huì)依據(jù)傳播規(guī)則進(jìn)行轉(zhuǎn)化。
為了驗(yàn)證模型的準(zhǔn)確性,本文利用人工網(wǎng)絡(luò)和新浪微博網(wǎng)絡(luò)作為信息傳播底圖,進(jìn)行了模型的仿真實(shí)驗(yàn),進(jìn)一步分析了模型中各參數(shù)的變化對(duì)傳播過(guò)程的影響。結(jié)果表明:(1)該模型可以很好地描述社交網(wǎng)絡(luò)話題的傳播模式;(2)用戶連接強(qiáng)度和用戶鄰居節(jié)點(diǎn)會(huì)對(duì)其轉(zhuǎn)發(fā)選擇產(chǎn)生較大影響;(3)真實(shí)網(wǎng)絡(luò)中用戶的離線狀態(tài)會(huì)很大程度降低話題活躍度,減緩信息擴(kuò)散速率。本文假設(shè)網(wǎng)絡(luò)拓?fù)渚鶠闊o(wú)向圖,并且沒(méi)有考慮信息傳播過(guò)程中網(wǎng)絡(luò)結(jié)構(gòu)的變化情況,這是一種理想化的設(shè)想,但真實(shí)網(wǎng)絡(luò)結(jié)構(gòu)并非單一特定話而是具有復(fù)雜的社會(huì)性,如何根據(jù)信息本身以及信息源頭等因素研究社交網(wǎng)絡(luò)中熱點(diǎn)話題的演化趨勢(shì),將是下一步的研究方向。