李倩+張碧君+趙中英
摘要摘要:基于社會化媒體數(shù)據(jù)研究信息的傳播及預測,是當前網(wǎng)絡輿情分析的一大熱點。以Twitter數(shù)據(jù)為研究對象,以探尋影響信息轉發(fā)的因素為研究目的,設計算法分析活躍鄰居節(jié)點數(shù)對轉發(fā)行為的影響,提出3種活躍鄰居節(jié)點結構并驗證三者對轉發(fā)行為的影響程度,運用重啟動的隨機游走算法研究回復與提及關系對轉發(fā)行為的影響。在Twitter數(shù)據(jù)集上實現(xiàn)了該算法,證明了活躍鄰居節(jié)點數(shù)、活躍鄰居節(jié)點結構、回復與提及關系對轉發(fā)行為的影響。
關鍵詞關鍵詞:信息傳播;轉發(fā)預測;社交媒體;輿情分析
DOIDOI:10.11907/rjdk.162452
中圖分類號:TP301文獻標識碼:A文章編號文章編號:16727800(2017)001001503
引言
當前,以網(wǎng)絡為媒介的網(wǎng)絡輿論成為公眾輿論的主要形式之一,研究信息轉發(fā)的影響因素,有助于研究網(wǎng)絡輿情的演化與信息傳播機制,對有效引導和管理社會輿論、化解輿情危機具有重要意義。在線社交網(wǎng)絡的信息傳播行為影響因素研究受到眾多學者的廣泛關注,并已成為當前研究熱點。Kossinets等[1]利用聚類方法分析社會網(wǎng)絡數(shù)據(jù),構建網(wǎng)絡特征傳播樹,建立信息傳播概率模型。Galuba等[2]建立轉發(fā)路徑預測模型研究用戶之間傳播規(guī)律。Suh等[3]選取了標簽、URL、關注者人數(shù)等眾多因素,運用主成份分析方法建立模型,提取出用戶轉發(fā)的主要影響因素。Zhang等[4]研究分析影響用戶關注網(wǎng)絡結構對用戶轉發(fā)行為的影響,提出邏輯回歸模型預測轉發(fā)行為。李志清[5]針對單個用戶個性化的內(nèi)容興趣偏好,通過主題抽取模型對微博內(nèi)容進行語義主題抽取,運用SVM的方法預測單個用戶是否轉發(fā)某條微博。曹玖新等[6]根據(jù)實際社交網(wǎng)絡新浪微博在線數(shù)據(jù),對各種可能影響用戶轉發(fā)行為的因素進行統(tǒng)計分析,獲得各種因素對用戶轉發(fā)行為的影響關系。以上通過對社交網(wǎng)絡中信息傳播路徑的研究,分析信息傳播影響范圍,預測用戶轉發(fā)行為,得到信息傳播的統(tǒng)計規(guī)律特征。但是微博客處于不斷成長中,準確地把握微博客上的信息傳播特點和模式非常困難,對于微博客的研究還有很多值得改進之處。
針對以上不足,本文對影響用戶信息轉發(fā)行為的影響因素進行分析,包括關注(活躍鄰居節(jié)點數(shù)、活躍鄰居結構)、回復、提及等,旨在為信息轉發(fā)預測建模提供參考。
1活躍鄰居節(jié)點數(shù)對轉發(fā)行為的影響
在關注關系所形成的網(wǎng)絡中,以某一個Twitter消息為例,若用戶A轉發(fā)了該消息,則認為A為活躍節(jié)點。若用戶B關注用戶A,并且用戶B是活躍節(jié)點,則稱用戶B為用戶A的活躍鄰居節(jié)點。
本文首先研究活躍鄰居節(jié)點數(shù)對用戶轉發(fā)行為的影響程度。文獻[4]已經(jīng)證明間接用戶對鄰居的影響很小[4],因此本文只研究了用戶的直接鄰居節(jié)點對用戶轉發(fā)行為的影響。具體思路為:統(tǒng)計每個用戶的活躍鄰居節(jié)點數(shù),然后統(tǒng)計每個活躍鄰居節(jié)點數(shù)的總用戶數(shù)和轉發(fā)用戶數(shù),計算出轉發(fā)率,用轉發(fā)率的大小來衡量活躍鄰居節(jié)點數(shù)對用戶轉發(fā)行為的影響。
Step7:用t[n]除以tdu[n]得出百分比,即為鄰居活躍節(jié)點數(shù)為n個的用戶的轉發(fā)概率。
Step8:只有一個鄰居活躍節(jié)點的用戶分到Control組,其它的分到Treatment組,用Treatment組中數(shù)據(jù)分別除以Control組中數(shù)據(jù),得到的比值用于衡量影響的大小。
圖1為活躍鄰居節(jié)點數(shù)對轉發(fā)行為的影響程度,橫坐標表示活躍鄰居節(jié)點數(shù)量,縱坐標表示擁有多個活躍鄰居節(jié)點的用戶轉發(fā)率與只擁有一個活躍鄰居節(jié)點的用戶轉發(fā)率的比值。從圖1中可知,隨著活躍鄰居節(jié)點數(shù)的增加,用戶的轉發(fā)可能性隨之增加,呈現(xiàn)出一種增長趨勢。綜上所述,活躍鄰居節(jié)點數(shù)對用戶轉發(fā)行為的影響確實存在。
2活躍鄰居結構對轉發(fā)行為的影響
在Twitter平臺上,因關注與被關注關系的存在,節(jié)點周圍有許多聯(lián)系密切的鄰居節(jié)點,包括關注者鄰居節(jié)點集合和追隨者鄰居節(jié)點集合。根據(jù)Twitter平臺信息傳播的特點,用戶往往可以看到其關注者發(fā)表的推文,再根據(jù)個人需求決定是否從其關注者處轉發(fā)該推文。因此,有必要研究活躍鄰居結構對用戶轉發(fā)行為的影響程度。
紅色節(jié)點表示曾經(jīng)都轉發(fā)過某篇推文的活躍鄰居節(jié)點,白色節(jié)點表示未曾轉發(fā)過同一篇推文的不活躍鄰居節(jié)點,節(jié)點之間的連線表示關注關系。圖2(a)- (c)用戶的3個活躍鄰居節(jié)點的結構不同。對于聯(lián)通鄰居結構,刪除用戶V之后,用戶V的3個鄰居節(jié)點A、C、F之間能通過有限步數(shù)到達彼此,即所有鄰居節(jié)點構成一個連通分量,稱A、C、F組成一個圈。對于非聯(lián)通鄰居結構,A、F、C都不可以相互到達,稱A、C、F組成3個圈。剩余的情況,即A、C、F組成兩個圈,稱作半聯(lián)通鄰居結構。
研究以上3種結構對用戶V轉發(fā)行為的影響。轉發(fā)率(Retweet Probability 簡稱Retweet_P)用來衡量用戶v的轉發(fā)概率,轉發(fā)率越大,用戶v就越有可能轉發(fā)該推文。首先找出樣本數(shù)據(jù)中所有的至少有3個活躍鄰居節(jié)點的用戶節(jié)點v數(shù)據(jù)集,然后從中找出3個活躍鄰居節(jié)點的結構符合上述3種結構的用戶節(jié)點v數(shù)據(jù)集,對用戶節(jié)點數(shù)據(jù)集中的每一個用戶節(jié)點,判斷其是否轉發(fā)了同一篇推文,轉發(fā)過同一篇推文的記作N+,未轉發(fā)過的記作N—,那么轉發(fā)率(Retweet_P)可用式(1)表示。Retweet_P=N+/(N++N_)(1)運用算法計算3種結構的轉發(fā)可能性,結果如圖3所示。
分析3種結果轉發(fā)的可能性發(fā)現(xiàn),聯(lián)通鄰居結構對信息轉發(fā)的影響程度是非聯(lián)通鄰居結構的兩倍多。3種關注網(wǎng)絡結構反映了用戶與其直接鄰居節(jié)點之間的關系。上述結果顯示,用戶與其鄰居節(jié)點之間關系越密切,轉發(fā)可能性越大,可知用戶的關注網(wǎng)絡結構與轉發(fā)可能性緊密相關。
3回復與提及對轉發(fā)行為的影響
運用重啟動的隨機游走算法分析回復和提及網(wǎng)絡對用戶轉發(fā)行為的影響。對網(wǎng)絡中的每一個用戶節(jié)點vi,計算τ深度活躍鄰居節(jié)點vj與該用戶的緊密程度,τ深度鄰居節(jié)點vj的游走概率pj用式(2)表示。i=(1-c)Ai+ci(2)i=(Pi(1),Pi(2),…,Pi(|Gτi|))代表穩(wěn)定概率向量,對向量中的每一個元素Pi(j)代表節(jié)點i與其鄰居節(jié)點j的密切程度。|Gτi|是vi的鄰居自我網(wǎng)絡的大小,即鄰居節(jié)點的個數(shù)。列向量i為重啟動向量,表示初始狀態(tài)下粒子在頂點i的概率。列向量i中設置目標用戶頂點值為1,其余為0。A是轉移概率矩陣,A的元素表示當前頂點i下一步到達頂點j的轉移概率。c為直接回到出發(fā)頂點的概率,取0.8時效果最好。
轉移概率矩陣A的構造在隨機游走算法中意義重大。結合研究課題,用回復和提及網(wǎng)絡來構造轉移概率矩陣A。在關注網(wǎng)絡結構的基礎上,將回復和提及網(wǎng)絡節(jié)點間的權重累加到相應的關注網(wǎng)絡上,構造關注-回復-提及網(wǎng)絡結構。那么轉移概率矩陣A的每一個變量A[i][j]可以用式(3)計算出。A[i][j]=Aij∑|Gτi|j=1Aij(3)其中,Aij表示邊權重,∑|Gτi|j=1Aij表示與目標節(jié)點相連接的所有邊權重之和。
應用隨機游走算法,從用戶節(jié)點vi開始游走,每到一個節(jié)點都以1-w的概率停止游走并從vi重新開始,或者以w的概率從當前節(jié)點指向的節(jié)點中按照概率隨機選擇一個節(jié)點往下游走[7]。根據(jù)六步原則,隨機游走的步數(shù)不會超過6。因此,經(jīng)過不斷迭代,每個頂點被訪問到的概率就會達到穩(wěn)定狀態(tài)。隨機游走轉發(fā)概率和與實際轉發(fā)概率的關系如圖4所示,由此可知,實際轉發(fā)概率與所有鄰居節(jié)點的概率和成正比,用所有鄰居節(jié)點的概率和可以較好地預測目標用戶的轉發(fā)概率。
4結語
本文主要研究影響用戶轉發(fā)行為的各種因素,分別研究了活躍鄰居節(jié)點數(shù)、活躍鄰居節(jié)點結構、回復與提及關系對轉發(fā)行為的影響。相關結果表明,以上三者與用戶的信息轉發(fā)行為密切相關,能夠為后續(xù)信息傳播模型的構建及信息傳播態(tài)勢的預測奠定基礎。
圖4隨機游走轉發(fā)概率和與實際轉發(fā)概率的關系
參考文獻參考文獻:
[1]KOSSINETS G,KLEINBERG J,WATTS D.The structure of information pathways in a social communication network[J].Physics,2008,109(11):7179.
[2]GALUBA W,ABERER K,CHAKRABORTY D,et al.Outtweeting the twitterers-predicting information cascades in microblogs[C].International Conference on Online Social Networks.USENIX Association,2010.
[3]SUH B,HONG L,PIROLLI P,et al.Want to be retweeted? large scale analytics on factors impacting retweet in twitter network[C].IEEE Second International Conference on Social Computing (Socialcom),Passat 2010,Minneapolis,Minnesota,2010:177184.
[4]ZHANG J,TANG J,LI J,et al.Who influenced you? predicting retweet via social influence locality[J].ACM Transactions on Knowledge Discovery from Data,2015,9(3):126.
[5]李志清.基于LDA主題特征的微博轉發(fā)預測[J].情報雜志,2015(9):158162.
[6]曹玖新,吳江林,石偉,等.新浪微博網(wǎng)信息傳播分析與預測[J].計算機學報,2014(4):779790.
[7]郭三君,萬敏.一種改進的重啟動隨機游走立體匹配算法[J].中國科技論文,2016,11(2):242244.