吳蓉 賴偉杰 孟佳娜 左振飛
摘? 要: 為了探討復(fù)雜網(wǎng)絡(luò)特征,文章通過爬取新浪微博數(shù)據(jù),并對數(shù)據(jù)進(jìn)行清洗,利用微博用戶的關(guān)注關(guān)系構(gòu)建微博關(guān)系復(fù)雜網(wǎng)絡(luò),建立微博關(guān)注模型?;趶?fù)雜網(wǎng)絡(luò)理論和分析方法,研究了微博的網(wǎng)絡(luò)特征,探討用戶關(guān)注關(guān)系網(wǎng)絡(luò)的小世界特性和無標(biāo)度特性等特征。研究結(jié)果表明,微博關(guān)注網(wǎng)絡(luò)的度分布服從冪律分布,具有較高入度的用戶節(jié)點相比低入度的節(jié)點更容易被人關(guān)注,使得網(wǎng)絡(luò)整體的無標(biāo)度特性加強(qiáng)。
關(guān)鍵詞: 微博; 關(guān)系網(wǎng)絡(luò); 小世界網(wǎng)絡(luò); 無標(biāo)度網(wǎng)絡(luò); 聚類系數(shù)
中圖分類號:G206? ? ? ? ? 文獻(xiàn)標(biāo)志碼:A? ? ?文章編號:1006-8228(2019)01-33-04
Abstract: For discussing complex network characteristics, the micro-blog user's follower relationship was used to build the micro-blog relationship complex network and the micro-blog follower relationship model by crawling and cleaning the Sina micro-blog data. Based on the theory and the analysis method of complex network, in this paper the micro-blog network characteristics were studied, the small-world and the scale-free characteristics of users' follower network was discussed. The research results show that the degree distribution of micro-blog follower network follows the power-law distribution. Comparing with low in-degree nodes, nodes with higher in-degree were more likely to be concerned, which makes the network enhance the overall scale-free property.
Key words: micro-blog; relationship networks; small-world networks; scale-free networks; clustering coefficient
0 引言
復(fù)雜網(wǎng)絡(luò)是指具有自組織、自相似、吸引子、小世界、無標(biāo)度中部分或全部性質(zhì)的網(wǎng)絡(luò)。隨著復(fù)雜網(wǎng)絡(luò)的小世界效應(yīng)以及無標(biāo)度性的提出[1],復(fù)雜網(wǎng)絡(luò)理論被應(yīng)用到各個領(lǐng)域,自然界中存在的大量的復(fù)雜系統(tǒng)都可以用網(wǎng)絡(luò)來描述,有學(xué)者發(fā)現(xiàn)社交網(wǎng)絡(luò)[2]也符合復(fù)雜網(wǎng)絡(luò)的模型,因此復(fù)雜網(wǎng)絡(luò)理論同樣被應(yīng)用到了分析社交網(wǎng)絡(luò)。
微博是一種通過關(guān)注機(jī)制分享簡短實時信息的廣播式的社交網(wǎng)絡(luò)平臺[3],本文從微博平臺入手,使用復(fù)雜網(wǎng)絡(luò)理論對其結(jié)構(gòu)進(jìn)行研究。
1 微博關(guān)系復(fù)雜網(wǎng)絡(luò)的構(gòu)建
在2017年6月時以第一作者的微博賬號作為種子,先獲取了所有第一作者關(guān)注的用戶的數(shù)據(jù),再獲得了這些用戶所關(guān)注的用戶的數(shù)據(jù),從而對微博網(wǎng)絡(luò)進(jìn)行了三層的廣度優(yōu)先遍歷。這里的用戶數(shù)據(jù)包括用戶的微博條數(shù)、獲得別人點贊的個數(shù)、用戶關(guān)注的人和關(guān)注用戶的人,數(shù)據(jù)包含2.6萬名用戶,461萬條關(guān)注連接。
對于微博來說,關(guān)注和被關(guān)注實際上是一件事情的兩個角度。A關(guān)注了B,等價于B被A關(guān)注。在所爬取的數(shù)據(jù)中,記錄了這2.6萬用戶中的每個人都關(guān)注了哪些人,及獲取了2.6萬用戶節(jié)點的所有外連邊。在根據(jù)以上用戶數(shù)據(jù)和關(guān)注連接,本文建立起基于用戶關(guān)注的復(fù)雜網(wǎng)絡(luò)模型。
對于現(xiàn)實生活中常見的復(fù)雜系統(tǒng),如交通網(wǎng)絡(luò)、在線社交網(wǎng)絡(luò),可以自然地將其建模成復(fù)雜網(wǎng)絡(luò)來進(jìn)行抽象表達(dá)。圖作為一種數(shù)據(jù)結(jié)構(gòu),被應(yīng)用到復(fù)雜網(wǎng)絡(luò)的描述中,其中網(wǎng)絡(luò)實體用圖的頂點表示,實體之間的聯(lián)系用關(guān)聯(lián)邊表示。本文模型中將用戶視為復(fù)雜網(wǎng)絡(luò)中的節(jié)點,將用戶的關(guān)注與被關(guān)注關(guān)系視作邊,節(jié)點的出度值是該用戶的關(guān)注數(shù),節(jié)點的入度值是該用戶的粉絲數(shù),邊上的權(quán)值為該用戶關(guān)注數(shù)量的倒數(shù),整個網(wǎng)絡(luò)為有向網(wǎng)絡(luò)。
2 微博復(fù)雜網(wǎng)絡(luò)特征分析
復(fù)雜網(wǎng)絡(luò)具有小世界、無標(biāo)度和集聚性[4-5]特性,社會網(wǎng)絡(luò)是復(fù)雜網(wǎng)絡(luò)的一種,所以一些復(fù)雜網(wǎng)絡(luò)的理論和研究方法也適用于社會網(wǎng)絡(luò)分析的研究。例如復(fù)雜網(wǎng)絡(luò)中的小世界效應(yīng)、無標(biāo)度網(wǎng)絡(luò)特性、聚類系數(shù)屬性等。
本文統(tǒng)計了微博的粉絲數(shù)量、微博條數(shù)、以及與其他人互動的點贊數(shù)和評論數(shù),對這幾種指標(biāo)求取了均值、中位數(shù)和標(biāo)準(zhǔn)差。如表1所示,標(biāo)準(zhǔn)差衡量了數(shù)據(jù)個體之間的離散程度,中位數(shù)遠(yuǎn)小于均值,可以看出大部分用戶與均值的差距十分大。符合復(fù)雜網(wǎng)絡(luò)中的無標(biāo)度特征。
在微博社交網(wǎng)絡(luò)數(shù)據(jù)中,冪率分布是數(shù)據(jù)的基本規(guī)律,冪率分布的長尾部分?jǐn)?shù)據(jù)有明顯的稀疏性[6-7]。圖1與圖2的橫軸表示指標(biāo)的具體數(shù)值,縱軸表示有多少用戶具有該指標(biāo)值。橫軸值和縱軸值都取了以10為底的對數(shù),在雙對數(shù)坐標(biāo)下的圖像,前半部分的線性特性并不是很強(qiáng),而在后半部分,則近乎為一直線,其斜率的負(fù)數(shù)就是冪指數(shù)。以粉絲分布圖為例,最左上方的點表示在這兩萬多微博用戶里面,有大于103的人沒有獲得一個關(guān)注。在圖1的雙對數(shù)坐標(biāo)中利用線性回歸得到斜率為-1.65,回歸系數(shù)R2=1.65。大部分的節(jié)點只有少量的連邊,而少量的節(jié)點卻擁有大量的連邊,說明了所構(gòu)建的網(wǎng)絡(luò)的冪律分布符合無標(biāo)度網(wǎng)絡(luò)的特征。
為了分析網(wǎng)絡(luò)特點,本文對所爬取的數(shù)據(jù)的若干特征進(jìn)行了計算,網(wǎng)絡(luò)整體計算結(jié)果見表2。網(wǎng)絡(luò)的聚類系數(shù)為1.453,結(jié)點平均距離為4.777,網(wǎng)絡(luò)直徑為12,可見,該網(wǎng)絡(luò)的聚類系數(shù)較大,結(jié)點平均距離較小,滿足小世界的特點。
圖的平均最短路徑長度是指將網(wǎng)絡(luò)所有點兩兩之間的最短路徑長度進(jìn)行算術(shù)平均,可以用來衡量網(wǎng)絡(luò)中點之間的平均距離。六度分隔理論指的是一個網(wǎng)絡(luò)的平均最短路徑長度為6。在微博復(fù)雜網(wǎng)絡(luò)模型中反映用戶與用戶之間的平均距離,是評價一個用戶緊密度的重要指標(biāo)。表3給出了粉絲數(shù)大于1萬的用戶中平均最短路徑為2.0547 。這意味著兩個粉絲數(shù)大于1萬的大V用戶想要相互認(rèn)識平均需要兩個中間人。網(wǎng)絡(luò)表現(xiàn)出小世界的網(wǎng)絡(luò)特征。另外直徑這個參數(shù)表示大V之間相互認(rèn)識的最壞情況,兩個大V之間的距離高達(dá)4個人。這是網(wǎng)絡(luò)中的一種極限情況,存在的數(shù)量極少。由表3可知,粉絲數(shù)量大于5萬的子集網(wǎng)絡(luò)密度大于粉絲數(shù)量大于1萬的子集。說明粉絲數(shù)量越高的群體之間的聯(lián)系就越為緊密,網(wǎng)絡(luò)越為健壯,不會因為失去少數(shù)節(jié)點而破壞網(wǎng)絡(luò)的連通性。
復(fù)雜網(wǎng)絡(luò)中已提出多種中心性指標(biāo)來度量節(jié)點的重要程度,如度中心性、介數(shù)中心性、接近中心性、特征向量中心性等。目前應(yīng)用較多的即為度中心性、介數(shù)中心性、接近中心性[8]。一個點的近性中心度較高,說明該點到網(wǎng)絡(luò)中其他各點的距離總體來說較近,反之則較遠(yuǎn)。在微博復(fù)雜網(wǎng)絡(luò)中需要選某個用戶作為熱點消息中轉(zhuǎn)站,需要它到其他用戶的距離總體來說最近,方法就是找到近性中心度最高的那個用戶。
一個節(jié)點的介性中心度較高,說明其他節(jié)點之間的最短路徑很多甚至全部都必須經(jīng)過這個結(jié)點。假如這個點消失了,那么其他點之間的連接可能消失。圖3給出了粉絲大于5萬用戶近性中心度分布圖,圖中橫坐標(biāo)表示每一個特定的用戶,縱坐標(biāo)是用戶相應(yīng)的近性中心度。從圖3中可以看出,近性中心度服從冪律分布。
圖4給出粉絲大于5萬的用戶介性中心度分布,圖4中橫坐標(biāo)表示每一個特定的用戶,縱坐標(biāo)是用戶相應(yīng)的介性中心度。圖4的后半部分表明大部分用戶的介性中心度接近0,說明這些用戶即使退出微博網(wǎng)絡(luò),也幾乎不會影響其他用戶之間建立關(guān)注關(guān)系。橫向?qū)Ρ葓D4,隨著圈子增大,冪律變得更強(qiáng),除了少數(shù)點,大部分的人介性中心度都更趨近于0,人數(shù)的增加進(jìn)一步稀釋了大多數(shù)人的“獨特性”,網(wǎng)絡(luò)健壯性越來越強(qiáng)。
3 結(jié)束語
本文以微博用戶關(guān)注數(shù)據(jù)建立了復(fù)雜網(wǎng)絡(luò)模型,運(yùn)用了復(fù)雜網(wǎng)絡(luò)的一系列評估方法研究,結(jié)果表明微博用戶在微博上的參與度極其不均衡,大部分用戶的粉絲數(shù)都比較少。微博關(guān)注關(guān)系構(gòu)成的網(wǎng)絡(luò)的度分布服從冪律分布,整體表現(xiàn)出了無標(biāo)度的特性,隨著網(wǎng)絡(luò)節(jié)點的不斷增加,網(wǎng)絡(luò)健壯性越來越強(qiáng)。意味著即使少數(shù)節(jié)點離開了微博平臺,對于網(wǎng)絡(luò)連接影響較小。
參考文獻(xiàn)(References):
[1] 李清敏,張華平,劉金剛.面向話題的中文微博觀點傾向性分析研究[J].科學(xué)技術(shù)與工程,2014.14(2):227-231
[2] 彭希羨,朱慶華,沈超.基于社會網(wǎng)絡(luò)基于社會網(wǎng)絡(luò)分析的社會計算領(lǐng)域的作者合作分析[J].情報雜志, 2013.33(3):93-100
[3] 宋雙永,李秋丹,路冬媛.面向微博客的熱點事件情感分析方法[J].計算機(jī)科學(xué),2014.39(6A):226-260
[4] Kolda T G, Pinar A, Plantenga T, et al. A scalablegenerative graph model with community structure[J].Siam Journal on Scientific Computing,2014.36(5):424-452
[5] 孟佳娜,孫雪蓮,云健.基于社會網(wǎng)絡(luò)分析的高校教師科研合作關(guān)系研究[J].大連民族學(xué)院學(xué)報,2015.17(5):525-528
[6] 孫奕菲,姚若俠,焦李成.基于Memetic算法和關(guān)聯(lián)學(xué)習(xí)的社會網(wǎng)絡(luò)聚類分析[J].復(fù)雜系統(tǒng)與復(fù)雜性科學(xué),2017.14(2):89-96
[7] 曾潤喜,王晨曦,陳強(qiáng).網(wǎng)絡(luò)輿情傳播階段與模型比較研究[J].情報雜志,2014.5:119-124
[8] 童林萍,徐守志,周歡等.復(fù)雜網(wǎng)絡(luò)中節(jié)點暫態(tài)中心性預(yù)測研究[J].計算機(jī)科學(xué),2017.44(10):122-126