楊揚,王鴦雨
(1.南京師范大學計算機科學與技術學院,南京 210023;2.南京師范大學教師教育學院,南京 210023)
一種基于用戶影響力的社交網(wǎng)絡傳播代價模型設計
楊揚1,王鴦雨2
(1.南京師范大學計算機科學與技術學院,南京210023;2.南京師范大學教師教育學院,南京210023)
近年來,以微博為代表的社交網(wǎng)絡得到迅速普及和發(fā)展,已成為廣大民眾獲取信息和發(fā)表觀點的重要平臺,不斷影響著人們的生活。由于社交網(wǎng)絡具有用戶規(guī)模龐大、話題更新頻繁、信息傳播迅速和影響范圍廣泛等特點,使其研究工作具有很重要的意義。
隨著互聯(lián)網(wǎng)的不斷發(fā)展,微博由于其快捷、方便等特征不斷發(fā)展,微博用戶不斷膨脹,并成為企業(yè)營銷推廣的重要渠道。隨著微博的熱門,越來越多的商家開始通過微博平臺推廣自己產(chǎn)品信息。此時,推廣方案的可行性與其價值的高低則需要通過建模進行有效的評估。這是一個很有研究價值的問題。
在微博中,用戶的影響力直接關系著傳播的代價[3];在商業(yè)推廣時,都希望自己的推廣消息能傳播的更為廣泛,能被更多的人看到,以影響到更多的用戶。根據(jù)用戶的粉絲數(shù),得到發(fā)布消息的用戶數(shù)排名。綜合上述兩個指標建立社交網(wǎng)絡傳播代價模型,考量推廣方案的效果和價值。
在已有的研究中,都是將粉絲數(shù)作為社交網(wǎng)絡傳播代價的衡量標準;而本文在考慮粉絲數(shù)的同時,也考慮到用戶的關注數(shù)、發(fā)微博數(shù),都作為用戶影響力的影響因子;與此同時,我們還考慮了發(fā)布消息用戶數(shù)排名前十的用戶集合,對其推廣價值進行比較,這樣得到的結(jié)果更優(yōu)。
綜上建立更加完善的社交網(wǎng)絡傳播代價模型,綜合考量社交網(wǎng)絡傳播代價,并將其應用到商業(yè)推廣方案的推廣價值分析之中。
為了得到社交網(wǎng)絡傳播代價,我們建立了社交網(wǎng)絡傳播代價模型,建模過程描述如下:
①根據(jù)微博用戶的粉絲數(shù)、關注數(shù)、發(fā)微博數(shù),綜合衡量微博用戶影響力。②根據(jù)每位用戶的粉絲用戶,利用貪心算法和全局算法,找到發(fā)布消息的用戶數(shù)排名的方案。③將微博用戶影響力、發(fā)布消息的用戶數(shù)排名結(jié)合,建立社交網(wǎng)絡傳播代價模型,得出代價最小的發(fā)布消息用戶集合。
本文結(jié)合微博數(shù)據(jù),說明以下模型的可行性。
2.1PageRark 算法模型
首先,我們利用PageRank算法建模,其算法如下:
PageRank算法是用來衡量網(wǎng)絡中節(jié)點重要性的經(jīng)典算法,算法基于網(wǎng)絡拓撲圖上的鏈接關系,計算網(wǎng)頁的重要程度。算法的表達式為:
圖1 PageRank程序
其中,d表示用戶在瀏覽某個頁面后繼續(xù)以(1-d)的概率瀏覽某一個鏈出的頁面,或者以d的概率重新選擇一個隨機頁面進行瀏覽。根據(jù)上述公式可以看出,如果某網(wǎng)頁有較多的鏈入網(wǎng)頁,說明較多的其他網(wǎng)頁認為該網(wǎng)頁是重要的;如果較高PR值的網(wǎng)頁指向某網(wǎng)頁,表明重要的網(wǎng)頁認為該網(wǎng)頁是更重要的,這種“更權威的認為”可以表明該網(wǎng)頁的重要性;如果其他網(wǎng)頁只有一個鏈出且指向該網(wǎng)頁,那么說明其他網(wǎng)頁認為只有該網(wǎng)頁是最重要的,所以推薦程度就更大。由此,我們可以基于PageRank算法評價微博用戶影響力。這里我們認為節(jié)點的重要性與影響力成正相關。
PageRank算法程序如圖1。
2.2層次分析法
利用 PASW Statistics 18軟件對數(shù)據(jù)進行主成分分析[5]。
進行數(shù)據(jù)初始化。通過PASW的數(shù)據(jù)標準化功能,將采集到的原始數(shù)據(jù)進行數(shù)據(jù)標準化。
對標準化之后的數(shù)據(jù)進行相關性分析,以判斷指標之間存在的替代關系.相關系數(shù)矩陣如表1所示。
表1 相關系數(shù)矩陣
從表1中可以看出,關注數(shù)與發(fā)微博數(shù)的相關度最高,表明用戶關注數(shù)越多,所發(fā)的微博數(shù)也越多。而粉絲數(shù)與關注數(shù)的相關度最低,表明粉絲數(shù)與關注數(shù)關系并不大。
(3)計算各個主成分的權重如表2所示。
表2 解釋的總方差
從表2中可以看出,粉絲數(shù)權重為33.805%,關注數(shù)權重為33.456%,發(fā)微博數(shù)權重為32.739%,得:
UI=33.805%×V1+33.456%×V2+32.739%×V3(2)
(其中UI表示用戶影響力,V1表示用戶粉絲數(shù),V2表示關注數(shù),V3表示用戶發(fā)微博數(shù))
3.1貪心算法模型
(1)將i個用戶按照粉絲數(shù)進行降序排列,不妨令第1個用戶的粉絲數(shù)為n(1)。
(2)按順序依次往下,若用戶b中的粉絲號與之前b-1個用戶的粉絲號有重疊,將這些粉絲號刪除,得到用戶b與之前b-1個用戶粉絲號均不同的粉絲號,統(tǒng)計用戶b中的粉絲號的數(shù)量,得到第b個用戶的粉絲數(shù)為n(b)。
利用貪心算法,根據(jù)給定案例數(shù)據(jù)可以得出:當用戶為2000人時,m=102人;當用戶為10000人時,m= 286人。
3.2全局算法模型
(1)將i個用戶按照粉絲數(shù)進行降序排列,不妨令第1個用戶的粉絲數(shù)為n(1)。
(2)將第一個用戶的粉絲號均賦為0,并在剩余用戶中將與第一位用戶粉絲號相同的刪除,即將其他用戶所要刪除的粉絲號用其后一位粉絲號賦值,記fens (i,j)=fens(i,j+1),得到新的矩陣。
(3)再將i-1個用戶按照粉絲數(shù)進行降序排列,記此序列中第一個用戶的粉絲數(shù)為n(2)。
(4)重復步驟(2)。
利用全局算法,根據(jù)給定案例數(shù)據(jù)可以得出:當用戶為2000人時,m=93人;當用戶為10000人時,m=243人。
表3
比較貪心算法和全局算法的結(jié)果,貪心算法所得的值均大于全局算法的值,分析原因知:由于所得的成員是按照刪除前的粉絲數(shù)排序截得的成員,該順序下的成員數(shù)并不一定是降序排列,所以所得的值將偏大。可見,全局算法的結(jié)果更優(yōu)。
在已有的研究中,都是將粉絲數(shù)作為社交網(wǎng)絡傳播代價的衡量標準;而我們在考慮粉絲數(shù)的同時,將用戶的關注數(shù)、發(fā)微博數(shù)綜合考慮,綜合考慮用戶影響力的影響因子,從而更準確地衡量社交網(wǎng)絡傳播代價。
與此同時,我們還考慮了發(fā)布消息用戶數(shù)排名前十的用戶集合,對其推廣價值進行比較,這樣得到的結(jié)果更優(yōu)。
為計算社交網(wǎng)絡傳播代價,我們將用戶影響力和所有用戶都能看到消息的前提下所需發(fā)布消息的用戶數(shù)進行逆序排名進行結(jié)合,分別求出發(fā)布消息用戶數(shù)排名前十的用戶集合的用戶影響力之和,與用戶集合的用戶成本之和求商。
其中傳播代價為value,所有用戶都能看到消息的前提下所需發(fā)布消息的用戶數(shù)為num,K用戶所對應的影響力為influence(k),k用戶成本為cost(k)。
本文提出的社交網(wǎng)絡傳播代價模型結(jié)合微博的用戶影響力、發(fā)布消息的用戶數(shù)量排名,建立社交網(wǎng)絡傳播代價模型,綜合各個因素考慮傳播代價,從而可以為商業(yè)圈可行性推廣方案進行價值評估,使其能夠以最小的成本得到最優(yōu)的推廣。
[1]MATLAB數(shù)值計算.機械工業(yè)出版社[M],2010.1.
[2]姜啟源.數(shù)學模型(第三版)[M].高等教育出版社[M],2003:215-246.
[3]王琛.一種改進的微博用戶影響力評價算法.信息工程大學學報[J],2013,14.
[4]嚴蔚敏,吳偉民.數(shù)據(jù)結(jié)構(gòu)(C語言版).清華大學出版社[M],2011.5.
[5]劉清,彭賡,呂本富.基于主成分分析法的微博影響力評估方法及實證分析——以“新浪微博”為例.數(shù)學的實踐與認識[J]. 2014.04
PageRank Algorithm;Analytic Hierarchy Process;Greedy Algorithm;Global Algorithm;Social Network Spread Cost Model
A Social Network Spread Cost Model Based on User Influence
YANG Yang1,WANG Yang-yu2
(1.College of Computer Science and Technology,Nanjing Normal University,Nanjing 210023;2.College of Teacher Education,Nanjing Normal University,Nanjing 210023)
1007-1423(2015)26-0043-04
10.3969/j.issn.1007-1423.2015.26.011
楊揚(1995-),女,安徽安慶人,本科,學生,專業(yè)方向為計算機
2015-07-07
2015-08-15
為了對社交網(wǎng)絡傳播代價進行評估,以微博為例,提出一種社交網(wǎng)絡傳播代價的評估方法。利用PageRank算法和層次分析法計算微博用戶影響力;采用貪心算法和全局算法,得出在所有用戶都能看到消息的前提下所需發(fā)布的用戶數(shù)量的排名,并對這兩個算法進行比較。綜合用戶影響力和微博的發(fā)布用戶數(shù)量排名建立社交網(wǎng)絡傳播代價模型。根據(jù)微博數(shù)據(jù),對社交網(wǎng)絡傳播代價進行評估。
PageRank算法;層次分析法;貪心算法;全局算法;社交網(wǎng)絡傳播代價模型
王鴦雨(1993-),女,浙江臺州人,本科,學生,專業(yè)方向為數(shù)學教育
In order to assess the cost of the social network spread to blog,proposes a method to assess the cost of a social network communication. Based on PageRank algorithm and analytic hierarchy process,calculates the user influence.Uses greedy algorithm and global algorithm,infers the users releasing quantity rank when all users can see it,and compares the two algorithms.Considering the user influence and the user releasing quantity rank,establishes a social network spread cost model,according to the blog data,assesses the cost of the social network spread.