韓冠宙
(四川大學(xué)計算機(jī)學(xué)院,成都 610065)
微博平臺的影響力綜述
韓冠宙
(四川大學(xué)計算機(jī)學(xué)院,成都 610065)
近年來隨著Web 2.0的日漸普及,微博作為一種重要的社交媒體,以其傳播迅速、交互性強(qiáng)等特點,受到廣泛的關(guān)注。許多學(xué)者都對微博中的用戶影響力進(jìn)行研究。對目前社會對影響力的研究進(jìn)行分析總結(jié),重點闡述基于網(wǎng)絡(luò)、基于話題層面影響力的模型,分析各種模型的優(yōu)缺點,并提出未來該領(lǐng)域的研究方向。
影響力;微博;社會網(wǎng)絡(luò);數(shù)據(jù)挖掘
近年來,隨著網(wǎng)絡(luò)技術(shù)的革新,在線社交網(wǎng)站也得到了長足的發(fā)展,尤其是微博類網(wǎng)站已經(jīng)成為最流行的社交媒體之一。根據(jù)中國互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC) 2014年1月發(fā)布的中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計報告報告顯示,截至2013年12月,我國微博用戶規(guī)模為2.81億,網(wǎng)民中微博使用率為45.5%[1]。由此可見,微博用戶規(guī)模之大,應(yīng)用之廣泛已經(jīng)成為中國網(wǎng)民的主流應(yīng)用之一。作為一種新興的在線社交媒體,微博以其平臺多樣化、信息傳播速度快、交互性強(qiáng)等特點。不僅逐漸成為個人信息獲取、情感表達(dá)的工具,還成為政府、企業(yè)、組織用于信息發(fā)布、公關(guān)營銷的平臺。
基于對現(xiàn)實世界的深遠(yuǎn)影響,對社交網(wǎng)絡(luò)的挖掘已經(jīng)成為一個非常有趣的任務(wù)[2],而微博就是最活躍的社交網(wǎng)絡(luò)平臺。許多微博信息發(fā)表的初始并沒有引起相應(yīng)的關(guān)注,而在一些高影響力的用戶轉(zhuǎn)發(fā)或者評論以后才引起了較大反響。這些高影響力用戶的存在是引起信息持續(xù)傳播和形成更大傳播規(guī)模的關(guān)鍵因素[3]。他們對于熱點話題的形成,信息的傳播以及輿論的導(dǎo)向都起著非常重要的作用。因此對于用戶影響力的研究,發(fā)現(xiàn)高影響力的用戶,深入了解信息傳播的內(nèi)在機(jī)制吸引了眾多學(xué)者的興趣。很多研究表明,高影響力用戶對于產(chǎn)品營銷,輿情導(dǎo)向等都有很大幫助。
在微博平臺中,一些學(xué)者試圖確定用戶的影響力跟哪些因素相關(guān)。這些度量方法都將目標(biāo)放在用戶的影響(權(quán)威度、可達(dá)性)大小等方面??偟膩碚f,微博的影響力可以定義為使得信息傳播的有效性和觀眾參與的程度的一種能力的大小。
微博作為一個便捷的信息分享與交流網(wǎng)絡(luò),為社交影響力的研究提供了一個很好的平臺。利用粉絲數(shù)作為用戶影響力大小是一個非常簡單流行的度量方法。在一般情況下,一個用戶的粉絲數(shù)越多,那么他在微博中的影響力就越大,就越受歡迎。這種度量方法是基于這樣的假設(shè):用戶發(fā)布一條微博那么他所有的粉絲都會閱讀它。這樣用戶粉絲越多,那么他的微博傳播也就越廣泛。然而,這種觀點忽略了用戶與微博內(nèi)容進(jìn)行的交互,也忽略了微博中僵尸粉等情況。
文獻(xiàn)[6]根據(jù)粉絲數(shù)及粉絲網(wǎng)絡(luò)的PageRank值將用戶影響力進(jìn)行排名,發(fā)現(xiàn)這兩個排名特別相近。然而,他們根據(jù)用戶的轉(zhuǎn)發(fā)數(shù)進(jìn)行排序,發(fā)現(xiàn)所得到的排名不同于前兩個排名。結(jié)果表明用戶微博內(nèi)容的流行程度與用戶粉絲數(shù)多少并不呈正比關(guān)系。文獻(xiàn)[7]也比較了三種不同的度量影響力的方法:粉絲數(shù)、被轉(zhuǎn)發(fā)數(shù)、被提及數(shù)。文章發(fā)現(xiàn)轉(zhuǎn)發(fā)與提及相關(guān)性很高,而與粉絲多少并無太大關(guān)聯(lián)?;谶@樣的實驗,他們認(rèn)為在微博中以粉絲數(shù)多少作為度量用戶影響力大小的方法并不恰當(dāng)。
最近,部分學(xué)者嘗試?yán)梦⒉┲械逆溄雨P(guān)系來度量用戶的影響力大小。例如,一種基于PageRank的擴(kuò)展方法TunkRank[8],它計算一個用戶影響力的方法為:
其中p是用戶轉(zhuǎn)發(fā)一條微博的概率。TunkRank是根據(jù)用戶所發(fā)微博被轉(zhuǎn)發(fā)的期望數(shù)來度量一個用戶的影響力。然而,這種方法將用戶轉(zhuǎn)發(fā)所有微博的概率都設(shè)為相同的常數(shù),這樣是很不合常理的。
文獻(xiàn)[9]引入了話題級別的影響力問題。給定一個社交網(wǎng)絡(luò)以及每個用戶的話題分布,問題定義為找到特定主題的子網(wǎng)和子網(wǎng)成員之間在特定主題下的影響力大小。本文提出一個基于因子圖理論的TAP模型。模型將用戶屬性以及網(wǎng)絡(luò)關(guān)系聯(lián)合建模,并且影響力大小是話題相關(guān)的,而影響力的強(qiáng)度是由在特定主題上,文本內(nèi)容從影響節(jié)點到被影響節(jié)點“復(fù)制”的多少決定。另一個值得注意的工作是由文獻(xiàn)[10]提出的TwitterRank方法,首先根據(jù)LDA計算一個用戶的話題分布,然后構(gòu)建一個基于用戶關(guān)注網(wǎng)絡(luò)的加權(quán)有向圖,其中邊的權(quán)重代表兩個用戶之間的話題相似性。對于每個特定的話題,在這個加權(quán)有向圖上運(yùn)行一次PageR-ank算法的變體,進(jìn)而得到每個話題上用戶的影響力大小。TwitterRank有別于PageRank的地方在于其是基于話題隨機(jī)游走。在特定話題上從一個用戶轉(zhuǎn)移到另一個用戶的概率大小定義如下:
文獻(xiàn)[11]提出使用一組特征來表示微博用戶,包括節(jié)點及話題特征。文獻(xiàn)首先在這一組特征上運(yùn)行基于概率的聚類算法,然后在輸出的類簇內(nèi)進(jìn)行排序,最后輸出基于特定話題上的影響力排名。這種基于簇的方法相對于基于網(wǎng)絡(luò)的方法有潛在的優(yōu)勢,因為它不會出現(xiàn)太大的傾斜;更重要的是,它在計算上是可行的并且可以實時捕獲微博的動態(tài)變化。文獻(xiàn)[12]提出一種基于LDA的生成模型FLDA,它將基于微博內(nèi)容的話題發(fā)現(xiàn)與影響力分析放在同一模型,并且同時生成。該模型同時可以發(fā)現(xiàn)微博用戶關(guān)注關(guān)系是否是基于內(nèi)容的。但是模型忽略了微博用戶之間的交互信息。
本文首先探討了社會影響力的定義。然后分析總結(jié)了目前社會對微博影響力研究的方法:基于粉絲數(shù)、轉(zhuǎn)發(fā)數(shù),基于網(wǎng)絡(luò),基于話題等方法。根據(jù)目前微博影響力研究現(xiàn)狀,可以對未來研究做一個推測:如何更準(zhǔn)確、高效地發(fā)現(xiàn)有影響力的個體。探究用戶之間相互影響的機(jī)制,基于話題,基于行為以及幾種標(biāo)準(zhǔn)相結(jié)合的新模型。
[1] 第32次中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計報告[R].北京:中國互聯(lián)網(wǎng)絡(luò)信息中心,2014
[2] Kimura M,et al.Extracting Influential Nodes on a Social Network for Information Diffusion[C].Data Mining and Knowledge Discovery, 2010,20:70~97
[3] 袁毅.微博客信息傳播結(jié)構(gòu)、路徑及其影響因素分析[J].圖書情報工作,2011,55(12):26~30
[4] E.Katz,P.Lazarsfeld.Personal Influence:The Part Played by People in the Flow of Mass Communication[J].Free Press,New York, 1955
[5]D.Watts,P.Dodds.Influentials,Networks,and Public Opinion Formation.Journal of Consumer Research[C],2007,34(4):441~458
[6] H.Kwak,C.Lee,H.Park,S.Moon.What is Twitter,a Social Network or a News Media[C].In Proceedings of the 19th International Conference on World Wide Web(WWW),Raleigh,NC,USA,April 2010:591~600
[7] M.Cha,H.Haddadi,F.Benevenuto,K.P.Gummadi.Measuring User Influence in Twitter:The Million Follower Fallacy[C].In Proceedings of the Internatinal AAAI Conference on Weblogs and Social Media(ICWSM),Washing-ton DC,USA,May 2010
[8] Tunkelang,D.,A Twitter Analog to PageRank.http://thenoisychannel.com/2009/01/13/a-twitter-analog-topagerank/,2 July 2012,2009
[9] J.Tang,J.Sun,C.Wang,and Z.Yang.Social Influence Analysis in Large-Scale Networks[C].In Proceedings of the Fifteenth International Conference on Knowledge Discovery and Data Mining(SIGKDD),Paris,France,June~July,2009:807~816
[10] Weng,J.,Lim,E.P.,Jiang,J.,He,Q.,Twitterrank:Finding Topic-Sensitive Influential Twitterers[C].Proceedings of the third ACM International Conference on Web Search and Data Mining,ACM,261~270,2010
[11] A.Pal and S.Counts.Identifying Topical Authorities in Microblogs[C].In Proceedings of the Fourth ACM International Conference on Web Search and Data Mining(WSDM),Hong Kong,February 2011:45~54
[12] Bi,B.,et al.Scalable Topic-Specific Influence Analysis on Microblogs[C],2014
Survey of Microblog Influence
HAN Guan-zhou
(School of Computer Science,Sichuan University,Chengdu 610065)
With the growing popularity of Web 2.0,microblog as an important social media,with its rapid propagation and strong interaction,has been received extensive attention.Many scholars have studied the influence of user in microblog.Discusses the definition of the influence in microblog,and gives a summarize to the current influence analysis,including the network-based model and topic-based model.Analyzes the advantages and disadvantages of each model.Proposes future research trends in the field.
Influence;Microblog;Social Network;Data Mining
1007-1423(2015)02-0042-03
10.3969/j.issn.1007-1423.2015.02.011
韓冠宙(1989-),男,河南新鄉(xiāng)人,碩士研究生,研究方向為數(shù)據(jù)挖掘
2014-12-04
2014-12-18