陳夢秋,周安民
(四川大學(xué)電子信息學(xué)院,成都 610065)
基于SVM的新浪熱門微博預(yù)測
陳夢秋,周安民
(四川大學(xué)電子信息學(xué)院,成都 610065)
針對新浪微博熱門微博預(yù)測的問題,提出一種以博主影響力、博主最近微博熱度、原創(chuàng)性、微博發(fā)布時間、微博信息量、是否含有話題標(biāo)簽、是否帶圖/視頻/鏈接作為特征,借助SVM模型進(jìn)行熱門微博預(yù)測的方法。其中,用戶影響力根據(jù)PageRank算法進(jìn)行計算,避免僅以粉絲數(shù)量作為評判帶來的偏差。實驗結(jié)果表明,該方法可以較為準(zhǔn)確地對單條微博能否成為熱門微博進(jìn)行預(yù)測。
新浪微博;熱門微博;預(yù)測;SVM
據(jù)國家發(fā)改委11月29日公布的數(shù)據(jù)顯示,截至2016年6月底,我國國內(nèi)網(wǎng)民規(guī)模為7.1億人,互聯(lián)網(wǎng)普及率達(dá)51.7%,手機網(wǎng)民更是達(dá)到了6.56億人。
互聯(lián)網(wǎng)持續(xù)的顛覆和改造傳統(tǒng)行業(yè)誕生了很多機會,互聯(lián)網(wǎng)媒體的高速發(fā)展使得傳統(tǒng)媒體受眾日益減少,過去報紙、刊物、電視是媒體,現(xiàn)在依靠互聯(lián)網(wǎng)人人都可以成為媒體,可以說這是一個人人都是自媒體的時代。
新浪微博于2009年上線,用戶可以將所見所聞所想隨時隨地通過電腦或者手機上傳,而所有的好友,甚至陌生人都可以一起分享、討論。微博以其開放性、個性化、自由化的特性,為更多的社會公眾提供了話語環(huán)境和信息傳播渠道。微博時代下,每個用戶都是記者,他們用內(nèi)容豐富和及時的信息傳播,開始挑戰(zhàn)傳統(tǒng)媒體的地位,對新聞報道產(chǎn)生了巨大的影響。尤其近兩年,有諸多新聞是通過微博傳播發(fā)酵甚至發(fā)布的,微博使更多社會民眾參與其中,改變了新聞報道形式。
在這一情景下,研究熱門微博的預(yù)測,對輿情監(jiān)控和預(yù)警有著重要的意義。
Twitter可以看作是微博的起源和原型,國外對Twitter的研究,也早于中國便開始,Kwak等人[1-2]抓取并研究了Twitter用戶、話題、推文數(shù)據(jù),對用戶的影響力進(jìn)行排序,并給出了Twitter跟隨圖的拓?fù)涮卣鞯奶卣鲗傩?。對于國?nèi)的微博,丁兆云等人[3]研究了微博的相關(guān)特性,介紹了微博數(shù)據(jù)挖掘的方法、對話題事件微博情感的分析、對微博傳播和影響力的分析。微博以傳播量影響輿論,所以現(xiàn)有研究的重點多以熱門微博、熱門話題和關(guān)鍵用戶節(jié)點為主,但是也有劉臣等人[4]以非熱門微博為研究對象,分析了非熱門微博的生命周期,并指出了微博生命周期與粉絲數(shù)量、轉(zhuǎn)發(fā)量等因素的關(guān)系。在熱門預(yù)測方面,熊小兵等人[5]結(jié)合用戶信息和微博內(nèi)容建立線性預(yù)測模型,對微博話題的流行度進(jìn)行預(yù)測;于興隆等人[6]以高校BBS為研究對象,通過對發(fā)帖回帖用戶的活躍、回復(fù)時間間隔度進(jìn)行聚類,進(jìn)行熱帖的預(yù)測;對新浪熱門微博的預(yù)測,俞青云等人[7]對博主影響力和微博內(nèi)容建模,有的再結(jié)合發(fā)布時間、情感等因素,綜合判斷。但相比于話題,針對單條微博的熱度預(yù)測研究,還有很大研究空間。
2.1 支持向量機SVM
支持向量機SVM(Support Vector Machine)是一個有監(jiān)督的學(xué)習(xí)模型,常用于模式識別、分類,以及回歸分析,針對線性不可分的情況,通過非線性映射算法將低維的輸入樣本轉(zhuǎn)化到高維特征空間使其線性可分,如圖1所示,將在一維空間中不可分的點,映射到二維特征空間中,達(dá)到了進(jìn)行線性分析的目的。根據(jù)已有實驗結(jié)論,SVM在短文本分類上具較其他方法更有優(yōu)勢[8],因此這里選用SVM對微博分為熱門微博和非熱門微博兩類,以分類結(jié)果作為微博熱度的預(yù)測。
圖1 SVM原理示意圖
2.2 特征選取
熱門微博榜單是新浪微博提供最新最熱優(yōu)質(zhì)內(nèi)容閱讀服務(wù)的一項產(chǎn)品,按有效時間分為小時榜、24小時榜、周榜、月榜,并可以根據(jù)用戶愛好按微博內(nèi)容類型分類。熱門微博榜單以熱度為標(biāo)準(zhǔn)進(jìn)行排序,列出在榜單時效內(nèi)除去違規(guī)、營銷、低信用微博后熱度最高的前300條。熱度計算公式為:
(1)加權(quán)特征
熱度計算公式中的熱度權(quán)重根據(jù)熱門微博管理規(guī)范(試行版)所述,微博包含多圖的、含“#”話題的、含站內(nèi)長微博的、博主是實名用戶(綁定手機帳號、完善個人資料、認(rèn)證用戶等)的,有熱度加權(quán);而微博包含外鏈的、同一時段榜單同一用戶的第二條上榜微博、內(nèi)容相似的第二條微博、圖片長微博、博主非原創(chuàng)段子類帳號的微博,會對其熱度進(jìn)行降權(quán)。由數(shù)據(jù)統(tǒng)計得知,熱門微博中含有圖片、視頻、文章鏈接的微博占全部熱門微博的94%,在一定程度上證明了微博含有圖片和視頻、微博為站內(nèi)長微博的,因為增加權(quán)重,熱度更高,更有可能成為熱門微博。因此,選取微博是否含有話題標(biāo)簽和是否帶有圖/視頻/新浪長文鏈接兩項作為預(yù)測特征。
(2)博主影響力
PengyiFan等人[9]對新浪微博的拓?fù)浼靶畔U散進(jìn)行了研究,發(fā)現(xiàn)新浪微博的拓?fù)浣Y(jié)構(gòu)具有明顯的小世界效應(yīng)和無規(guī)模的特性,度分布服從冪律分布。而且因為微博中的關(guān)注是有向的,新浪微博的關(guān)注網(wǎng)絡(luò)節(jié)點平均距離甚至比人人網(wǎng)、Facebook更小[10],即微博上人與人之間的聯(lián)系更為緊密,消息只需要經(jīng)過更少的跳數(shù)就能傳播到網(wǎng)絡(luò)上的其他人,這也在一定程度上解釋了為什么消息能在微博網(wǎng)絡(luò)上迅速傳播。這種一傳十十傳百的特性,使得一條微博的轉(zhuǎn)發(fā)量可能呈現(xiàn)出裂變式的幾何增長,爆炸式的新聞。
通過抓取熱門微博數(shù)據(jù),分析微博轉(zhuǎn)發(fā)規(guī)律,繪制轉(zhuǎn)發(fā)拓?fù)鋱D,發(fā)現(xiàn)微博轉(zhuǎn)發(fā)常見的拓?fù)浞譃閮煞N——樹形結(jié)構(gòu)(圖2左)和星形結(jié)構(gòu)(圖2右)。無論是哪種結(jié)構(gòu),一級轉(zhuǎn)發(fā)都占到總轉(zhuǎn)發(fā)量的50%以上,可以看出新浪微博轉(zhuǎn)發(fā)深度較小,而廣度較大,印證了微博轉(zhuǎn)發(fā)的平均距離短和最大深度分布近似符合冪律分布的特征,也從一定角度說明了博主的粉絲數(shù)和影響力對轉(zhuǎn)發(fā)量影響。
圖2 常見微博轉(zhuǎn)發(fā)拓?fù)?/p>
由于僵尸粉、買粉現(xiàn)象的存在,粉絲數(shù)量并不能完全代表一個微博用戶的真實影響力。因此采用PageRank算法對博主影響力進(jìn)行評算[11]。PageRank[12]是一種根據(jù)網(wǎng)頁之間的超鏈接計算網(wǎng)絡(luò)中優(yōu)質(zhì)網(wǎng)頁排名要素的算法,鑒于用戶之間的關(guān)注和被關(guān)注與網(wǎng)頁之間的鏈接和被鏈接的相似性,將該算法用于用戶影響力的計算,其思想大致為被越多影響力大的用戶關(guān)注的用戶影響力越大,關(guān)注其他用戶越少的用戶影響力越大。根據(jù)這一思想,用戶的PageRank值可以用以下公式進(jìn)行計算:
其中:I(uj)表示用戶i的影響力;d為0~1之間的一個阻尼系數(shù),表示從一個給定用戶轉(zhuǎn)移到另一個隨機用戶的概率,一般取值為0.85;F(ui)表示所有指向節(jié)點ui的節(jié)點(即ui粉絲用戶集);表示uj所有指向的節(jié)點數(shù)(即uj的關(guān)注數(shù))。
(3)博主近期微博熱度
同一微博用戶的時間相近的微博在內(nèi)容上可能具有一定的連續(xù)性,同時,同一微博用戶在熱度上也具有一定的連貫性,因此由博主近期的微博熱度可以在一定程度上預(yù)測當(dāng)前微博熱度:
其中,h表示博主近期微博熱度特征值;m表示該博主最新的10條微博;rm表示微博的轉(zhuǎn)發(fā)數(shù);cm表示微博的評論數(shù);lm表示微博的點贊數(shù)。
(4)原創(chuàng)性
新浪微博中只有28.98%微博為原創(chuàng)微博,轉(zhuǎn)發(fā)微博占到71.02%。新浪微博的轉(zhuǎn)發(fā)以在原微博前添加“// @用戶名:(轉(zhuǎn)發(fā)評論)”表示,在微博字?jǐn)?shù)限制內(nèi)轉(zhuǎn)發(fā)格式可以多次重復(fù)疊加,表示多級轉(zhuǎn)發(fā)。一條微博不限制被轉(zhuǎn)發(fā)的次數(shù),轉(zhuǎn)發(fā)越多,就表明越有可能被更多人看到,有更大的影響力。由于字?jǐn)?shù)限制,轉(zhuǎn)發(fā)級數(shù)過多可能導(dǎo)致較低級數(shù)的轉(zhuǎn)發(fā)標(biāo)記被刪除,但所有的轉(zhuǎn)發(fā)次數(shù)都會計算在原微博的轉(zhuǎn)發(fā)數(shù)中。所以,同樣一條微博,原創(chuàng)微博在熱度上更有優(yōu)勢,因此選取微博的原創(chuàng)性作為熱門微博的特征之一。
(5)微博發(fā)布時間
從微博轉(zhuǎn)發(fā)的時間規(guī)律上看,一條典型的熱門微博發(fā)布后會迅速開始被轉(zhuǎn)發(fā),短時間內(nèi)熱度呈指數(shù)增長,一段時間后轉(zhuǎn)發(fā)量逐漸減小。如果一條微博在發(fā)布后的3小時[7]內(nèi)沒有大幅度的熱度增長,那么這條微博成為熱門微博的可能性就很小了。
圖3 微博發(fā)布后24小時內(nèi)轉(zhuǎn)發(fā)量變化
根據(jù)濮小燕[11]等人的數(shù)據(jù)結(jié)論,新浪微博每天不同時刻的在線人數(shù)和活躍度呈現(xiàn)一定的規(guī)律,不同的活躍用戶總數(shù)將直接導(dǎo)致微博轉(zhuǎn)發(fā)評論的數(shù)量,從而影響微博的熱度。結(jié)合大部分人的作息和休息娛樂時間,我們大致將一天分為幾個階段,[1:00,7:00]是大多數(shù)人的睡眠時間,整體活躍度降至一天的最低谷,[7: 00,11:00]有所回升,屬于多數(shù)人的上班時間,[11:00,14: 00]屬于午休時間,正合適微博利用碎片化時間娛樂的特點,所以轉(zhuǎn)發(fā)數(shù)量略有上升,[14:00,19:00]屬于上班時間,因此對微博用戶的活躍度有所影響,[19:00,1:00]是多數(shù)人晚飯后的自由支配時間,用戶活躍度達(dá)到一整天的峰值。從轉(zhuǎn)發(fā)規(guī)律上也印證了這一點,如圖3所示。
一條微博如果在用戶活躍度較高的時間發(fā)布,則會更快地傳播,熱度更高,相反如果發(fā)布的時間用戶整體活躍度較低,就很容易淹沒在海量微博數(shù)據(jù)中。因此,選取微博的發(fā)布時間作為熱門微博特征:
其中,t表示發(fā)布時間特征取值,T表示微博發(fā)布的具體時間。
(6)微博長度
大多微博用戶在微博發(fā)布的都是生活瑣事和情感宣泄,難以引起廣泛的轉(zhuǎn)發(fā)或評論,傳達(dá)完整清楚的微博才能獲得更多的共鳴和熱度,因此選取微博長度是否大于20字作為熱度特征之一。
3.1 實驗數(shù)據(jù)準(zhǔn)備
訓(xùn)練和測試所需的微博及用戶數(shù)據(jù)通過新浪開放的API平臺獲取,抓取30天熱門微博和其他非熱門微博各100條,共計6000條微博及其發(fā)布用戶數(shù)據(jù)。將前15天的3000條數(shù)據(jù)作為訓(xùn)練集,剩余數(shù)據(jù)作為測試集。
3.2 實驗及結(jié)果
對微博能否成為熱門微博的預(yù)測,可以轉(zhuǎn)換為一個二分類問題,將輸入的單條微博分類到熱門類或非熱門類,分類結(jié)果即預(yù)測結(jié)果。根據(jù)前文的分析,本文選取博主影響力、博主最近10條微博平均轉(zhuǎn)發(fā)評論量、是否為原創(chuàng)微博、微博發(fā)布時間、微博長度是否大于20個字、是否含有話題標(biāo)簽、是否帶圖/視頻/鏈接7項作為分類特征。
依照圖4所示流程進(jìn)行實驗。將爬取到微博和博主信息,根據(jù)選取的特征轉(zhuǎn)換成所需的數(shù)據(jù)作為語料,并分為訓(xùn)練語料和測試語料兩部分。用訓(xùn)練語料訓(xùn)練微博熱度分類SVM模型,采用“網(wǎng)格搜尋法”確定懲罰系數(shù)C和間隔γ。最后用測試語料測試模型的準(zhǔn)確性。
使用準(zhǔn)確率、召回率和F1值對模型分類結(jié)果進(jìn)行評價,得到結(jié)果如表1所示。
表1 基于SVM模型對微博熱度分類結(jié)果
從實驗結(jié)果可以看出,本實驗使用的7項特征,借助SVM模型可以較好地區(qū)分出熱門與非熱門兩個類別,從而達(dá)到預(yù)測單條微博是否能夠成為熱門微博的目的。
圖4 預(yù)測分類流程
自媒體時代的到來,意味著單條微博的流行和傳播,可能就是一條爆炸性新聞、一個輿論事件開端,進(jìn)而引領(lǐng)出大范圍的討論,因此對單條微博的熱度預(yù)測有助于對輿情的監(jiān)督和預(yù)判。本文分析了熱門微博的特征,提出了使用博主影響力、微博的原創(chuàng)性、發(fā)布時間等特征借助SVM模型對微博按熱度進(jìn)行分類的方法,從而達(dá)到熱門微博預(yù)測的目的,并從新浪微博爬取了微博和博主數(shù)據(jù),對提出的方法進(jìn)行了相關(guān)實驗,實驗結(jié)果表明該方法對熱門微博的預(yù)測具有一定的實際效果和意義。
[1]Myers S A,Sharma A,Gupta P,et al.Information Network or Social Network:the Structure of the Twitter Follow Graph[C].Proceedings of the 23rd International Conference on World Wide Web.ACM,2014:493-498.
[2]Kwak H,Lee C,Park H,et al.What is Twitter,a Social Network or a News Media[C].Proceedings of the 19th International Conference on World Wide Web.ACM,2010:591-600.
[3]丁兆云,賈焰,周斌.微博數(shù)據(jù)挖掘研究綜述[J].計算機研究與發(fā)展,2014,51(4):691-706.
[4]劉臣,周立欣,霍良安,等.非熱門微博信息的傳播特征分析[J].情報雜志,2014(11):29-33.
[5]熊小兵,周剛,黃永忠,等.新浪微博話題流行度預(yù)測技術(shù)研究[J].信息工程大學(xué)學(xué)報,2012,13(4):496-502.
[6]于興隆,李麗萍,吳斌.基于用戶行為的高校BBS熱帖預(yù)測模型[J].計算機應(yīng)用與軟件,2013,30(1):48-54.
[7]俞青云.基于微博公共平臺的單條微博熱門程度預(yù)測及其相關(guān)微博發(fā)現(xiàn)[D].安徽大學(xué),2016.
[8]丁晟春,王穎,李霄.基于SVM的中文微博情緒分析研究[J].情報資料工作,2016(3).
[9]Fan P,Li P,Jiang Z,et al.Measurement and Analysis of Topology and Information Propagation on Sina-Microblog[C].IEEE International Conference on Intelligence and Security Informatics.IEEE,2011:396-401.
[10]曹玖新,吳江林,石偉,等.新浪微博網(wǎng)信息傳播分析與預(yù)測[J].計算機學(xué)報,2014,37(4):779-790.
[11]王彪.社交網(wǎng)絡(luò)中的用戶影響力分析[D].哈爾濱工業(yè)大學(xué),2012.
[12]濮小燕.基于多層結(jié)構(gòu)的單條微博影響力研究[D].電子科技大學(xué),2015.
[13]李英樂,于洪濤,劉力雄.基于SVM的微博轉(zhuǎn)發(fā)規(guī)模預(yù)測方法[J].計算機應(yīng)用研究,2013,30(9):2594-2597.
Sina Popular Microblog Prediction Based on SVM
CHEN Meng-qiu,ZHOU An-min
(College of Electronics and Information Engineering,Sichuan University,Chengdu 610065)
Aiming at the problem of popular microblog prediction of Sina Microblog,puts forward a new method to predict the popular microblog, which is based on SVM model using the influence of bloggers,recent blog heat of bloggers,originality,published time,information amount,topic tag,picture,video,link as the features for popular microblog prediction.Among them,calculates the user influence according to PageRank algorithm,to avoid the deviation of using only the number of fans as a judge.The experimental results show that this method can accurately predict whether a single microblog can become a popular microblog.
Sina Microblog;Popular Microblog;Prediction;SVM
1007-1423(2017)09-0023-05
10.3969/j.issn.1007-1423.2017.09.006
陳夢秋(1991-),女,四川成都人,碩士研究生,研究方向為信息安全
2017-01-18
2017-03-10