郭 亞,宮葉云,張 奇,黃萱菁
(復(fù)旦大學(xué) 計(jì)算機(jī)科學(xué)技術(shù)學(xué)院,上海 201203)
社交媒體發(fā)展迅速,已逐漸成為我們文化肌理的一部分。根據(jù)2012年的社交媒體報(bào)告[1],美國(guó)人一個(gè)月內(nèi)花費(fèi)超過(guò)1 211億分鐘在社交媒體上。微博服務(wù)是一種通過(guò)關(guān)注機(jī)制分享簡(jiǎn)短實(shí)時(shí)信息的廣播式的社交網(wǎng)絡(luò)平臺(tái),用戶可以方便的查看和轉(zhuǎn)發(fā)關(guān)注用戶的微博。微博信息可以通過(guò)用戶轉(zhuǎn)發(fā)迅速?gòu)囊粋€(gè)社交圈傳播到另一個(gè)社交圈,這可看作社交網(wǎng)絡(luò)中的病毒傳播[2]。通過(guò)對(duì)用戶轉(zhuǎn)發(fā)行為的研究,可以更好的理解用戶行為,亦可進(jìn)一步應(yīng)用于社交營(yíng)銷[3-4]、微博檢索[5]以及熱點(diǎn)事件預(yù)測(cè)[6-7]等領(lǐng)域中。
最近幾年,已有很多工作從不同角度對(duì)其進(jìn)行了研究,包括社會(huì)影響力[8-9],文本特征[10]及社交特征[11-13]等。Suh等人[14]研究了微博內(nèi)容,Hashtag,URL以及文本特征對(duì)轉(zhuǎn)發(fā)行為的影響。通過(guò)對(duì)轉(zhuǎn)發(fā)微博的分析, 我們發(fā)現(xiàn)用戶不僅受到文本等特征的影響,同時(shí),還受到微博本身屬性的影響。例如,微博熱度、微博作者等。而現(xiàn)有的方法則不能很好的利用這些信息。
為了解決這個(gè)問(wèn)題,我們提出了一種基于LDA模型[15]的方法,同時(shí)利用文本信息,結(jié)構(gòu)信息和作者信息對(duì)用戶轉(zhuǎn)發(fā)行為進(jìn)行建模。實(shí)驗(yàn)表明該方法的性能顯著優(yōu)于目前最好的方法。
本文的主要貢獻(xiàn)有:
(1) 收集大量真實(shí)微博數(shù)據(jù),包含微博內(nèi)容、用戶信息以及其對(duì)應(yīng)的社交網(wǎng)絡(luò)。模擬還原用戶使用環(huán)境。
(2) 通過(guò)對(duì)數(shù)據(jù)進(jìn)行分析,研究發(fā)現(xiàn)一些影響用戶轉(zhuǎn)發(fā)行為的重要因素: 用戶興趣、微博熱度和作者信息等。
(3) 提出了一個(gè)新穎的基于LDA模型的方法,該方法同時(shí)利用文本信息,結(jié)構(gòu)信息和作者信息對(duì)用戶轉(zhuǎn)發(fā)行為進(jìn)行建模。實(shí)驗(yàn)結(jié)果表明該方法的性能優(yōu)越。
本文結(jié)構(gòu)如下: 第一節(jié)介紹相關(guān)工作以及相關(guān)領(lǐng)域最先進(jìn)的方法;第二節(jié)介紹我們?nèi)绾问占瘮?shù)據(jù)和分析數(shù)據(jù);第三節(jié)介紹本文提出的方法;第四節(jié)描述實(shí)驗(yàn)方法,實(shí)驗(yàn)結(jié)果及其分析;第五節(jié)為總結(jié)部分。
當(dāng)前很多工作研究不同特征對(duì)用戶行為的影響,比如文本內(nèi)容,社交網(wǎng)絡(luò)和時(shí)間信息等。Petrovic等人[12]對(duì)社會(huì)特征,包括微博作者和內(nèi)容進(jìn)行了研究,他們通過(guò)實(shí)驗(yàn)說(shuō)明這個(gè)任務(wù)確實(shí)可行。Naveed等人[10]使用回歸方法,加入高維和低維文本特征來(lái)預(yù)測(cè)轉(zhuǎn)發(fā)行為。Luo等人[13]研究了作者和關(guān)注者的歷史信息,關(guān)注者的社會(huì)地位,微博內(nèi)容和關(guān)注者微博內(nèi)容的相似性。Feng 和 Wang[16]提出了通過(guò)歷史轉(zhuǎn)發(fā)記錄來(lái)進(jìn)行個(gè)性化的排名。他們使用特征感知的方法結(jié)合文本和用戶特征對(duì)轉(zhuǎn)發(fā)行為進(jìn)行建模。Gupta等人[6]基于文本內(nèi)容,時(shí)間信息,地理信息和結(jié)構(gòu)屬性,將這個(gè)看作二分類問(wèn)題進(jìn)行研究。同時(shí),他們也使用多分類方法來(lái)預(yù)測(cè)一條微博被轉(zhuǎn)發(fā)的次數(shù)。Luo等人[17]介紹了一種基于自回歸移動(dòng)平均模型(ARMA)的方法。其中轉(zhuǎn)發(fā)行為被看作一個(gè)時(shí)間序列,序列值是對(duì)應(yīng)的轉(zhuǎn)發(fā)次數(shù)或者一段時(shí)間內(nèi)的可能瀏覽次數(shù)。Peng等人[18]使用條件隨機(jī)場(chǎng)的方法對(duì)用戶的發(fā)文歷史和社交關(guān)系進(jìn)行特征抽取。
與以上這些方法不同,我們提出了一個(gè)基于LDA的方法來(lái)預(yù)測(cè)轉(zhuǎn)發(fā)行為。微博內(nèi)容、結(jié)構(gòu)信息和作者信息統(tǒng)一到一個(gè)模型中。
我們從新浪微博中收集數(shù)據(jù)。在新浪微博中,用戶只能看到關(guān)注用戶的微博,我們抓取數(shù)據(jù),然后模擬真實(shí)的微博網(wǎng)絡(luò)。下面介紹數(shù)據(jù)集的構(gòu)造方法。
首先,隨機(jī)選取200個(gè)用戶作為核心用戶,也是我們的微博網(wǎng)絡(luò)中的第一層用戶。然后抓取這200用戶的關(guān)注列表,將他們所有關(guān)注的用戶作為微博網(wǎng)絡(luò)中的第二層用戶,這一層共有82 311個(gè)用戶。這樣得到了一個(gè)兩層微博網(wǎng)絡(luò)。最后我們抓取網(wǎng)絡(luò)中用戶的最新的2 000條微博,共約8 500萬(wàn)條。具體統(tǒng)計(jì)數(shù)據(jù)見(jiàn)表1。
表1 數(shù)據(jù)集統(tǒng)計(jì)數(shù)據(jù)
從表1中可以看出約60%的微博是轉(zhuǎn)發(fā)的,其中約33%包含評(píng)論。這與Yu等人[22]統(tǒng)計(jì)的結(jié)果類似,可以認(rèn)為這個(gè)統(tǒng)計(jì)結(jié)果能反映不同文化背景的社交媒體的真實(shí)情況。
為了便于數(shù)據(jù)分析,我們對(duì)微博進(jìn)行預(yù)處理,去除微博中的標(biāo)點(diǎn)、URL、表情和圖片等無(wú)用信息。然后對(duì)微博進(jìn)行分詞處理。其中轉(zhuǎn)發(fā)的微博分為兩類,一類帶有評(píng)論,另一類沒(méi)有。對(duì)于帶評(píng)論的轉(zhuǎn)發(fā)微博,我們將評(píng)論與轉(zhuǎn)發(fā)內(nèi)容當(dāng)作兩條微博處理。
圖1到圖4分別統(tǒng)計(jì)了第一層的用戶微博數(shù)分布、用戶轉(zhuǎn)發(fā)數(shù)分布、微博詞數(shù)分布和用戶關(guān)注數(shù)分布。
圖1 用戶微博數(shù)分布
圖2 用戶轉(zhuǎn)發(fā)數(shù)分布
圖3 微博詞數(shù)分布
圖4 用戶關(guān)注數(shù)分布
由圖1和圖2可以看出,用戶的微博數(shù)(轉(zhuǎn)發(fā)數(shù))呈現(xiàn)兩極分化,微博(轉(zhuǎn)發(fā))數(shù)量小于400和大于1 600的用戶較多。而從圖3可以看出,絕大多數(shù)用戶發(fā)送的微博詞數(shù)都小于20。圖4表明用戶關(guān)注數(shù)量集中于300左右。
第一層的網(wǎng)絡(luò)由200核心用戶構(gòu)成,我們認(rèn)為他們的瀏覽歷史包含了他們轉(zhuǎn)發(fā)一條微博的時(shí)間點(diǎn)到這條被轉(zhuǎn)發(fā)微博的發(fā)送時(shí)間點(diǎn)之間的所能看到的微博。通過(guò)恢復(fù)用戶的發(fā)送和瀏覽歷史,可以觀察到下面的現(xiàn)象:
1) 第一層200核心用戶共關(guān)注了82 311個(gè)用戶。其中被核心用戶轉(zhuǎn)發(fā)過(guò)微博的用戶有52 177個(gè),占總關(guān)注用戶的63.3%。此外,被轉(zhuǎn)發(fā)超過(guò)1次的只占17.8%。所以用戶一般只會(huì)轉(zhuǎn)發(fā)某一部分關(guān)注用戶的微博。
2) 當(dāng)用戶瀏覽看到多條同樣的微博時(shí),不一定轉(zhuǎn)發(fā)首次看到的那一條微博。根據(jù)統(tǒng)計(jì)大約37.4%的轉(zhuǎn)發(fā)行為屬于這類情況。從而說(shuō)明用戶的轉(zhuǎn)發(fā)行為不僅受到微博內(nèi)容的影響還受到微博作者的影響。
3) 每條微博在被轉(zhuǎn)發(fā)之前,可能已經(jīng)被其他關(guān)注用戶轉(zhuǎn)發(fā)過(guò)多次,我們稱之為微博熱度。統(tǒng)計(jì)每個(gè)用戶轉(zhuǎn)發(fā)的微博的熱度分布,可以發(fā)現(xiàn),不同用戶的轉(zhuǎn)發(fā)熱度分布不同,即有些人偏好轉(zhuǎn)發(fā)那些很火的微博,而有些則不然。后文我們將這個(gè)特征稱為結(jié)構(gòu)特征。
4) 用戶更偏好轉(zhuǎn)發(fā)自己感興趣的微博,而不同用戶有不同的興趣愛(ài)好,我們使用用戶微博的話題分布來(lái)表示用戶的興趣。
綜上所述,用戶的轉(zhuǎn)發(fā)行為受到用戶興趣、微博作者和微博熱度的影響,分別稱之為內(nèi)容影響、用戶影響和結(jié)構(gòu)影響。因此,我們假設(shè)用戶a是否轉(zhuǎn)發(fā)一條微博由以下因素決定: 1)誰(shuí)發(fā)送這條微博;2)用戶a關(guān)注的用戶中有多少人發(fā)送或轉(zhuǎn)發(fā)了這條微博;3)微博的內(nèi)容;4)用戶a的興趣。
本節(jié)中,首先簡(jiǎn)要介紹一下LDA模型,然后詳細(xì)介紹我們提出的預(yù)測(cè)轉(zhuǎn)發(fā)行為的方法。
Latent Dirichlet Allocation(LDA)模型由Blei等人[15]在2003年提出,LDA是一種主題模型,可以將文檔集中每篇文檔的主題按照概率分布的形式給出。LDA也是一種非監(jiān)督學(xué)習(xí)方法,可用于識(shí)別大規(guī)模文檔集中潛藏的主題信息,目前廣泛應(yīng)用于文本挖掘等領(lǐng)域。
LDA采用詞袋(bag of words)方法,認(rèn)為詞之間沒(méi)有順序關(guān)系。文檔是由詞構(gòu)成的集合,文檔包含多個(gè)主題,文檔中每一個(gè)詞都由其中的一個(gè)主題生成。
通過(guò)第二節(jié)介紹我們可以知道影響用戶行為的關(guān)鍵因素: 用戶影響、結(jié)構(gòu)影響和內(nèi)容影響。通過(guò)擴(kuò)展LDA模型,利用這三個(gè)因素對(duì)用戶行為進(jìn)行建模。
用戶影響(A): 由第二節(jié)的統(tǒng)計(jì)數(shù)據(jù)可知,用戶可能只轉(zhuǎn)發(fā)幾個(gè)特定用戶的微博。因此,對(duì)于用戶u,我們假設(shè)他轉(zhuǎn)發(fā)每個(gè)關(guān)注用戶pfei的微博的概率fei服從二項(xiàng)分布,這個(gè)二項(xiàng)分布以Beta分布為先驗(yàn)分布。
結(jié)構(gòu)影響(S): 一些用戶可能比較喜歡轉(zhuǎn)發(fā)那些已經(jīng)被很多用戶轉(zhuǎn)發(fā)過(guò)的微博,即熱度高的微博,另一些用戶則相反。因此,我們假設(shè)每個(gè)用戶u對(duì)應(yīng)一個(gè)轉(zhuǎn)發(fā)熱度分布。我們首先對(duì)每條微博的轉(zhuǎn)發(fā)次數(shù)做歸一化處理,使其取值范圍為0到1之間,歸一化后的值用xd表示。最后使用Beta分布對(duì)其進(jìn)行模擬。
內(nèi)容影響(C): 內(nèi)容影響通過(guò)隱含的主題進(jìn)行建模。我們使用基于LDA的主題模型來(lái)完成這一任務(wù)。通過(guò)使用Gibbs采樣估計(jì)隱含變量,微博d的生成概率如式(1)所示。
(1)
式(1)中,wd是微博d中的詞,Nd是微博d中的詞數(shù),wdn表示微博d中的第n個(gè)詞,zdn表示微博d中第n個(gè)詞的主題,ld是微博d的轉(zhuǎn)發(fā)標(biāo)記,f(wdn|φzdn,ld)是在當(dāng)前轉(zhuǎn)發(fā)標(biāo)記ld下生成詞wdn的似然函數(shù)。符號(hào)說(shuō)明見(jiàn)表2。
表2 模型中主要參數(shù)說(shuō)明
這里使用D表示用戶u的瀏覽歷史微博。D中第d條微博包含一個(gè)詞序列wd=wdnNdn=1,其中Nd是第d條微博的字?jǐn)?shù),wdn是字典W中的一個(gè)字。Ad表示第d條微博的作者。給定一個(gè)用戶,一條微博以及它的作者,那么任務(wù)就是判斷該用戶是否會(huì)轉(zhuǎn)發(fā)這條微博。
模型的生成過(guò)程如圖5:
(1) 用戶關(guān)注的每個(gè)用戶a∈A
—生成ψa~Beta(λ)
(2) 對(duì)于每一個(gè)主題z∈K,和轉(zhuǎn)發(fā)標(biāo)記l,根據(jù)φz,l~Dir(δl),得到主題詞分布φz,l。
(3) 對(duì)于每一條微博d∈D
a) 生成轉(zhuǎn)發(fā)標(biāo)記ld~Binomial(ψa)
b) 生成正則化后的轉(zhuǎn)發(fā)次數(shù)xd~Beta(ηld)
c) 根據(jù)θd~Dir(α),得到主題分布θ°d
d) 微博中每一個(gè)詞n=1,...,Nd
—根據(jù)分布zdn~Mult(θd),得到主題zdn
—根據(jù)分布wdn~Mult(φzdn,ld),得到詞wdn
圖5 ASC-LDA圖模型
3.2.1 模型推斷
我們使用Gibbs采樣學(xué)習(xí)模型的參數(shù),采樣過(guò)程分為對(duì)每個(gè)詞的主題z采樣和對(duì)微博的轉(zhuǎn)發(fā)標(biāo)記l進(jìn)行采樣。
對(duì)z采樣: 微博中的每一詞wdn在轉(zhuǎn)發(fā)標(biāo)記l下,分配主題zdn=k條件概率:
(2)
對(duì)l采樣: 當(dāng)給定每個(gè)詞的主題z的情況下,對(duì)第d篇文檔的轉(zhuǎn)發(fā)標(biāo)記利用式(3)進(jìn)行采樣:
p(ld=l|z,wd,l,xd)∝··
(3)
3.2.2 轉(zhuǎn)發(fā)預(yù)測(cè)
給定一條用戶看到的未標(biāo)記的微博d,首先通過(guò)迭代采樣,直到隱含變量穩(wěn)定后,計(jì)算得到該微博的主題分布,然后通過(guò)式(6)計(jì)算這條微博被用戶轉(zhuǎn)發(fā)的概率:
(6)
式(6)中p(wdn|wd)是詞wdn在微博d中的權(quán)重,權(quán)重值通過(guò)TD-IDF計(jì)算;p(zdn|wd,z,l)是轉(zhuǎn)發(fā)標(biāo)記l時(shí)生成主題zdn的概率。
在第二節(jié)中介紹了數(shù)據(jù)集的收集,通過(guò)恢復(fù)核心用戶的瀏覽歷史,我們可以模擬用戶的實(shí)際使用環(huán)境。每一個(gè)用戶我們將瀏覽歷史中的70%作為訓(xùn)練集,剩下30%作為測(cè)試集,統(tǒng)計(jì)信息見(jiàn)表3。
表3 實(shí)驗(yàn)數(shù)據(jù)集統(tǒng)計(jì)信息
實(shí)驗(yàn)中使用精度(P)、召回率(R)和F1-score(F1)來(lái)評(píng)價(jià)模型效果。其中F1-score是精度和召回率的調(diào)和平均數(shù)。模型進(jìn)行500次迭代采樣。在基于LDA的模型中,α設(shè)為50/K,β=0.1。其中K是主題個(gè)數(shù),模型中參數(shù)λ1和λ2均設(shè)為0.1,通過(guò)試驗(yàn),我們將所有基于LDA的模型的主題個(gè)數(shù)設(shè)為20。
實(shí)驗(yàn)中將我們的方法與以下幾個(gè)baseline方法進(jìn)行比較:
(1)Na?veBayes: 轉(zhuǎn)發(fā)預(yù)測(cè)任務(wù)被看作一個(gè)二分類問(wèn)題,每條微博轉(zhuǎn)發(fā)與不轉(zhuǎn)發(fā)標(biāo)記代表兩類,通過(guò)樸素貝葉斯模型計(jì)算給定一條微博各個(gè)標(biāo)記的后驗(yàn)概率。
(2)SVMrank: 我們實(shí)現(xiàn)Luo等人[13]提出的方法,該方法利用微博內(nèi)容,粉絲的身份信息、關(guān)注時(shí)間以及興趣等特征來(lái)完成這一任務(wù)。
(3)SC-LDA: 同樣基于LDA模型實(shí)現(xiàn),在完整模型的基礎(chǔ)上去除作者信息的影響進(jìn)行訓(xùn)練。在得到每篇微博的主題分布后,對(duì)于用戶u,給定他看到的一篇微博,轉(zhuǎn)發(fā)標(biāo)記打分計(jì)算如式(7)所示。
(7)
?AC-LDA: 該方法忽略結(jié)構(gòu)信息的影響,轉(zhuǎn)發(fā)標(biāo)記打分計(jì)算如式(8)所示。
(8)
我們將從兩個(gè)方面對(duì)提出的方法進(jìn)行評(píng)估分析:
1)與其他當(dāng)前最好方法進(jìn)行比較。
2)評(píng)估實(shí)驗(yàn)參數(shù)對(duì)實(shí)驗(yàn)結(jié)果的影響。
表4展示了各種方法的實(shí)驗(yàn)結(jié)果。通過(guò)結(jié)果可以看出: 1)Na?ve Bayes實(shí)驗(yàn)效果最差。2)我們提出的方法效果明顯好于其他方法。3)各個(gè)特征都對(duì)實(shí)驗(yàn)結(jié)果有影響。
表4 實(shí)驗(yàn)對(duì)比結(jié)果
其中C-LDA是只考慮文本特征的實(shí)驗(yàn)結(jié)果,但也比Na?ve Bayes和SVM方法要好。將它分別與AC-LDA和SC-LDA比較可以發(fā)現(xiàn),作者信息有助于提高精確度,而結(jié)構(gòu)信息對(duì)召回率有較大影響。比較C-LDA和ASC-LDA的F1-score可以發(fā)現(xiàn): 在作者信息和結(jié)構(gòu)信息同時(shí)作用下實(shí)驗(yàn)結(jié)果提高大概35%,效果明顯。
圖6中將用戶根據(jù)微博數(shù)分為五組,分析了微博數(shù)對(duì)實(shí)驗(yàn)的影響。由圖6可見(jiàn),用戶發(fā)送的微博越多實(shí)驗(yàn)結(jié)果越好。同時(shí)通過(guò)圖1可知,微博數(shù)量超過(guò)1 000條的用戶占用戶總數(shù)的38.5%,所以這部分用戶對(duì)實(shí)驗(yàn)結(jié)果有較大影響。
圖6 用戶微博數(shù)對(duì)實(shí)驗(yàn)結(jié)果的影響
模型中有一些超參數(shù),其中主題數(shù)是最重要的參數(shù)之一。表5中展示了主題數(shù)目對(duì)實(shí)驗(yàn)效果的影響,從表中可以看出,在主題數(shù)目為20時(shí)效果最好。
表5 主題數(shù)目對(duì)ASC-LDA方法實(shí)驗(yàn)結(jié)果的影響
本文首先從真實(shí)的社交網(wǎng)絡(luò)中收集了大量的微博數(shù)據(jù)以及網(wǎng)絡(luò)信息,重構(gòu)了用戶的實(shí)際使用環(huán)境。然后通過(guò)大量的數(shù)據(jù)觀察和分析,發(fā)現(xiàn)了影響用戶轉(zhuǎn)發(fā)行為的重要因素: 作者信息、用戶興趣和微博熱度?;诖耍覀兲岢鲆粋€(gè)新穎的預(yù)測(cè)微博轉(zhuǎn)發(fā)行為的方法ASC-LDA。該方法基于LDA模型,同時(shí)利用結(jié)構(gòu)信息、作者信息和文本信息對(duì)用戶行為進(jìn)行建模。實(shí)驗(yàn)表明,結(jié)構(gòu)信息、作者信息和文本信息都對(duì)實(shí)驗(yàn)結(jié)果有影響。我們的方法效果優(yōu)于當(dāng)前最好的方法, F值比其他Baseline方法高出35%—45%。
[1] State of the Media: The Social Media Report 2012[DB/OL].http://www.nielsen.com/us/en/reports/2012/state-of-the-media-the-social-media-report-2012.html,2012.
[2] Rodrigues T, Benevenuto F, Cha M,et al. On word-of-mouth based discovery of the web[C]//Proceedings of SIGCOMM ′11, 2011.
[3] Castellanos M, Dayal U, Hsu M, et al. Lci: a social channel analysis platform for live customer intelligence[C]//Proceedings of SIGMOD ′11, 2011.
[4] Homan D L, Fodor M. Can you measure the roi of your social media marketing[C]//Proceedings of MIT Sloan Management Review, 2010:41-49.
[5] Chang J, Kim H J. Twitter search methods using retweet information[C]//Proceedings of BUSTECH ′12, 2012:67-71.
[6] Gupta M, Gao J, Zhai C, et al. Predicting future popularity trend of events in microblogging platforms[C]//Proceedings of the American Society for Information Science and Technology, 2012:1-10.
[7] Hong L, Dan O, Davison B D. Predicting popular messages in twitter[C]//Proceedings of WWW ′11, 2011.
[8] Liu L, Tang J, Han J, Jiang M, et al. Mining topic-level influence in heterogeneous networks[C]//Proceedings of CIKM ′10, 2010.
[9] Zhang J, Liu B, Tang J, et al. Social influence locality for modeling retweeting behaviors[C]//Proceedings of IJCAI′13, 2013.
[10] Naveed N, Gottron T, Kunegis J, et al. Bad news travel fast: A content-based analysis of interestingness on twitter[C]//Proceedings of Web Science Conf., 2011.
[11] Zaman T R, Herbrich R, Van Gael J, et al. Predicting information spreading in twitter[C]//Proceedings of Workshop on Computational Social Science and the Wisdom of Crowds, NIPS, 2010.
[12] Petrovic S, Osborne M, Lavrenko V. Rt to win! predicting message propagation in twitter[C]//Proceedings of the Fifth International AAAI Conference on Weblogs and Social Media,2011.
[13] Luo Z, Osborne M, Tang J, et al. Who will retweet me?: Finding retweeters in twitter[C]//Proceedings of SIGIR ′13, 2013.
[14] Suh B, Hong L, Pirolli P, et al. Want to be retweeted? large scale analytics on factors impacting retweet in twitter network[C]//Proceedings of SocialCom′10, 2010.
[15] Blei D M, Ng A Y and Jordan M L. Latent Dirichlet Allocation[J].Journal of Machine Learning Research 2003: 993-1022.
[16] Feng W, Wang J. Retweet or not?: personalized tweet re-ranking[C]//Proceedings of the sixth ACM international conference on Web search and data mining, 2013:577-586.
[17] Luo Z, Wang Y, Wu X. Predicting retweeting behavior based on autoregressive moving average model[C]//Proceedings of Web Information Systems Engineering-WISE 2012, 2012:777-782.
[18] Peng H K, Zhu J, Piao D, et al. Retweet modeling using conditional random fields[C]//Proceedings of ICDMW ′11, 2011.
[19] Boyd D, Golder S, Lotan G. Tweet, tweet, retweet: Conversational aspects of retweeting on twitter[C]//Proceedings of HICSS ′10, 2010.
[20] Nagarajan M, Purohit H, Sheth A P. A qualitative examination of topical tweet and retweet practices[C]//Proceedings of the ICWSM, 2010.
[21] Letierce J, Passant A, Decker S, et al. Understanding how twitter is used to spread scientific messages[C]//Proceedings of Web Science Conference, 2010.
[22] Yu L L, Asur S, Huberman B A. Artificial inflation: The real story of trends and trend-setters in sina weibo[C]//Proceedings of Social Com-PASSAT ′12, 2012.
E-mail: qi_zhang@fudan.edu.cn