国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于轉(zhuǎn)發(fā)傳播過程的微博轉(zhuǎn)發(fā)量預(yù)測

2017-01-10 07:06趙惠東
電子學(xué)報(bào) 2016年12期
關(guān)鍵詞:影響力矩陣預(yù)測

趙惠東,劉 剛,石 川,吳 斌

(北京郵電大學(xué)智能通信軟件與多媒體北京市重點(diǎn)實(shí)驗(yàn)室,北京 100876)

基于轉(zhuǎn)發(fā)傳播過程的微博轉(zhuǎn)發(fā)量預(yù)測

趙惠東,劉 剛,石 川,吳 斌

(北京郵電大學(xué)智能通信軟件與多媒體北京市重點(diǎn)實(shí)驗(yàn)室,北京 100876)

微博已經(jīng)成為日常生活中最流行的信息分享工具.轉(zhuǎn)發(fā)是微博中信息傳播的核心方法,所以轉(zhuǎn)發(fā)量預(yù)測不僅是一個(gè)有趣的研究問題,也有較大的實(shí)際意義.然而,當(dāng)前大部分研究只是把問題視為分類或回歸問題,沒有考慮轉(zhuǎn)發(fā)的傳播過程.本文中,我們提出一個(gè)符合轉(zhuǎn)發(fā)傳播過程的轉(zhuǎn)發(fā)量預(yù)測模型.本文認(rèn)為轉(zhuǎn)發(fā)信息來自兩方面:直接粉絲和間接粉絲,而粉絲帶來的轉(zhuǎn)發(fā)量由轉(zhuǎn)發(fā)意愿和影響力決定.我們用歷史行為和內(nèi)容相關(guān)性來估算一名直接粉絲的轉(zhuǎn)發(fā)意愿,并用他/她的影響力來估算通過他/她的間接粉絲的轉(zhuǎn)發(fā)量.新浪微博上的實(shí)驗(yàn)表明我們的模型比其他已有的方法效果好.

轉(zhuǎn)發(fā)量預(yù)測;轉(zhuǎn)發(fā)意愿;轉(zhuǎn)發(fā)影響力

1 引言

微博為人們提供了一個(gè)通過互聯(lián)網(wǎng)和智能手機(jī)等設(shè)備就能夠隨時(shí)隨地和朋友或陌生人分享、傳播、獲取信息的平臺.這些年來微博服務(wù)越來越流行.例如,美國著名微博Twitter在2012年3月就已經(jīng)擁有一千四百萬活躍用戶.而作為中國最有代表性的微博服務(wù),新浪微博在2013年3月時(shí)已經(jīng)擁有超過五千萬的注冊用戶.

微博服務(wù)已經(jīng)成為信息傳播的重要媒體之一.在微博網(wǎng)絡(luò)中,信息主要通過轉(zhuǎn)發(fā)行為來傳播.當(dāng)用戶發(fā)布一條微博,微博就會被推送給他/她的粉絲.當(dāng)粉絲看到這條微博,他們將決定是否轉(zhuǎn)發(fā)這條微博.如果轉(zhuǎn)發(fā),這條微博就會再次推送給該粉絲的粉絲.通過這種方式,信息在微博網(wǎng)絡(luò)中傳播.轉(zhuǎn)發(fā)量是指一條微博被轉(zhuǎn)發(fā)了多少次.它是轉(zhuǎn)發(fā)行為的重要衡量指標(biāo).轉(zhuǎn)發(fā)量預(yù)測在真實(shí)世界中具有重大意義.例如,我們可以在開始時(shí)就阻止謠言的傳播.

有很多關(guān)于微博網(wǎng)絡(luò)中信息傳播和轉(zhuǎn)發(fā)行為的研究[1~3].其中大部分研究將此問題看作微博是否被轉(zhuǎn)發(fā)的二分類問題.通過提取適當(dāng)?shù)奶卣骱瓦x擇合適的分類器,這些方法都會得到一個(gè)轉(zhuǎn)發(fā)預(yù)測模型.也有一些人認(rèn)為這個(gè)問題是回歸問題,但取得的結(jié)果一般.然而,所有這些方法都忽略了對于轉(zhuǎn)發(fā)行為來說很重要的轉(zhuǎn)發(fā)傳播過程.通過分析傳播過程,我們認(rèn)為微博的轉(zhuǎn)發(fā)主要有兩個(gè)部分:來自用戶直接粉絲的轉(zhuǎn)發(fā)(圖1(a)中的圓圈)和來自用戶間接粉絲的轉(zhuǎn)發(fā)(圖1(a)中的方塊).粉絲的影響力對于預(yù)測來自間接粉絲的轉(zhuǎn)發(fā)量很重要.圖1(b)展示了一個(gè)真實(shí)的轉(zhuǎn)發(fā)傳播過程.其中來自用戶間接粉絲的轉(zhuǎn)發(fā)量可能會很大.如果我們忽略了轉(zhuǎn)發(fā)過程,就可能只關(guān)注用戶自己的影響力,只能處理特殊的轉(zhuǎn)發(fā)傳播過程,例如圖1(c)那樣.這樣會大大簡化問題的難度并導(dǎo)致錯(cuò)誤的預(yù)測.

在本文中,我們研究了轉(zhuǎn)發(fā)量預(yù)測問題,并提出了合理利用多種信息的轉(zhuǎn)發(fā)量預(yù)測模型.使用的信息包括歷史行為、內(nèi)容相關(guān)性、粉絲的影響力三種.我們利用行為和內(nèi)容相關(guān)性來估計(jì)用戶的直接粉絲是否愿意轉(zhuǎn)發(fā),即轉(zhuǎn)發(fā)意愿,然后用直接粉絲的轉(zhuǎn)發(fā)影響力來估計(jì)來自用戶間接粉絲的轉(zhuǎn)發(fā)量,合理整合轉(zhuǎn)發(fā)意愿和轉(zhuǎn)發(fā)影響力,通過模擬轉(zhuǎn)發(fā)傳播過程我們能預(yù)測轉(zhuǎn)發(fā)量.我們搜集了新浪微博數(shù)據(jù)作為數(shù)據(jù)集并得到了良好的實(shí)驗(yàn)結(jié)果.

2 相關(guān)工作

隨著微博服務(wù)的高速發(fā)展,出現(xiàn)了越來越多與微博相關(guān)的研究熱點(diǎn).最基本的研究點(diǎn)是網(wǎng)絡(luò)結(jié)構(gòu)和用戶特征.文獻(xiàn)[4]從各種方面比較兩種不同微博平臺(新浪微博和Twitter)上的用戶行為.文獻(xiàn)[5]研究了與政治相關(guān)的微博,并發(fā)現(xiàn)這些微博中的情感會影響它的轉(zhuǎn)發(fā)量.

轉(zhuǎn)發(fā)是微博的核心功能之一,保證了微博網(wǎng)絡(luò)中的信息傳播.所以許多研究者把注意力放在轉(zhuǎn)發(fā)行為上.文獻(xiàn)[6]用主成分分析的方法分析了那些高轉(zhuǎn)發(fā)量的微博的特征,自動提取出那些可能被大規(guī)模轉(zhuǎn)發(fā)的微博.文獻(xiàn)[7]提出用條件隨機(jī)場來對轉(zhuǎn)發(fā)模型進(jìn)行建模.他們研究了劃分社會關(guān)系圖的方法,構(gòu)建出用來轉(zhuǎn)發(fā)預(yù)測的網(wǎng)絡(luò)關(guān)系.文獻(xiàn)[8]通過預(yù)測社會影響來回答“誰分享什么”的問題,提出了一種混合因子非負(fù)矩陣分解方法.

現(xiàn)在也有許多基于中文微博的轉(zhuǎn)發(fā)量預(yù)測研究.文獻(xiàn)[9]提出一個(gè)動態(tài)預(yù)測用戶轉(zhuǎn)發(fā)模式的方法,發(fā)現(xiàn)了許多以前傳統(tǒng)方法沒有捕捉到的外生特性,這些外生特性也很重要.文獻(xiàn)[10]提出一個(gè)基于SVM(Support Vector Machine)算法的預(yù)測模型.在新浪微博上取得了很好的效果,但他們提取了太過復(fù)雜的特征.文獻(xiàn)[11]將問題分成了2步.他們先將微博基于潛在的轉(zhuǎn)發(fā)量分成幾類,再對每類分別做回歸.新浪微博上的實(shí)驗(yàn)得到了比傳統(tǒng)的沒有提取復(fù)雜特征的一階段模型更好的效果.

3 轉(zhuǎn)發(fā)量預(yù)測模型

3.1 問題定義

對于所有用戶,我們有一個(gè)四元組U=(F,T,Nr,Mr).F表示用戶的粉絲集合,其中Fi表示第i名粉絲.T表示該用戶已經(jīng)發(fā)過的微博的集合,其中Tj表示第j條微博.為了方便,在沒有聲明時(shí)下文的i表示粉絲,j表示微博.Nr表示一條微博的真實(shí)轉(zhuǎn)發(fā)量,包括所有直接粉絲和間接粉絲帶來的轉(zhuǎn)發(fā)量,其中Nr(j)是指第j條微博的轉(zhuǎn)發(fā)量.矩陣Μr定義為粉絲和微博的轉(zhuǎn)發(fā)關(guān)系矩陣.Μr中的每行表示一個(gè)粉絲,每列表示一條微博.Μr的規(guī)模是|F|*|T|.Μr中的值如下:

(1)

同時(shí),對于每一個(gè)粉絲Fi,我們有一個(gè)二元組Fi=(Ei,Ri).Fi發(fā)布的微博組成集合Ei.對于Ei中的每條微博,我們有其內(nèi)容.Ri表示所有被Fi轉(zhuǎn)發(fā)的微博,注意這些微博可能不是來自于用戶U.對于Ri中的第k條微博,我們有它的轉(zhuǎn)發(fā)時(shí)間tRi(k)和真實(shí)轉(zhuǎn)發(fā)量NRi(k).

前文提到過,轉(zhuǎn)發(fā)量包括兩部分.因?yàn)橹苯臃劢z有更緊密的關(guān)系和更豐富的信息,模型預(yù)測直接粉絲的轉(zhuǎn)發(fā)意愿.同時(shí),因?yàn)殚g接粉絲的信息太多而不好獲取,我們利用直接粉絲的轉(zhuǎn)發(fā)影響力來估算來自間接粉絲的轉(zhuǎn)發(fā)量.最后,我們從這兩方面來估算轉(zhuǎn)發(fā)量.轉(zhuǎn)發(fā)量預(yù)測模型的核心函數(shù)如下.

(2)

Np(j)表示對微博Tj的預(yù)測轉(zhuǎn)發(fā)量,其中包括來自F中所有粉絲的轉(zhuǎn)發(fā)量及通過Fi的間接粉絲的轉(zhuǎn)發(fā)量.f(i,j)表示粉絲Fi對微博Tj的轉(zhuǎn)發(fā)意愿.它是屬于0、1之間的概率.Pi表示粉絲Fi的轉(zhuǎn)發(fā)影響力,用于估算間接粉絲的轉(zhuǎn)發(fā)量.f(i,j)和(1+Pi)的乘積是來自直接粉絲Fi和其間接粉絲的預(yù)測量總和.所以對于一條微博Tj,它的轉(zhuǎn)發(fā)量就是所有乘積的總和.

所有主要符號定義見表1.

表1 所用的主要符號

3.2 轉(zhuǎn)發(fā)意愿的計(jì)算

本文從兩方面信息估算f(i,j)的值,粉絲對該用戶微博的過去轉(zhuǎn)發(fā)行為和該粉絲發(fā)過的微博與要預(yù)測的微博的內(nèi)容相關(guān)性.不同的粉絲會表現(xiàn)出不同的行為習(xí)慣.一些人喜歡轉(zhuǎn)發(fā)而另一些不喜歡.過去轉(zhuǎn)發(fā)行為代表一個(gè)粉絲的轉(zhuǎn)發(fā)習(xí)慣,是否喜歡轉(zhuǎn)發(fā).內(nèi)容相關(guān)性則表示一條微博是否和該粉絲的日常興趣點(diǎn)相關(guān).一般來說,用戶只對自己關(guān)心的領(lǐng)域的微博感興趣.如果一條微博屬于該用戶的興趣領(lǐng)域,被轉(zhuǎn)發(fā)的可能性更大.

3.2.1 過去轉(zhuǎn)發(fā)行為

我們通過矩陣分解模型[12]來對過去轉(zhuǎn)發(fā)行為建模.矩陣分解的目的是補(bǔ)全矩陣中的空缺.對于一條新微博,我們能預(yù)測所有粉絲對其的轉(zhuǎn)發(fā)可能性.

該模型的核心觀點(diǎn)是將轉(zhuǎn)發(fā)關(guān)系矩陣Mr分解成兩個(gè)更小的矩陣.首先,我們基于數(shù)據(jù)集中粉絲和微博的關(guān)系構(gòu)建轉(zhuǎn)發(fā)關(guān)系矩陣Mr.然后構(gòu)建隱特征矩陣p和q,分別對應(yīng)粉絲和微博.矩陣p和q的規(guī)模為|F|×K和|T|×K.pi表示粉絲Fi的隱特征,qj表示微博Tj的隱特征.K表示隱特征的個(gè)數(shù).轉(zhuǎn)發(fā)矩陣Mr能分解成p和qT的乘積.通過最小化損失函數(shù)Eq.3,我們能得到p和q.

(3)

本文中,我們采用隨機(jī)梯度下降算法.迭代函數(shù)如下.

(4)

(5)

通過計(jì)算p和q,我們能得到基于歷史行為的任意粉絲對任意微博的轉(zhuǎn)發(fā)意愿,用Mp[i,j]表示.

(6)

式(6)是一個(gè)確保Mp[i,j]在0、1之間的規(guī)則化函數(shù).δ的目的是防止Mp[i,j]太小.本文中,經(jīng)過試驗(yàn)δ取0.02.

3.2.2 內(nèi)容相關(guān)性

轉(zhuǎn)發(fā)行為是建立在瀏覽行為基礎(chǔ)上的.大部分用戶對不能吸引他/她注意力的微博只會一掃而過.當(dāng)然也不會轉(zhuǎn)發(fā)此條微博.只有一個(gè)微博和他/她的興趣點(diǎn)相近,用戶才會關(guān)注它并轉(zhuǎn)發(fā).

我們構(gòu)建矩陣Mc來描述內(nèi)容相關(guān)性.Mc[i,j]表示粉絲Fi發(fā)布的微博集合Ei與用戶微博Tj的內(nèi)容相關(guān)性.本文采用詞袋模型來計(jì)算相關(guān)性.它忽略了詞的出現(xiàn)順序,只考慮出現(xiàn)次數(shù).

首先,采用著名的中文分詞工具ansj-seg(https://github.com/NLPchina/ansj-seg)分詞,再去掉常見但沒意義的停用詞,剩下的詞組成詞袋.Wi和Wj分別表示粉絲的微博集Ei和用戶微博Tj的詞袋.兩個(gè)詞袋間的內(nèi)容相關(guān)性可以通過很多算法計(jì)算,比如余弦距離、海明距離等.我們采用下面的函數(shù)計(jì)算Mc[i,j].

(7)

3.3 轉(zhuǎn)發(fā)影響力的計(jì)算

除了來自直接粉絲的轉(zhuǎn)發(fā),來自間接粉絲的轉(zhuǎn)發(fā)在轉(zhuǎn)發(fā)行為中也很重要.但因?yàn)樾畔⒖偭康闹笖?shù)式增長,我們無法獲得間接粉絲的所有信息.而且還存在兩跳粉絲、三跳粉絲及更多跳粉絲.所以我們選擇粉絲的轉(zhuǎn)發(fā)影響力來衡量來自間接粉絲的轉(zhuǎn)發(fā)量.

第i個(gè)粉絲的轉(zhuǎn)發(fā)影響力Pi表示當(dāng)粉絲Fi轉(zhuǎn)發(fā)了該微博后,該微博繼續(xù)被粉絲Fi的粉絲轉(zhuǎn)發(fā)的能力.因?yàn)橛绊懥茈y計(jì)算而且本文的重點(diǎn)在轉(zhuǎn)發(fā)模型上,我們用平均轉(zhuǎn)發(fā)量來衡量轉(zhuǎn)發(fā)影響力.很明顯轉(zhuǎn)發(fā)影響力和時(shí)間有關(guān),所以直接用所有被粉絲Fi轉(zhuǎn)發(fā)的微博的平均轉(zhuǎn)發(fā)量作為粉絲Fi的影響力并不合適.為了解決這個(gè)問題,我們引入一個(gè)時(shí)間函數(shù)來保證時(shí)間的影響.權(quán)重函數(shù)如下.

(8)

在上面的函數(shù)中,k表示在過去被粉絲Fi轉(zhuǎn)發(fā)過的第k條微博.t表示預(yù)測時(shí)間.通過權(quán)重函數(shù),在近期被粉絲Fi轉(zhuǎn)發(fā)的微博對轉(zhuǎn)發(fā)量的貢獻(xiàn)更大.

3.4 整體模型

計(jì)算Mp和Mc后,我們能通過下面的公式計(jì)算f(i,j).

f(i,j)=αi×Mp[i,j]+βi×Mc[i,j]

(9)

其中αi和βi表示兩種信息的權(quán)重.對于每個(gè)粉絲Fi,這兩個(gè)值是不同的,所以是個(gè)性化參數(shù).加入轉(zhuǎn)發(fā)影響力Pi后,微博Tj的最終轉(zhuǎn)發(fā)量預(yù)測公式如下.

Np(j)=

(10)

常用的損失函數(shù)有很多,如0-1損失函數(shù)、絕對值損失函數(shù).本文采用均方誤差作為損失函數(shù).函數(shù)如下.其中α和β表示由αi和βi組成的向量.

(11)

接下來問題變成了一個(gè)帶約束的最優(yōu)化問題.優(yōu)化函數(shù)見式(12).

s.t.αi+βi=1,i=1,2,…,|F|

(12)

帶約束的最優(yōu)化問題一般用懲罰函數(shù)的方法解決.然而,我們模型中的約束只是簡單的線性約束,所以約束可以通過用一個(gè)參數(shù)的變形來代替另一個(gè)參數(shù)的方法抵消掉.最后優(yōu)化公式變?yōu)?/p>

(13)

因?yàn)樽顑?yōu)化函數(shù)是二次方程式,本文采用隨機(jī)梯度下降算法.每一個(gè)αi和βi的迭代公式如下.

(14)

βi←1-αi

(15)

詳細(xì)算法見算法1.

算法1轉(zhuǎn)發(fā)量預(yù)測模型

輸入:

U=(F,T,Nr,Mr),Fi=(Ei,Ri)

輸出:

Np

1.用Mr計(jì)算Mp[i,j]

2.用T和所有Ei計(jì)算Mc[i,j]

3.用Ri計(jì)算Pi

4.初始化α和β

5.循環(huán) 未收斂

6. 用式(10)計(jì)算Np

7. 用式(14)更新α

8. 用式(15)更新β

9.結(jié)束循環(huán)

4 實(shí)驗(yàn)

本節(jié)中,我們先介紹從新浪微博得到的數(shù)據(jù)集.然后驗(yàn)證模型的有效性和個(gè)性化參數(shù)的效果.最后做了一個(gè)實(shí)例研究.

4.1 數(shù)據(jù)集

我們從新浪微博獲得數(shù)據(jù)集.新浪微博是中國的最大微博服務(wù)之一.而且它提供API給所有用戶.通過這些API,我們能得到包括微博內(nèi)容、時(shí)間、轉(zhuǎn)發(fā)狀況等所有信息.在我們的數(shù)據(jù)集中,共有9,535個(gè)用戶.這些用戶涵蓋了轉(zhuǎn)發(fā)量巨大的大V用戶以及轉(zhuǎn)發(fā)量很小的普通用戶.為了確保轉(zhuǎn)發(fā)量的穩(wěn)定性,我們刪除最新一個(gè)月的微博,因?yàn)樗鼈兛赡苋栽诒晦D(zhuǎn)發(fā).一共有745,919條微博和326,180個(gè)粉絲.轉(zhuǎn)發(fā)總量為18,108,061次.

為了驗(yàn)證微博的選取是否有代表性,對微博的轉(zhuǎn)發(fā)量的分布進(jìn)行分析.轉(zhuǎn)發(fā)量分布見圖2.其中橫坐標(biāo)為一條微博的轉(zhuǎn)發(fā)量,縱坐標(biāo)為這個(gè)轉(zhuǎn)發(fā)量的微博條數(shù),坐標(biāo)軸均為對數(shù)刻度.從圖2中可見,轉(zhuǎn)發(fā)量從0到100,000以上均有覆蓋,大部分微博的轉(zhuǎn)發(fā)量較低,隨著轉(zhuǎn)發(fā)量增多,微博越來越少,符合長尾分布.真實(shí)的微博轉(zhuǎn)發(fā)情況也應(yīng)是如此,大部分微博的轉(zhuǎn)發(fā)量都很低,少數(shù)微博的轉(zhuǎn)發(fā)量特別高,可見選取的微博還是有覆蓋性的.

4.2 對比實(shí)驗(yàn)

本節(jié)中,我們通過和幾種方法作對比來驗(yàn)證提出的方法.我們選擇了如下4種方法及3種模型變形來對比.基本方法中所用的部分特征見表2.

(1)多元線性回歸(MLR)[13]是普通線性回歸的一般化,考慮了多個(gè)獨(dú)立變量的情況.

(2)多重感知機(jī)(MP)[14]是一種帶有前向結(jié)構(gòu)的人工神經(jīng)網(wǎng)絡(luò).它能將輸入向量映射到輸出向量.

(3)M5P[15]模型是決策樹和多元線性回歸的結(jié)合.每一個(gè)葉結(jié)點(diǎn)是一個(gè)線性回歸模型,所以M5P能用于連續(xù)值的回歸問題.

(4)兩階段模型(TP)[11]將轉(zhuǎn)發(fā)量預(yù)測問題分成兩個(gè)階段.第一階段,他們將微博基于潛在的轉(zhuǎn)發(fā)量分成幾類.在第二階段,在每類中做回歸.

(5)我們的模型(BCI)及模型變形.BCI使用了兩種信息計(jì)算轉(zhuǎn)發(fā)意愿,所以我們通過只用一種信息的方式能得到兩種變形.模型BCIC只使用過去歷史行為而模型BCIB只使用內(nèi)容相關(guān)性.模型BCIBC則不使用過去歷史行為和內(nèi)容相關(guān)性,直接用轉(zhuǎn)發(fā)影響力來預(yù)測轉(zhuǎn)發(fā)量.對應(yīng)的函數(shù)如下.

(16)

(17)

(18)

4.3 衡量標(biāo)準(zhǔn)

我們用平均絕對誤差MAE和相對絕對誤差RAE來衡量結(jié)果.在統(tǒng)計(jì)學(xué)中,它們是常用的標(biāo)準(zhǔn)之一,用來衡量預(yù)測值和真實(shí)值的差距.其定義如下.

(19)

(20)

其中pi是測試集中第i條微博的預(yù)測轉(zhuǎn)發(fā)量,ri是真實(shí)轉(zhuǎn)發(fā)量.rm是測試集的平均轉(zhuǎn)發(fā)量.MAE和RAE的值越小,模型越有效.它表示預(yù)測值與真實(shí)值更接近.

習(xí)慣上,我們更喜歡用準(zhǔn)確率[11]來衡量結(jié)果.單一的值更容易給我們以直觀印象.但對于一個(gè)預(yù)測轉(zhuǎn)發(fā)量問題,要得到絕對正確的值太過嚴(yán)苛.所以我們定義一個(gè)范圍來衡量預(yù)測結(jié)果.定義的范圍如下.

(21)

(22)

4.4 實(shí)驗(yàn)設(shè)置

實(shí)驗(yàn)共有γ和λ兩個(gè)參數(shù).其中γ是學(xué)習(xí)速率.γ的大小不僅會影響訓(xùn)練時(shí)間,也會影響結(jié)果的收斂性.γ的值越大,學(xué)習(xí)速度越快,但可能結(jié)果無法收斂.γ的值越小,學(xué)習(xí)速度越慢,結(jié)果收斂性更好.一般都會把γ取的很小,在0.001這個(gè)量級.本文的模型是對每一個(gè)用戶U建立的,所以要計(jì)算多次模型.根據(jù)嘗試,γ設(shè)置為0.002,對于大部分用戶數(shù)據(jù)已經(jīng)可以收斂.對于無法收斂的用戶數(shù)據(jù),將γ縮小,直到所用用戶的數(shù)據(jù)都收斂.

λ是正則化系數(shù),目的是防止模型過擬合.一般會將λ的值設(shè)置在0.01這個(gè)量級.由于模型要計(jì)算多次,每一次都確定一次λ過于復(fù)雜,所以λ的參數(shù)實(shí)驗(yàn)建立在整體結(jié)果上.對于每個(gè)用戶,隨機(jī)選取數(shù)據(jù)集中的60%作為訓(xùn)練集,剩下的作為測試集,進(jìn)行參數(shù)λ的實(shí)驗(yàn).結(jié)果見圖3.可見λ對實(shí)驗(yàn)結(jié)果有影響,但不是很明顯.最終將λ設(shè)置為0.02.

4.5 有效性實(shí)驗(yàn)

首先,我們做有效性實(shí)驗(yàn)來驗(yàn)證模型的效果.對于每個(gè)用戶,隨機(jī)選取數(shù)據(jù)集中的60%、70%、80%和90%作為訓(xùn)練集,剩下的作為測試集,采用4.2節(jié)提到的方法和4.3節(jié)提的衡量方法做實(shí)驗(yàn).表3中展示的是MAE和RAE的結(jié)果,準(zhǔn)確率結(jié)果Acc在圖4中.

從表3中,可以觀察到提出的模型BCI在所有情況下都是最好的,都有相對明顯的提升.在60%和70%的情況下,我們的模型相比MLR提升超過了100%.在4種對比方法中,除了90%的情況TP均取得了最好的結(jié)果,同時(shí)MLR效果總是最差的.BCIC的結(jié)果不理想,結(jié)果甚至比一些對比方法更糟.但BCIB的結(jié)果優(yōu)于對比方法,接近模型BCI.而BCIBC結(jié)果很低,可見轉(zhuǎn)發(fā)意愿的計(jì)算是有意義的,只用轉(zhuǎn)發(fā)影響力的話結(jié)果會大很多.我們可以推斷出,用戶是否轉(zhuǎn)發(fā)微博更主要的取決于

結(jié)果中有效果.但對于一條微博,興趣更重要.

從圖4中,我們能得到更多的信息.橫坐標(biāo)隨著式(20)中的m值的變化而變化.m值越大,準(zhǔn)確率應(yīng)該越低.然而,因?yàn)檗D(zhuǎn)發(fā)量有很多是0,預(yù)測值在此時(shí)更容易正確,所以下降趨勢不明顯.結(jié)果分成了3個(gè)層次,特別是在60%的情況下.相對來講,BCIC和BCIBC的下降趨勢最明顯.BCIC使用了Mr中的歷史轉(zhuǎn)發(fā)信息.經(jīng)過矩陣分解,Mr中的0值將被填上.所以BCIC的結(jié)果相對來說離0比較遠(yuǎn),趨勢更明顯.BCIBC的下降趨勢和BCIC類似.

4.6 個(gè)性化參數(shù)的效果實(shí)驗(yàn)

我們的模型中,每一個(gè)粉絲都有其特殊的αi和βi.接下來,我們測試模型中αi和βi的有效性.這兩個(gè)參數(shù)的目的是整合兩種信息:歷史轉(zhuǎn)發(fā)信息和內(nèi)容相關(guān)性信息,它們對于每個(gè)粉絲是不同的.

表3 有效性對比

α60%70%80%90%MAERAEMAERAEMAERAEMAERAE隨機(jī)3042016053662019522863015182642014160535740188637750196128600151626350141214023021115151027473618019183387018150226801195248701352257601353250401342參數(shù)學(xué)習(xí)219801159229701224230801223221101185

表4和圖5中的α值設(shè)置為隨機(jī)、0.5、1、0和參數(shù)學(xué)習(xí)的值.β的值是1-α.表4中的衡量標(biāo)準(zhǔn)還是MAE和RAE,圖5中為準(zhǔn)確率Acc.

從表4,我們可以看出參數(shù)學(xué)習(xí)取得了最好的效果.α=1和α=0就是BCIC和BCIB.BCIC和BCIB的結(jié)果比我們的模型BCI的結(jié)果差.這表明兩種信息都有效果.在大多數(shù)情況,α=random和α=0.5的結(jié)果相似且在BCIC和BCIB的結(jié)果之間.這種現(xiàn)象表明盡管兩種信息都有用,但還是需要一個(gè)有效的整合方法來利用它們.所以我們模型中的參數(shù)學(xué)習(xí)是有必要的.

在圖5中我們同樣發(fā)現(xiàn)下降趨勢.同時(shí),α=random、α=0.5和α=1的結(jié)果的下降趨勢相似.正相反,α=0的下降趨勢不明顯.參數(shù)學(xué)習(xí)的結(jié)果曲線在所有曲線的上方,它的下降趨勢和α=0的下降趨勢相似但也不一樣.可見,參數(shù)學(xué)習(xí)能有效地整合兩種信息,相比一種信息有所提高.

4.7 實(shí)例研究

本節(jié)中,我們具體地展示個(gè)性化參數(shù).我們是對每一個(gè)用戶建模.每一個(gè)用戶有很多粉絲,粉絲數(shù)從1到數(shù)百不等.所以我們選擇一個(gè)適當(dāng)?shù)挠脩糇鳛槔?該用戶有94個(gè)粉絲.由于空間限制,表5中只列出5對有代表性的αi和βi.同時(shí)列出Mp[i,j],Mc[i,j]和Pi幫助理解.然后我們還需要一個(gè)預(yù)測結(jié)果很好的微博.我們找到一個(gè)真實(shí)轉(zhuǎn)發(fā)量為11的微博,它的預(yù)測轉(zhuǎn)發(fā)量為12.

表5 αi和βi的實(shí)例

在表5中,αi的值遞增.這個(gè)結(jié)果反映了不同粉絲的區(qū)別.通過分析數(shù)據(jù),Mp[i,j]的值越大,αi的值越大.一個(gè)轉(zhuǎn)發(fā)過微博的粉絲有更大的αi.如果一個(gè)粉絲轉(zhuǎn)發(fā)過微博,未來中他/她更可能轉(zhuǎn)發(fā)微博.所以Mp[i,j]的值更大.為了利用Mp[i,j]的信息,αi就要更大.因?yàn)镸c[i,j]比大部分Mp[i,j]都小,αi的值主要受Mp[i,j]影響.同時(shí),αi的值與Pi相互獨(dú)立.

上面的結(jié)果表明,Mp[i,j]更加占主導(dǎo)地位,然而利用Mp[i,j]的BCIC的效果要比BCIB差.經(jīng)過分析發(fā)現(xiàn),BCIC的預(yù)測結(jié)果一般偏大,可見只依靠Mp[i,j]會使結(jié)果比較大,偏離真實(shí)值,經(jīng)過較小的Mc[i,j]的修正,結(jié)果向真實(shí)值靠攏,但結(jié)果還是Mp[i,j]占主導(dǎo).因?yàn)閿?shù)據(jù)集中大部分轉(zhuǎn)發(fā)量較小,而BCIB預(yù)測的結(jié)果與BCIC恰好相反,預(yù)測結(jié)果偏小,預(yù)測值與真實(shí)值更加接近,結(jié)果比BCIC好.

5 總結(jié)

轉(zhuǎn)發(fā)是微博網(wǎng)絡(luò)中信息傳播的核心手段之一.轉(zhuǎn)發(fā)量是轉(zhuǎn)發(fā)傳播影響力的一種衡量方法,而且具有很大的實(shí)際意義.我們提出一個(gè)基于粉絲轉(zhuǎn)發(fā)意愿和影響力的模型.用歷史轉(zhuǎn)發(fā)行為、內(nèi)容相關(guān)性兩種信息來計(jì)算轉(zhuǎn)發(fā)意愿.新浪微博數(shù)據(jù)集上的實(shí)驗(yàn)表明我們的模型效果優(yōu)于一般的預(yù)測模型.

未來,我們可以繼續(xù)提高模型的效果.一方面,我們的模型可以擴(kuò)展到使用更多種信息.理論上,我們能用任意數(shù)量的矩陣來計(jì)算轉(zhuǎn)發(fā)意愿.另一方面可以利用更復(fù)雜的特征,比如微博的主題.更多的使用那樣的復(fù)雜特征,模型會得到更好的效果.同時(shí),也可以根據(jù)轉(zhuǎn)發(fā)意愿來研究微博的實(shí)際轉(zhuǎn)發(fā)路線,而不再只是計(jì)算轉(zhuǎn)發(fā)量的結(jié)果.

[1]Ma H,Qian W,Xia F,et al.Towards modeling popularity of microblogs[J].Frontiers of Computer Science,2013,7(2):171-184.

[2]Yang Z,Guo J,Cai K,et al.Understanding retweeting behaviors in social networks[A].Proceedings of the 19th ACM International Conference on Information and Knowledge Management[C].Toronto,Ontario,Canada:ACM,2010.1633-1636.

[3]Yang J,Counts S.Predicting the speed,scale,and range of information diffusion in Twitter[A].Proceedings of the International AAAI Conference on Weblogs and Social Media[C].Washington,USA:AAAI,2010.355-358.

[4]Gao Q,Abel F,Houben G J,et al.A comparative study of users’ microblogging behavior on Sina Weibo and Twitter[A].User Modeling,Adaptation,and Personalization[C].Montreal,Canada:Springer,2012.88-101.

[5]Stieglitz S,Dang-Xuan L.Political communication and influence through microblogging-an empirical analysis of sentiment in twitter messages and retweet behavior[A].System Science (HICSS),2012 45th Hawaii International Conference on[C].Hawaii:IEEE,2012.3500-3509.

[6]Morchid M,Dufour R,Bousquet P M,et al.Feature selection using principal component analysis for massive retweet detection[J].Pattern Recognition Letters,2014,49:33-39.

[7]Peng H K,Zhu J,Piao D,et al.Retweet modeling using conditional random fields[A].Data Mining Workshops (ICDMW),2011 IEEE 11th International Conference on[C].Vancouver,British Columbia,Canada:IEEE,2011.336-343.

[8]Cui P,Wang F,Liu S,et al.Who should share what?:item-level social influence prediction for users and posts ranking[A].Proceedings of the 34th International ACM SIGIR Conference on Research and Development in Information Retrieval[C].Beijing,China:ACM,2011.185-194.

[9]Lu X,Yu Z,Guo B,et al.Modeling and predicting the re-post behavior in SinaWeibo[A].Green Computing and Communications (GreenCom),2013 IEEE and Internet of Things (iThings/CPSCom),IEEE International Conference on and IEEE Cyber,Physical and Social Computing[C].Beijing,China:IEEE,2013.962-969.

[10]李英樂,于洪濤,劉力雄.基于SVM 的微博轉(zhuǎn)發(fā)規(guī)模預(yù)測方法[J].計(jì)算機(jī)應(yīng)用研究,2013,30(9):2594-2597. Y Li,H Yu,L Liu.Predict algorithm of micro-blog retweet scale based on svm[J].Application Research of Computers,2013,30(9):2594-2597.(in chinese)

[11]Liu G,Shi C,Chen Q,et al.A two-phase model for retweet number prediction[A].Web-Age Information Management[C].Macau,China:Springer International Publishing,2014.781-792.

[12]Koren Y,Bell R,Volinsky C.Matrix factorization techniques for recommender systems[J].Computer,2009,42(8):30-37.

[13]Breiman L,Friedman J H.Predicting multivariate responses in multiple linear regression[J].Journal of the Royal Statistical Society,1997,59(1):3-54.

[14]Ruck D W,Rogers S K,Kabrisky M,et al.The multilayer perceptron as an approximation to a Bayes optimal di44scriminant function[J].Neural Networks,IEEE Transactions on,1990,1(4):296-298

[17].Frank E,Wang Y,Inglis S,et al.Using model trees for classification[J].Machine Learning,1998,32(1):63-7

趙惠東 男,1990年11月出生,遼寧沈陽人,2013年在北京郵電大學(xué)獲得學(xué)士學(xué)位,現(xiàn)為北京郵電大學(xué)計(jì)算機(jī)學(xué)院碩士研究生,研究方向?yàn)閿?shù)據(jù)挖掘.

E-mail:zhaohuidong1121@foxmail.com

劉 剛 男,1989年5月出生,遼寧沈陽人,2012年在北京郵電大學(xué)獲得學(xué)士學(xué)位,2015年在北京郵電大學(xué)獲得工學(xué)碩士學(xué)位,研究方向?yàn)閿?shù)據(jù)挖掘.

石 川 男,1978年4月出生,湖北洪湖人,教授、博士生導(dǎo)師、IEEE/ACM/CCF會員.2001年在吉林大學(xué)獲得學(xué)士學(xué)位,2004年在武漢大學(xué)獲得碩士學(xué)位,2007年在中國科學(xué)院計(jì)算技術(shù)研究所獲得博士學(xué)位.2007年加入北京郵電大學(xué),研究方向包括機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘和演化計(jì)算.

吳 斌 男,1969年11月出生,湖南長沙人,教授、博士生導(dǎo)師,2002年中國科學(xué)院計(jì)算技術(shù)研究所博士畢業(yè),現(xiàn)在北京郵電大學(xué)計(jì)算機(jī)學(xué)院工作,主要從事復(fù)雜網(wǎng)絡(luò)、數(shù)據(jù)挖掘、海量數(shù)據(jù)并行處理、可視分析、電信客戶關(guān)系管理等方面的研究工作.

Retweet Number Prediction Based on Retweet Propagation Process

ZHAO Hui-dong,LIU Gang,SHI Chuan,WU Bin

(BeijingKeyLabofIntelligentTelecommunicationSoftwareandMultimedia,BeijingUniversityofPostsandTelecommunications,Beijng100876,China)

Micro-blog has become the most popular information sharing tool in our daily life.The retweet behavior is a main method of information propagation in micro-blog.So the retweet number prediction is an interesting research topic and has much practical significance.However,most of current researches only regard this problem as aclassification or regression problem,and they did not consider the retweet propagation process.Considering the retweet propagation process,we propose a retweet number prediction model BCI.In our model,we think retweet messages are from two parts,direct followers and indirect followers.The retweet number of followers is decided by their retweet intention and influence.We use behavior and content information to estimate retweet intention for a direct follower and use the influence to estimate the indirect followers’ retweet number.Experimental results on Sina Weibo dataset show that our retweet number prediction model has much better performance than other well-established methods.

retweet number prediction;retweet intention;the influence on retweeting

2015-02-03;

2015-08-04;責(zé)任編輯:梅志強(qiáng)

國家重點(diǎn)基礎(chǔ)研究發(fā)展計(jì)劃(No.2013CB329606);國家自然科學(xué)基金(No.61375058,No.71231002);北京市高等教育青年英才項(xiàng)目

TP391

A

0372-2112 (2016)12-2989-08

??學(xué)報(bào)URL:http://www.ejournal.org.cn

10.3969/j.issn.0372-2112.2016.12.025

猜你喜歡
影響力矩陣預(yù)測
無可預(yù)測
選修2-2期中考試預(yù)測卷(A卷)
選修2-2期中考試預(yù)測卷(B卷)
天才影響力
黃艷:最深遠(yuǎn)的影響力
不必預(yù)測未來,只需把握現(xiàn)在
初等行變換與初等列變換并用求逆矩陣
矩陣
矩陣
矩陣