徐瑾輝 馬超
【摘要】在各類社交網(wǎng)站是信息傳播的有利平臺這一現(xiàn)實條件下,我們利用該實際問題與傳染病傳播模型的相似性,以及其本身傳播方式與樹狀圖的共性,結(jié)合以常微分方程為主體算式的計算方法,對這一問題進(jìn)行了深入探討。因此,本文建立了以傳染病傳播模型為基礎(chǔ),以實際應(yīng)用問題為背景的模型改良。通過運用以上改良的模型,我們建立起了一套完整計算“從第一人發(fā)布信息起,在有限日的時間內(nèi),獲取消息的人數(shù)”的算法。
【關(guān)鍵詞】傳播速度;結(jié)點;傳染病傳播模型;數(shù)據(jù)背景;印象度
1.問題的引入與分析
為了更合理的描述這個問題,我們引入一個例子,并以此為例提出解決方案。我們假設(shè)一家企業(yè)想利用社交網(wǎng)絡(luò)在奧運會期間進(jìn)行企業(yè)宣傳,假設(shè)現(xiàn)在距離奧運會開幕還有100 天,一個社交網(wǎng)絡(luò)的專業(yè)推廣者平均每天可以新增500個粉絲,這些粉絲會把推廣者發(fā)布的和奧運會相關(guān)的所有信息都分享給自己的粉絲們,普通網(wǎng)絡(luò)用戶平均每天可以新增20個粉絲。
根據(jù)以上條件預(yù)測奧運會開始后,一條含有企業(yè)廣告的奧運會新聞可以被多少人觀看到?
2.基本假設(shè)
為了切入的方便,我們特提出如下假設(shè),其中的部分假設(shè)會在模型檢驗的步驟中加以去除。
(1)消息的傳播不會經(jīng)過一層就斷掉(也就是說,在社交網(wǎng)絡(luò)專業(yè)推廣者以下的各層直接或間接粉絲中,接收消息的人可以成為傳播消息的人)
(2)粉絲的重復(fù)問題,由于重復(fù)的粉絲數(shù)在巨大的網(wǎng)絡(luò)下很小,所以重復(fù)率很低,暫不考慮。
(3)從收到消息到傳播消息中間的時間忽略不計。
(4)傳播信息的過程中不考慮傳播者傳播的主觀因素。
(5)假設(shè)在該社交平臺上專業(yè)推廣者(即網(wǎng)絡(luò)推手)只有1人,且其個人社交平臺的實際運營時間為0,粉絲基數(shù)為0。
(6)假設(shè)該社交網(wǎng)站所有用戶每天所發(fā)布的信息都會在當(dāng)天被其粉絲看到。7、該社交網(wǎng)站在所有時間段的平均人流量均相等。
(7)本文中所指的社交網(wǎng)站以推特網(wǎng)(Twi-tter)為例子,假定總用戶人數(shù)為5億人。(見參考文獻(xiàn)[1])
(8)假設(shè)若A是B的粉絲,則B所發(fā)布的消息必然會被A看到,而A看到后必然會轉(zhuǎn)發(fā)給A的粉絲。
備注:可能會存在死亡節(jié)點與爆炸性節(jié)點的問題。死亡結(jié)點指該消息傳到某粉絲處時停止傳播(如僵尸粉);爆炸性結(jié)點指該消息傳播到某粉絲處時,由于該粉絲的傳播立即得到極大規(guī)模粉絲的傳播,造成了極大地影響力(如名人)。
3.符號約定
N:該社交網(wǎng)站平臺擁有的用戶總?cè)藬?shù)(以Twitter為例子,其中N=5億[1])
t: 傳播時間
s(t):未了解該消息的各層粉絲所占該社交網(wǎng)絡(luò)平臺所有用戶數(shù)目的比例
i(t):已經(jīng)知道該消息的人所占該社交網(wǎng)絡(luò)平臺所有用戶數(shù)目的比例
a(t):專業(yè)的社交推廣者所占該社交網(wǎng)絡(luò)平臺所有用戶數(shù)目的比例
b(t):其他知道該信息的粉絲所占該社交網(wǎng)絡(luò)平臺所有用戶數(shù)目的比例
V:該模型整體的傳播速度
E:總影響力
n:該連接網(wǎng)絡(luò)上級與下級所構(gòu)成的單向傳遞方式連接數(shù)目的總和
ρ:該連接網(wǎng)絡(luò)上級與下級所構(gòu)成的單向傳遞方式的強(qiáng)度大小
4.原理與模型
4.1 概念的引入
在這里,我們引入一個新的概念:體傳播速度,我們用v來表示。我們給他下一個定義:個體傳播速度指一條消息在兩個用戶間傳播的快慢。有了傳播速度的制約,這樣一來,就避免了信息在瞬間覆蓋整個社交網(wǎng)站的無限傳播狀況。制約個體傳播速度的因素有以下三點:
(1)原材料的屬性。各種不同的消息有著不同的屬性。原材料的屬性決定著傳播速度。在普羅大眾的這一角度,由于消息只有一則,則原材料的屬性的數(shù)值是不變化的,可以看作一個常數(shù)。
(2)該連接網(wǎng)絡(luò)上級與下級所構(gòu)成的單向傳遞方式連接數(shù)目的總和,簡稱連接數(shù)目。符號為n。在這個“樹狀圖-核裂變反應(yīng)模式”模型中,作用類似于“樹枝”的連接數(shù)目也起著至關(guān)重要的作用。在上層,假設(shè)斷了一支,則傳播相同消息給相同的人數(shù)需要遠(yuǎn)多于之前的時間,且這一時間隨著層數(shù)的遞減呈指數(shù)爆炸形的增長。
(3)該連接網(wǎng)絡(luò)上級與下級所構(gòu)成的單向傳遞方式的強(qiáng)度大小,簡稱連接強(qiáng)度。符號為ρ(0≤ρ<1)。定義如下:它指的是下一層粉絲的實際影響力。也就是說,下一層粉絲所構(gòu)成的一個影響直接導(dǎo)致了連接強(qiáng)度。我們將n在強(qiáng)度ρ下的加權(quán)稱為該用戶的總影響力E,即:
為第j條連接的強(qiáng)度。
通過以上幾點,我們?nèi)菀字?,V有穩(wěn)定性,不變性的特點,且根據(jù)我們的分析,V最終只由E決定,且與E呈正相關(guān)趨勢。這樣我們可以得到一個函數(shù)v=f(E)。不過我們并不需要計算出f具體的表達(dá)式。我們僅僅需要f的這樣一條性質(zhì):f在R+上是連續(xù)的,且是嚴(yán)格增函數(shù)。這樣,我們所引入f的全部力量,則是為了下一個概念的引入:整體傳播速度V。
根據(jù)之前的假設(shè)與符號約定,我們定義整體傳播速度為:
當(dāng)v=f(E)中的f具有我們之前所討論的性質(zhì)之時,顯然有存在且有意義。這其中的理論證明將不再贅述。
4.2 構(gòu)造模型所需要的函數(shù)
其實我們?nèi)菀装l(fā)現(xiàn),該模型的傳遞方式類似于傳染病的傳播方式,廣告的傳遞者可以看為病人,而沒有看到廣告的用戶可以看作是健康人。同時,廣告的傳遞者每天新增的粉絲數(shù)可以看作是病人每天有效接觸的人數(shù)。因此,廣告在社交網(wǎng)絡(luò)中的傳播可以看作是一種傳染病的傳播模型(SI模型,見參考文獻(xiàn)[2]):
假設(shè):
(1)區(qū)分感染者(病人)與未感染者(健康人),其占總體的比例分別為i(t)與s(t)。
(2)總?cè)藬?shù)為N且不變。
(3)每個病人每天有效接觸人數(shù)為λ,且使健康人致病。
那么可以列出方程:
其中:
進(jìn)一步,令,則有:
與傳統(tǒng)的傳染病數(shù)學(xué)模型不同的是,原論題中存在著兩種相當(dāng)于“病人”的角色:(1)專業(yè)推廣者;(2)看到消息的普通用戶。因此一種很自然的想法是,將病人比例函數(shù)i(t)分為兩個部分:專業(yè)推廣者比例函數(shù)a(t)以及看到消息的普通用戶的比例函數(shù)b(t).所以,我們可以列出以下微分方程算式,進(jìn)行求解。
(1)
(2)
(3)
(4)
(5)
(6)
求解,得到這樣一條微分方程:
(7)
其中a=-20, b= 19.99999904,c=0.00000096
與傳統(tǒng)的傳染病數(shù)學(xué)模型的另一點不同是,原論題中并沒有對傳播速度加以限定。但通過上一節(jié)中對于消息傳播速度的定義以及其詳盡討論,我們可以保證微分方程(7)左端的存在且有意義。這樣一來,本題就轉(zhuǎn)化為了對于方程(7)的求解。
4.3 模型的求解
我們首先對方程(7)中的i(t)進(jìn)行求解。應(yīng)用MATLAB進(jìn)行求解的最終表達(dá)式為:
i(t)=-(b-tan(((t+(2atan((a/250000000+b)/(4ac-b2)0.5))/(4ac-b2)0.5)*(4ac-b2)0.5) /2)*(4ac- b2)0.5)/(2a) ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?(8)
這樣,問題即劃歸為求解i(100)的數(shù)值;
進(jìn)一步修改方程(1)為:
(9)
同時根據(jù)我們之前的假設(shè),Twitter總用戶人數(shù)為5億人,那么理論上只要覆蓋這5億人中的百分之四十,即可覆蓋2億的潛在用戶中的百分之四十。
4.4 模型的數(shù)學(xué)分析
我們通過MATLAB對進(jìn)行計算,得出一個驚人結(jié)論:。即:在第100天到來時,幾乎整個Twitter上的用戶都可以看到該公司的廣告。這說明,在不限制速度的條件下,第二天所有該社交網(wǎng)絡(luò)上的客戶就可以看到該信息?,F(xiàn)在我們加入一些限定條件,在下一節(jié)對模型進(jìn)行進(jìn)一步修改。
4.5 模型的檢驗與修正
通過對模型的檢驗,我們發(fā)現(xiàn)在實際問題中,存在一些與假設(shè)所矛盾的條件。通過一定的計算,現(xiàn)在對模型進(jìn)行一定的修改。
(1)引入“粉絲基數(shù)”的概念
我們引入新的概念“粉絲基數(shù)”,并為它下個定義:粉絲基數(shù)指傳播消息的個人用戶在傳播消息之前本來擁有的粉絲數(shù)目。我們可以把粉絲基數(shù)分為兩大類:第一類指的是推廣者的粉絲基數(shù),這就意味著推廣者在推廣之前存在著一定的粉絲數(shù)目,這個粉絲數(shù)目與其個人社交平臺的實際運營時間呈現(xiàn)正相關(guān)的關(guān)系。由于推廣者的影響力很大,所以其基數(shù)應(yīng)該在平均值之上;第二類指的是被推廣者的粉絲基數(shù)。這類被推廣者的條件絕大部分都符合一般個人用戶所擁有的條件,其粉絲基數(shù)應(yīng)在總平均值上下取整浮動,且絕大部分都集中在中間的區(qū)間內(nèi)。這就類似于正態(tài)分布“中間高,兩頭低”的分布效果。
當(dāng)然,在具體的數(shù)學(xué)處理手法上,引入“粉絲基數(shù)”并不會實質(zhì)性改變模型的結(jié)構(gòu),因為修改后的模型可以看作是:
當(dāng)t=1時參數(shù)λ取粉絲基數(shù);
當(dāng)t>1時直接利用“粉絲基數(shù)=0”的模型。
(2)引入“有效用戶”以及“有效率”的概念
由于里面存在一些非惡意的注冊,一些用戶可能因為某種特殊原因關(guān)注了一些自己關(guān)注的人之后,就沒有進(jìn)行登錄?;蛘咴谥虚g曾經(jīng)登錄,但是在消息傳播的這100天中沒有登錄。當(dāng)然,他們也有一定的粉絲數(shù)目。這是他們與僵尸粉的本質(zhì)區(qū)別。但是,由于他們無法對信息進(jìn)行一定的傳遞,所以與之相反的,所有可以接收消息并對進(jìn)行對消息下一層傳遞的個人用戶,我們稱為“有效用戶”。所以,當(dāng)我們對一個個人用戶的粉絲進(jìn)行分類時,可以分為僵尸粉和正常粉兩類。正常粉中又可以分成有效用戶與無效用戶兩類。那么在這里同樣引入“有效率”的概念:即有效人數(shù)占其粉絲總數(shù)的百分比。在正常的信息傳遞中,有效用戶及有效率這兩個概念是不可忽略的,他們決定著信息是否可以通過正常的方式進(jìn)行傳播。當(dāng)然,在數(shù)據(jù)中也有一些“空值”,但是很明顯的是,這些空值的數(shù)量非常非常小,所以對數(shù)據(jù)分析并不造成任何決定性的影響。
(3)具有影響力的個人賬戶的運營時間
由于這些個人社交網(wǎng)站(如:Twitter)從成立到如今的運營時間并不長,很明顯,名人的注冊時間距離現(xiàn)在也并不會遙遠(yuǎn)。當(dāng)然,因為有了名人的注冊效應(yīng),在某種程度上才會吸引大批草根網(wǎng)民進(jìn)行注冊。所以所有名人的平均個人社交運營時間應(yīng)該在該網(wǎng)站產(chǎn)生大量注冊的時間點稍微往前一點到傳播該奧運會新聞的時間。當(dāng)然,名人注冊的多了,網(wǎng)站就會進(jìn)行名人的“實名認(rèn)證”服務(wù)。在推出這項服務(wù)的時候,我們有理由相信已經(jīng)有名人開始注冊。所以它的實際運營時間應(yīng)該就在該時間段。以Twitter為例,根據(jù)資料,開始名人實名認(rèn)證的時間應(yīng)該在2009年6月[3]。所以這基本確定了該具有影響力的個人社交平臺的實際運營時間。到倫敦奧運會距離約3年。
(4)粉絲類型的分層
按照我們開始的假設(shè),所有粉絲是平均分布的。但是,在實際情況下,這是不科學(xué)的,因為在實際情況中,就我們自己而言,我們認(rèn)識的普通朋友多,名人少。且極少情況與名人產(chǎn)生互粉效應(yīng)。所以得知粉絲類型的分層以及比例對了解新聞的傳播有著至關(guān)重要的作用。
參考文獻(xiàn)
[1]“統(tǒng)計稱Twitter人數(shù)已突破五億大關(guān)”[OL].http://www.199it.com/archives/tag/twitter%E6%B3%A8%E5%86%8C%E7%94%A8%E6%88%B7%E6%95%B0,2012-02-25.
[2]姜啟源,謝金星,葉俊.數(shù)學(xué)模型(第四版)[M].北京:高等教育出版社,2011.P136-P144.
[3]互聯(lián)網(wǎng)“Twitter推出名人賬號驗證服務(wù)”[OL].http://www.cnii.com.cn/20080623/ca558675.html.2009-06-08.