楊瀟,陳秀真,馬進(jìn),梁浩喆,李生紅
基于用戶興趣的微博溯源算法
楊瀟1,2,陳秀真1,2,馬進(jìn)1,2,梁浩喆1,2,李生紅1,2
(1. 上海交通大學(xué)網(wǎng)絡(luò)安全技術(shù)研究院,上海 200240;2. 上海市信息安全綜合管理技術(shù)研究重點(diǎn)實(shí)驗(yàn)室,上海 200240)
微博信息溯源通過(guò)分析在平臺(tái)采集的話題數(shù)據(jù)集,挖掘相關(guān)話題的真正源頭,即發(fā)布時(shí)間較早且影響力大的微博集合,實(shí)現(xiàn)網(wǎng)絡(luò)輿論的管控與引導(dǎo)。提出一種基于用戶興趣的微博溯源算法,該算法根據(jù)博主的興趣計(jì)算博主影響力,同時(shí)根據(jù)評(píng)論人、轉(zhuǎn)發(fā)人的興趣計(jì)算評(píng)論人、轉(zhuǎn)發(fā)人的影響力,結(jié)合博主關(guān)注度和發(fā)表時(shí)間等因素,利用網(wǎng)頁(yè)排序算法對(duì)微博評(píng)分,根據(jù)微博得分進(jìn)行排序溯源。實(shí)驗(yàn)結(jié)果表明,該算法相較于傳統(tǒng)溯源算法在查全率上提升了約21%。
信息溯源;微博;興趣;影響力;關(guān)注度
微博作為國(guó)內(nèi)最大的自媒體平臺(tái)之一,往往存在各類謠言、敏感話題等相關(guān)信息。微博信息的溯源,不僅對(duì)維護(hù)信息安全有重要意義,在信息傳播研究以及在線社交平臺(tái)分析上有較多應(yīng)用。
在信息溯源方面,有學(xué)者做過(guò)相關(guān)研究。時(shí)國(guó)華等[1]根據(jù)微博的發(fā)表時(shí)間、原創(chuàng)性和中心性,同時(shí)結(jié)合微博的轉(zhuǎn)發(fā)關(guān)系對(duì)微博進(jìn)行溯源。信息傳播中,用戶特征有一定參考性,基于此,基于用戶特征的算法被提出。劉榮叁[2]等根據(jù)用戶粉絲數(shù)、評(píng)論數(shù)等信息計(jì)算用戶影響力,同時(shí)結(jié)合排序算法計(jì)算出微博源頭。米昂、張躍偉、劉崗等通過(guò)博主的發(fā)博頻率,微博的原創(chuàng)性系數(shù)、轉(zhuǎn)發(fā)量、評(píng)論量、轉(zhuǎn)發(fā)關(guān)系等因素計(jì)算得到微博源頭[3-5]。Wang等[6]利用用戶的特征信息構(gòu)建信息矩陣來(lái)判斷用戶之間的傳播關(guān)系。吳信東等[7]通過(guò)構(gòu)建信息傳播結(jié)構(gòu)以及分析用戶行為來(lái)確定微博信息傳播的源頭。近幾年,一些基于網(wǎng)絡(luò)結(jié)構(gòu)與模型的溯源算法被廣泛研究。Sadikov等[8]通過(guò)構(gòu)建K樹模型來(lái)得到信息傳播路徑,從而對(duì)信息溯源。楊靜等[9-10]將網(wǎng)絡(luò)傳播模型AN與微博參與者的數(shù)量結(jié)合起來(lái),利用公式遞推微博源頭。尹熙成等[11]通過(guò)構(gòu)建微博信息傳播中的主路徑來(lái)計(jì)算各個(gè)傳播節(jié)點(diǎn)的權(quán)值從而找到影響力最大的節(jié)點(diǎn)作為源頭。Leskovec[12]通過(guò)提取出信息傳播路徑中的主干路徑來(lái)尋找信息源頭。何冰心等[13]在原有病毒傳播模型的基礎(chǔ)上,利用信息社區(qū)劃分以及人群結(jié)構(gòu)特征等屬性提出了一種群行為特性劃分的信息傳播模型(CAPIR)對(duì)信息進(jìn)行溯源。社交網(wǎng)絡(luò)用戶之間,往往存在社會(huì)性拓?fù)浣Y(jié)構(gòu)?;诖耍鯄?mèng)迪等[14]提出一種基于克羅內(nèi)克網(wǎng)絡(luò)模型的初始鄰接矩陣生成算法來(lái)迭代求得信息源頭。Xiao等[15]從多消息傳播網(wǎng)絡(luò)入手,引入話題傳播樹的傳播模型,利用信息傳播網(wǎng)絡(luò)來(lái)構(gòu)建話題傳播樹,從而確定傳播路徑并且溯源。部分學(xué)者將數(shù)理分析的方法用來(lái)分析信息溯源。Soheil等[16]根據(jù)時(shí)間、內(nèi)容以及關(guān)聯(lián)性等因素構(gòu)建數(shù)學(xué)傳播概率模型來(lái)判斷源頭信息。INUI等[17]基于twitter平臺(tái),將推文進(jìn)行分割,并結(jié)合相關(guān)內(nèi)容發(fā)布次數(shù)建立了一種新聞源頭溯源模型。
當(dāng)前對(duì)于微博溯源的研究方法主要分為兩類。一類是根據(jù)微博文本相似度,或者利用微博的評(píng)論數(shù)、粉絲數(shù)等參數(shù)進(jìn)行簡(jiǎn)單計(jì)算來(lái)溯源。另一類是根據(jù)轉(zhuǎn)發(fā)關(guān)系以及傳播的拓?fù)浣Y(jié)構(gòu)等信息利用數(shù)學(xué)模型迭代求得路徑源頭。但是兩類方法都沒(méi)有考慮微博的文本內(nèi)容、其他用戶對(duì)該微博所評(píng)論的內(nèi)容以及轉(zhuǎn)發(fā)內(nèi)容所產(chǎn)生的影響。針對(duì)該問(wèn)題,本文提出了一種基于用戶興趣的微博溯源算法(ITM, interests-based tracing algorithm)。該算法根據(jù)博主以前微博的內(nèi)容計(jì)算出博主的興趣,然后根據(jù)博主興趣計(jì)算博主影響力,同時(shí)計(jì)算微博評(píng)論人、轉(zhuǎn)發(fā)人的興趣,求得評(píng)論人、轉(zhuǎn)發(fā)人的影響力。最后結(jié)合博主關(guān)注度以及微博發(fā)表時(shí)間等因素利用網(wǎng)頁(yè)排序算法對(duì)所有微博進(jìn)行評(píng)分,根據(jù)微博得分進(jìn)行排序溯源。與現(xiàn)有的兩類方法相比,本文所提算法考慮到了微博信息的文本內(nèi)容對(duì)信息傳播帶來(lái)的影響,從而更準(zhǔn)確地分析用戶的影響力。該算法利用用戶興趣,挖掘計(jì)算出博主對(duì)于擁有類似興趣的用戶社區(qū)的影響,從而更準(zhǔn)確地定位信息源頭。
微博用戶的行為往往可以反映用戶的一些興趣愛(ài)好。例如,某個(gè)用戶喜歡娛樂(lè)方面的內(nèi)容,該用戶發(fā)表、評(píng)論以及轉(zhuǎn)發(fā)的微博會(huì)傾向于娛樂(lè)方面的信息。因此通過(guò)用戶以前的微博信息,可以分析出用戶的興趣傾向。
通過(guò)對(duì)大量微博數(shù)據(jù)的分析,用戶興趣可以分為以下5類:文娛、經(jīng)濟(jì)、科教、政治、軍事。一條微博的內(nèi)容與某個(gè)興趣的相關(guān)程度越高,那么這條微博中的關(guān)鍵詞匯與該興趣的相關(guān)度越高。因此,本文通過(guò)提取用戶以前博客信息中的關(guān)鍵詞,并計(jì)算其與上述某個(gè)興趣關(guān)鍵詞在知網(wǎng)詞林中的距離得到微博與該興趣的相關(guān)程度。
知網(wǎng)詞林是一種分層次體系的詞典,利用義項(xiàng)和義原來(lái)定義詞匯。義項(xiàng)是對(duì)一個(gè)詞的一種描述,一個(gè)詞可以有多個(gè)義項(xiàng),而義原就是描述一個(gè)義項(xiàng)的基本單位。在知網(wǎng)詞林中,義項(xiàng)的基本結(jié)構(gòu)如圖1所示。
圖1 義項(xiàng)結(jié)構(gòu)
Figure 1 Sememe structure
詞語(yǔ)之間的距離使用義項(xiàng)來(lái)計(jì)算,如果有兩個(gè)詞語(yǔ)1,2,其中1的義項(xiàng)為11,12,13,…,1n,而2的義項(xiàng)為21,22,23,…,2m,則1,2的距離計(jì)算公式如下。
由式(2)可知,詞語(yǔ)之間的距離是兩個(gè)詞各個(gè)義項(xiàng)之間相似度的最大值,而義項(xiàng)是由義原定義的,所以義項(xiàng)之間的相似度由義原計(jì)算。由圖1可知,義原呈樹形結(jié)構(gòu),通過(guò)考慮義項(xiàng)的義原層次樹中4類義原描述之間的距離,可以得到其義項(xiàng)間的相似度,如下。
微博話題的溯源是指在給定關(guān)于某個(gè)事件的微博數(shù)據(jù)集的情況下,根據(jù)一定指標(biāo)和方法,從中找出信息傳播的源頭。
基于對(duì)各類話題下源頭微博的研究,本文認(rèn)為發(fā)布時(shí)間較早并且對(duì)社會(huì)大眾擁有較大影響力的微博為源頭微博。影響力較大微博的博主一般具有一定的興趣傾向,并且博主與粉絲有相似的興趣,博主發(fā)布一條微博時(shí)其粉絲可以獲得該微博的相關(guān)推送。所以博主的粉絲數(shù)量越多,發(fā)布的微博與博主興趣越相似,其對(duì)微博社區(qū)產(chǎn)生的影響越大。同理,微博的評(píng)論內(nèi)容和轉(zhuǎn)發(fā)會(huì)推送給對(duì)應(yīng)用戶的粉絲,評(píng)論人、轉(zhuǎn)發(fā)人的粉絲數(shù)越大,并且評(píng)論人及轉(zhuǎn)發(fā)人的興趣與原微博內(nèi)容越相關(guān),影響力越大。如果博主近期發(fā)布的其他微博的關(guān)注度較高,也會(huì)為新發(fā)布的微博帶來(lái)一定的關(guān)注度,從而為新微博的傳播貢獻(xiàn)一定的影響力。同時(shí),微博發(fā)布時(shí)間是判斷源頭的重要參數(shù)之一,發(fā)布越早的微博能越快得到人們的關(guān)注,其成為源頭微博的可能性越大,但微博的源頭不一定是發(fā)布時(shí)間最早的微博,因?yàn)橛行┪⒉┛赡苁墙?jīng)由一些影響力大的人轉(zhuǎn)發(fā)才被關(guān)注。本文所提ITM算法綜合考慮博主影響力,評(píng)論人、轉(zhuǎn)發(fā)人的影響力、關(guān)注度、時(shí)間,通過(guò)計(jì)算得分來(lái)對(duì)微博進(jìn)行排序溯源,ITM算法流程如圖2所示。
對(duì)應(yīng)的算法偽代碼如算法1所示。
算法1 Interest-based Tracing Method (ITM)
1) Input: Topic blogs Blogs = {Blog1,Blog2,…,BlogM}, source blogs Sources = {}, blog score set Scores = {}, number of sources N;
2) Output: Source blogs Sources;
3) for k = 1: M do
4) Calculate user influence: BloggerInf = User Influence Calculation(Blogk);
5) Calculate comment influence: CommentInf = Comment Influence Calculation (Blogk);
6) Calculate user attraction Attra;
7) Standardize time T;
8) Calculate blog score: Score = Blog Score Calculation(BloggerInf, CommentInf, Attra, T)
9) Add blog score Score in Scores: AddinScores(Score)
10) end for
11) Pick the N blogs with highest scores in Scores into Sources;
12) return Sources
博主所發(fā)的微博內(nèi)容能反映博主的興趣愛(ài)好,其粉絲一般與其有著相同或者相似的興趣,所以博主所發(fā)微博的內(nèi)容與其興趣相似程度越高,對(duì)其粉絲和大眾的影響力越大。同時(shí)博主的粉絲數(shù)越多,微博的影響力越大,但是當(dāng)微博粉絲數(shù)超過(guò)一定數(shù)量級(jí)之后(如千萬(wàn)級(jí)),粉絲數(shù)貢獻(xiàn)的影響力會(huì)趨緊飽和,其影響力的增長(zhǎng)趨于平緩。
基于以上分析和式(1)、式(5),博主的微博在興趣方面(文娛、經(jīng)濟(jì)、科教、政治、軍事之一)的影響力計(jì)算公式如下。
其中,是博主對(duì)興趣i的感興趣程度,由式(5)計(jì)算。是微博內(nèi)容與興趣的相關(guān)程度,用式(1)計(jì)算。表示粉絲數(shù)的影響力,使用函數(shù)計(jì)算,該影響力會(huì)隨著粉絲數(shù)的增長(zhǎng)變大,但當(dāng)粉絲數(shù)超過(guò)一定數(shù)量級(jí)后,增長(zhǎng)會(huì)變緩。由式(6)可以看出,博主影響力與、以及分別呈正相關(guān)關(guān)系。
Figure 2 Algorithm flowchart
在各個(gè)興趣下的博主影響力之和為總的博主影響力,計(jì)算公式如下。
博主影響力計(jì)算的算法2如下。
算法2 User Influence Calculation
1) Input: Topic blog Blogk, interest fields I = {i1,i2,i3,i4,i5}, user influence BloggerInf = 0;
2) Output: User influence BloggerInf;
3) for k = 1: 5 do
4) Employ Blogkto calculate user influence under a certain interest BloggerIntInf(ik)by Eq.(6);
5) Add BloggerIntInf(ik) in total influence BloggerInf: BloggerInf += BloggerIntInf(ik);
6) end for
7) return BloggerInf
用戶可以在微博下方發(fā)表評(píng)論,評(píng)論可以被其他人點(diǎn)贊和留言,并且評(píng)論人的粉絲會(huì)被推送該評(píng)論的相關(guān)信息,所以評(píng)論人可以為其評(píng)論的微博貢獻(xiàn)一定的影響力。評(píng)論人與其粉絲一般有相似的興趣,評(píng)論人的興趣和微博的話題越相似且評(píng)論人粉絲越多,影響力越大。同理,轉(zhuǎn)發(fā)可以附加評(píng)論,也能為原微博貢獻(xiàn)一定的影響力。
評(píng)論人、轉(zhuǎn)發(fā)人在各個(gè)興趣下的影響力的和即評(píng)論人、轉(zhuǎn)發(fā)人總的影響力,計(jì)算公式如下。
評(píng)論人、轉(zhuǎn)發(fā)人的影響力計(jì)算過(guò)程使用算法描述如下。
算法3 Comment Influence Calculation
1) Input: A Topic blog Blogk’s comments Com = {com1,com2,…,com}, interest fields I = {i1,i2,i3,i4,i5}, comment influence CommentInf = 0;
2) Output: Comment influence CommentInf;
3) for k = 1: 5 do
4) ComIntInf(ik) = 0;
5) for i = 1: N do
6) Calculate single comment influence under a certain interest SinComIntInf(ik)by Eq.(9);
7) Add all single comment influences in total influence under a certain interest: ComIntInf(ik) += SinComIntInf(ik);
8) Add all total comment influence under different interests together to get the final influence: CommentInf += ComIntInf(ik)
9) end for
10) return CommentInf
博主近期的其他微博被關(guān)注的程度越高,其他用戶在瀏覽這些微博時(shí)越有大概率看到話題微博,并且微博用戶傾向于瀏覽關(guān)注度較高的博主所發(fā)的微博,這也會(huì)為當(dāng)前話題微博帶來(lái)一定的關(guān)注度,從而為話題微博的傳播貢獻(xiàn)一定的影響力。所以,計(jì)算微博得分時(shí),應(yīng)該考慮博主關(guān)注度。
微博博主的關(guān)注度,由最近一個(gè)月內(nèi)除話題微博外的其他微博的點(diǎn)贊、轉(zhuǎn)發(fā)和評(píng)論的數(shù)量來(lái)計(jì)算,數(shù)量越多則關(guān)注度越大。本文認(rèn)為用戶近期發(fā)布的微博帶來(lái)的關(guān)注度比較有影響力,所以取一個(gè)月內(nèi)發(fā)布的微博來(lái)計(jì)算關(guān)注度,其計(jì)算公式如下。
從式(13)可以看出,近期發(fā)布的微博權(quán)重較高,其關(guān)注度造成的影響較大,而較早以前發(fā)布的微博權(quán)重較小,其關(guān)注度造成的影響較小。
微博發(fā)布時(shí)間是判定微博源頭的重要指標(biāo)之一,發(fā)布時(shí)間越早的微博成為微博源頭的概率越大。
微博發(fā)布時(shí)間可以轉(zhuǎn)化為相對(duì)應(yīng)的持續(xù)時(shí)間(以小時(shí)為單位),本文所提算法所有的微博持續(xù)時(shí)間需要進(jìn)行標(biāo)準(zhǔn)化,本文使用的標(biāo)準(zhǔn)化函數(shù)如下。
算法4 Blog Score Calculation
1) Input: A Topic blog Blogk's user influence BloggerInf, comment influence CommentInf, user attraction Attra, blog Standardized time T;
2) Output: Blog score Score;
3) Calculate blog score: Score = hacker news (BloggerInf, CommentInf, Attra, T)
4) return Score
Hacker News排序算法是一種網(wǎng)絡(luò)社區(qū)平臺(tái)的文章排序算法,對(duì)于每篇文章,其他用戶可以選擇為這篇文章投上一票(其他用戶閱讀、評(píng)論文章會(huì)為文章投上一票),后臺(tái)管理器會(huì)根據(jù)文章的得票和發(fā)布時(shí)間對(duì)所有文章進(jìn)行評(píng)分排序。但是該排序算法會(huì)將發(fā)布時(shí)間較晚的文章排在較前面,從而對(duì)新的文章進(jìn)行推廣,防止得分很高的文章霸榜。Hacker News排序算法如式(15)所示。
在式(15)中,較晚發(fā)布的信息得分會(huì)高于早發(fā)布的信息,然而在微博溯源中,較早發(fā)布的信息影響力一般越大。通過(guò)對(duì)Hacker News算法公式進(jìn)行優(yōu)化,使發(fā)布時(shí)間較早、得票較高的文章排名靠前,優(yōu)化后的微博評(píng)分公式如下。
AHP通過(guò)對(duì)比兩兩參數(shù)之間相對(duì)重要性,確定某個(gè)參數(shù)相對(duì)另一參數(shù)所占的比重,從而構(gòu)建判斷矩陣,之后計(jì)算其最大特征向量,以該特征向量代表各個(gè)參數(shù)的權(quán)重。最后通過(guò)判斷矩陣的特征值計(jì)算一致性比率進(jìn)行一致性檢驗(yàn),如果一致性比率小于閾值,則認(rèn)為計(jì)算出來(lái)的權(quán)重值是較為合理的。
綜合各項(xiàng)因素,通過(guò)專家評(píng)判得到判斷矩陣,如表1所示。
表1 判斷矩陣
實(shí)驗(yàn)選用新浪微博作為數(shù)據(jù)平臺(tái),新浪微博作為現(xiàn)今為止國(guó)內(nèi)用戶最多的社交平臺(tái)之一,其數(shù)據(jù)具有較好的代表性。利用爬蟲軟件,從微博平臺(tái)采集“李飛飛離職”“高錕去世”“美國(guó)重啟登月計(jì)劃”“雷克薩斯將實(shí)現(xiàn)國(guó)產(chǎn)”和“國(guó)科大星命名”5個(gè)事件的微博數(shù)據(jù)用于測(cè)試本文所提算法ITM,采集時(shí)間為2018年9月11日到10月12日。實(shí)驗(yàn)采集的微博共計(jì)12 110條,包含具有評(píng)論、轉(zhuǎn)發(fā)或點(diǎn)贊的微博以及相關(guān)的博主信息、評(píng)論人信息,過(guò)濾了評(píng)論、轉(zhuǎn)發(fā)和點(diǎn)贊都為0的微博,這主要考慮到這些微博沒(méi)有對(duì)信息傳播造成實(shí)質(zhì)的影響。同時(shí)使用文獻(xiàn)[1]所提出的基于文本中心度的微博文本溯源(OR)算法以及文獻(xiàn)[2]所提出的基于用戶影響力的微博溯源算法(UITA)進(jìn)行對(duì)比。之所以使用OR算法和UITA算法作為對(duì)比,是因?yàn)樗鼈兎謩e是通過(guò)拓?fù)浣Y(jié)構(gòu)和參數(shù)計(jì)算來(lái)進(jìn)行溯源的方法(已有的兩類方法),具有一定代表性,且算法效果較好。使用人工標(biāo)注的方法對(duì)微博的源頭進(jìn)行標(biāo)注,對(duì)比兩種算法找到源頭正確的個(gè)數(shù),并計(jì)算相應(yīng)的查全率。查全率是指從文檔數(shù)據(jù)集中檢索出關(guān)聯(lián)文檔成功率的一種指標(biāo),即檢索出來(lái)的關(guān)聯(lián)文檔占所有關(guān)聯(lián)文檔數(shù)據(jù)的百分比,實(shí)驗(yàn)采用的查全率計(jì)算公式如下。
同時(shí)查看兩種算法的溯源結(jié)果在相應(yīng)話題下對(duì)應(yīng)的熱門微博個(gè)數(shù),熱門微博是微博官方在搜索提示中標(biāo)記的熱度較大的微博,并且往往對(duì)公眾造成較大的影響,源頭微博往往是熱門微博之一,因此溯源結(jié)果中的熱門微博個(gè)數(shù)越多,其準(zhǔn)確性越高。
實(shí)驗(yàn)參數(shù)設(shè)置以及結(jié)果如表2和表3所示。
從表3可以看出,總體來(lái)說(shuō)本文所提ITM算法在溯源微博正確個(gè)數(shù)上優(yōu)于OR算法以及UITA算法,并在查全率上分別提升了17.9%和25%,平均提升了21.45%。在事件1李飛飛離職和事件5國(guó)科大星命名等事件上,OR算法以及UITA算法沒(méi)有考慮到受眾具有明顯的興趣傾向,所以本文所提ITM算法在溯源準(zhǔn)確性上有一定提升。在事件3美國(guó)重啟登月計(jì)劃上,人工標(biāo)注源頭微博中影響力較大的幾個(gè)微博的文本內(nèi)容非常相似,而ITM算法和基于文本相似中心性的OR算法的溯源正確數(shù)相同,所以即使是在微博文本相似度較大的情況下,ITM算法也能保證溯源的準(zhǔn)確性。
表2 實(shí)驗(yàn)參數(shù)設(shè)置
表3 實(shí)驗(yàn)結(jié)果
表4 李飛飛離職事件微博基本信息
在熱門微博個(gè)數(shù)方面,由于OR算法只考慮文本的相似度和中心度,并未考慮微博在話題各方面的影響,所以ITM算法相對(duì)于OR算法準(zhǔn)確性較高。UITA算法只是單純基于微博參數(shù)來(lái)計(jì)算影響力,未考慮微博文本的影響,所以相對(duì)于UITA而言,ITM算法的準(zhǔn)確性較高。
選擇上述的事件1李飛飛離職,ITM算法的微博溯源結(jié)果以及微博基本信息如圖3和表4所示(為便于分析,將微博得分換算為百分制)。
從圖3可以看出,每日經(jīng)濟(jì)新聞和新浪科技等博主的微博得分較高,根據(jù)表4中的信息,發(fā)現(xiàn)得分較高微博發(fā)布時(shí)間較早,在點(diǎn)贊、評(píng)論、轉(zhuǎn)發(fā)數(shù)量上相對(duì)較多,并且擁有較多的粉絲數(shù)量,通過(guò)對(duì)比人工標(biāo)注的源頭和話題熱門微博,發(fā)現(xiàn)溯源結(jié)果較為準(zhǔn)確。全景網(wǎng)發(fā)布的微博雖然有較多關(guān)注,但由于發(fā)布時(shí)間較晚所以得分不高,結(jié)果符合實(shí)際情況。中國(guó)婦女報(bào)發(fā)布的微博雖然時(shí)間比較早,但由于沒(méi)有收到太多的關(guān)注并且粉絲數(shù)較少所以造成的影響比較小,結(jié)果符合實(shí)際情況。
圖3 李飛飛離職事件微博的得分
Figure 3 Scores of blogs for Li Feifei's resignation event
本文主要研究微博平臺(tái)中的信息溯源問(wèn)題,并提出一種ITM算法對(duì)信息進(jìn)行溯源。ITM算法利用用戶興趣計(jì)算博主影響力以及評(píng)論人、轉(zhuǎn)發(fā)人影響力,同時(shí)結(jié)合關(guān)注度和時(shí)間參數(shù)對(duì)所有微博進(jìn)行評(píng)分,從而對(duì)微博進(jìn)行排序溯源。相比以前基于文本相似度和轉(zhuǎn)發(fā)關(guān)系的溯源算法,ITM算法考慮到了微博文本以及其他用戶的評(píng)論轉(zhuǎn)發(fā)對(duì)信息傳播帶來(lái)的影響。實(shí)驗(yàn)結(jié)果表明,ITM算法在溯源準(zhǔn)確率上相對(duì)傳統(tǒng)溯源算法有一定的提升。
下一步的研究將主要著眼于信息跨平臺(tái)傳播的情況并且考慮微博中的圖片內(nèi)容來(lái)提升溯源的準(zhǔn)確性。
[1] 時(shí)國(guó)華. 微博信息溯源及傳播面分析技術(shù)的研究與實(shí)現(xiàn)[D]. 長(zhǎng)沙: 國(guó)防科學(xué)技術(shù)大學(xué), 2012.
SHI G H. The research and implementation of microblogging initiator detection and dissemination analysis[D]. Changsha: National University of Defense Technology, 2012.
[2] 劉榮叁, 張宇, 王星. 面向新浪微博的信息溯源技術(shù)研究[J]. 智能計(jì)算機(jī)與應(yīng)用, 2017, 7(2):94-98.
LIU R S, ZHANG Y, WANG X. Research of information trace technology based on Sina micro-blog[J]. Intelligent Computer and Applications, 2017, 7(2):94-98.
[3] 米昂. 結(jié)合影響力分析的微博輿情溯源研究[D]. 北京: 北京交通大學(xué), 2015.
MI A. Research on source tracing of public opinion on micro-blogs combined with impact analysis[D]. Beijing: Beijing Jiaotong University, 2015.
[4] 張躍偉. 基于微博客話題的熱點(diǎn)預(yù)測(cè)及傳播溯源[D]. 北京: 北京郵電大學(xué), 2014.
ZHANG Y W. Hotspot prediction and analysis of propagating of topics based on microblog[D]. Beijing: Beijing University of Posts and Telecommunications, 2014.
[5] 劉崗. 基于微博事件的話題溯源方法[D]. 哈爾濱: 哈爾濱工程大學(xué), 2015.
LIU G. A method to track topics based on events of micro-blog[D]. Harbin: Harbin Engineering University, 2015.
[6] WANG D, ZHOU W, ZHENG J X, et al. Who spread to whom? inferring online social networks with user features[C]//2018 IEEE International Conference on Communications (ICC). 2018: 1-6.
[7] 吳信東, 李毅, 李磊. 在線社交網(wǎng)絡(luò)影響力分析[J]. 計(jì)算機(jī)學(xué)報(bào)2014, 37(4): 735-752.
WU X D, LI Y, LI L, Influence analysis of online social networks[J]. Chinese Journal of Computers, 2014, 37(4): 735-752.
[8] SADIKOV E, MONTSERRAT M, JURE L et al. Correcting for missing data in information cascades[C]// WSDM '11 Proceedings of the fourth ACM International Conference on Web Search and Data Mining. 2011:55-64.
[9] 楊靜, 董圓, 張健沛. 一種基于話題影響力的微博話題溯源方法[J]. 小型微型計(jì)算機(jī)系統(tǒng), 2015, 36(9):1939-1942.
YANG J, DONG Y, ZHANG J P. Method for tracing the source of micro-blogging topic based on the topic influence[J]. Journal of Chinese Mini-Micro Computer Systems, 2015, 36(9):1939-1942.
[10] 董圓. 一種基于話題影響力的微博話題溯源方法[D]. 哈爾濱: 哈爾濱工程大學(xué), 2015.
DONG Y. Trace of microblogging topic initiator based on the influence of topic[D]. Harbin: Harbin Engineering University, 2015.
[11] 尹熙成. 在線社交網(wǎng)絡(luò)中信息傳播主路徑的識(shí)別與應(yīng)用研究[D]. 南京: 南京郵電大學(xué), 2017.
YIN X C. Research on the identification and application of the main paths of information diffusion in online social networks[D]. Nanjing: Nanjing University of Posts and Telecommunications, 2017.
[12] LESKOVEC J, MCGLOHON M, FALOUTSOS C, et al. Patterns of cascading behavior in large blog graphs[C]//Proceedings of the 2007 SIAM International Conference on Data Mining. 2007: 551-556.
[13] 何冰心. 社交網(wǎng)絡(luò)中信息傳播和溯源模型研究[D]. 大連: 大連理工大學(xué), 2018.
HE B X. A study on information diffusion and source locating model in social network[D]. Dalian: Dalian University of Technology, 2018.
[14] 王夢(mèng)迪. 基于OSN的信息溯源問(wèn)題研究[D]. 北京: 中國(guó)人民公安大學(xué), 2018.
WANG M D. Research on information tracing based on OSN[D]. Beijing: People's Public Security University of China, 2018.
[15] XIAO Y, YU H, LI Q, et al. MPURank: a social hotspot tracking scheme based on tripartite graph and multimessages iterative driven[J]. IEEE Transactions on Computational Social Systems, 2019, 6(4): 715-725.
[16] FEIZI S, MEDARD M, QUON G, et al. Network infusion to infer information sources in networks[J]. IEEE Transactions on Network Science and Engineering, 2018.
[17] INUI T, MASAKI S, MIKIO Y. Automatic news source detection in twitter based on text segmentation[C]//Proceedings of the 28th Pacific Asia Conference on Language, Information and Computing. 2014.
[18] 葛斌, 李芳芳, 郭絲路. 基于知網(wǎng)的詞匯語(yǔ)義相似度計(jì)算方法研究[J]. 計(jì)算機(jī)應(yīng)用研究, 2010, 27(9):3329-3333.
GE B, LI F F, GUO S L. Word’s semantic similarity computation method based on hownet[J]. Application Research of Computers, 2010, 27(9):3329-3333.
[19]劉群, 李素建. 基于知網(wǎng)的詞匯語(yǔ)義相似度計(jì)算[J]. 中文計(jì)算語(yǔ)言學(xué), 2002, 7(2): 59-76.
LIU Q, LI S J. Word similarity computing based on how-net[J]. International Journal of Computational Linguistics & Chinese Language Processing, 2002, 7(2): 59-76.
[20] 周雪妍. 在線社會(huì)網(wǎng)絡(luò)關(guān)鍵用戶挖掘方法研究[D]. 哈爾濱: 哈爾濱工程大學(xué), 2016.
ZHOU X Y. Research on key users mining of online social network[D]. Harbin: Harbin Engineering University, 2016.
[21] 曹秀英, 梁靜國(guó). 基于粗集理論的屬性權(quán)重確定方法[J]. 中國(guó)管理科學(xué), 2002, 5(5): 98-100.
CAO X Y, LIANG J G. The method of ascertaining attribute weight based on rough sets theory[J]. Chinese Journal of Management Science, 2002, 5(5): 98-100.
[22] SALIHEFENDIC A. How hacker news ranking algorithm works[EB].
User interests-based microblog tracing algorithm
YANG Xiao1,2, CHEN Xiuzhen1,2, MA Jin1,2, LIANG Haozhe1,2, LI Shenghong1,2
1. Institute of Cyber Science and Technology, Shanghai Jiaotong University, Shanghai 200240, China2. Shanghai Key Laboratory of Integrated Administration Technologies for Information Security, Shanghai 200240, China
Microblog information tracing refers to finding the source set of microblog topics according to the analysis of crawled microblog texts and it’s of great significance in the aspect of public opinion control and information security. A user interests-based tracing method (ITM) was proposed. The proposed method calculates the influence of the blogger based on the interest of the microblog blogger, and also calculates the influence of the commentators based on the interest of the commentators. The ranking algorithm was used to score the blogs according to publication time, notability and influence, and the source of the blogs was traced according to the blog score rank. Experimental results show that the accuracy of the proposed algorithm improved about 21% compared with the traditional tracing algorithms.
information tracing, microblog, interest, influence, notability
s: The National Key R&D Program of China (2016YFB0801003), The National Natural Science Foundation of China (61562004, 61431008)
TP391
A
10.11959/j.issn.2096?109x.2020086
楊瀟(1993? ),男,重慶人,上海交通大學(xué)碩士生,主要研究方向?yàn)樯缃痪W(wǎng)絡(luò)數(shù)據(jù)分析、自然語(yǔ)言處理。
陳秀真(1977? ),女,山東聊城人,博士,上海交通大學(xué)副教授,主要研究方向?yàn)樯缃痪W(wǎng)絡(luò)數(shù)據(jù)分析、車聯(lián)網(wǎng)信息安全、安全檢測(cè)與評(píng)估。
馬進(jìn)(1977? ),女,山東滕州人,博士,上海交通大學(xué)高級(jí)工程師,主要研究方向?yàn)榇髷?shù)據(jù)與人工智能應(yīng)用、車聯(lián)網(wǎng)信息安全、網(wǎng)絡(luò)空間安全綜合管理新技術(shù)。
梁浩喆(1994? ),男,廣西柳州人,上海交通大學(xué)碩士生,主要研究方向?yàn)闉g覽器安全、分布式計(jì)算。
李生紅(1971? ),男,遼寧綏中人,博士,上海交通大學(xué)教授、博士生導(dǎo)師,主要研究方向?yàn)樾畔踩?、人工智能?/p>
論文引用格式:楊瀟, 陳秀真, 馬進(jìn), 等. 基于用戶興趣的微博溯源算法[J]. 網(wǎng)絡(luò)與信息安全學(xué)報(bào), 2020, 6(6): 164-173.
YAGN X, CHEN X Z, MA J, et al. User interests-based microblog tracing algorithm[J]. Chinese Journal of Network and Information Security, 2020, 6(6): 164-173.
2019?11?20;
2020?09?23
陳秀真,chenxz@sjtu.edu.cn
國(guó)家重點(diǎn)研發(fā)計(jì)劃(2016YFB0801003);國(guó)家自然科學(xué)基金(61562004, 61431008)