董雨辰,劉 琰,羅軍勇,張 進(jìn)
(數(shù)學(xué)工程與先進(jìn)計(jì)算國家重點(diǎn)實(shí)驗(yàn)室,鄭州450001)
基于支持向量機(jī)的炒作微博識(shí)別方法
董雨辰,劉 琰,羅軍勇,張 進(jìn)
(數(shù)學(xué)工程與先進(jìn)計(jì)算國家重點(diǎn)實(shí)驗(yàn)室,鄭州450001)
微博是輿論傳播的中心和渠道,同時(shí)參與輿論的形成、發(fā)展與引導(dǎo)過程,其自媒體發(fā)布、意見領(lǐng)袖參與等因素在一定程度上造成了微博謠言、虛假炒作、社會(huì)動(dòng)員等現(xiàn)象。針對炒作微博的傳播特點(diǎn),分析其群體的隱蔽策劃現(xiàn)象,挖掘出普通微博和炒作微博在傳播網(wǎng)絡(luò)結(jié)構(gòu)、轉(zhuǎn)發(fā)增量統(tǒng)計(jì)等方面的差異。通過社交網(wǎng)站的應(yīng)用程序接口對目標(biāo)微博的所有評論、轉(zhuǎn)發(fā)和點(diǎn)贊用戶進(jìn)行信息獲取,構(gòu)建該微博的傳播網(wǎng)絡(luò),利用社團(tuán)模塊度、平均最短路徑和網(wǎng)絡(luò)直徑這3個(gè)屬性度量該網(wǎng)絡(luò)的緊密程度,基于支持向量機(jī)對所抽取的微博進(jìn)行分類,進(jìn)而識(shí)別出炒作微博。實(shí)驗(yàn)結(jié)果表明,該方法對微博傳播用戶的屬性信息依賴小以及傳播網(wǎng)絡(luò)結(jié)構(gòu)特征敏感,并且具有較高的炒作微博識(shí)別準(zhǔn)確率。
社交網(wǎng)絡(luò);炒作群體;炒作微博;社團(tuán)模塊度;網(wǎng)絡(luò)直徑;平均最短路徑;支持向量機(jī)
隨著移動(dòng)終端的大規(guī)模普及,微博、Twitter、Facebook等社交網(wǎng)站迅速地融入到人們的日常生活中。微博傳播是一把雙刃劍,一方面,為突發(fā)事件中的信息公開提供了一個(gè)快速響應(yīng)平臺(tái),在一定程度上彌補(bǔ)了傳統(tǒng)媒體和其他網(wǎng)絡(luò)的不足。另一方面,由于微博新聞的發(fā)布真實(shí)性無法得到保證,可能會(huì)被利用成為謠言傳播的載體和不滿情緒的導(dǎo)火索,甚至給國家和社會(huì)穩(wěn)定造成嚴(yán)重的后果。顯示社交網(wǎng)絡(luò)能量的一個(gè)標(biāo)志性事件是2008年奧巴馬的公關(guān)團(tuán)隊(duì)嫻熟地運(yùn)用Facebook,Twitter,YouTube和Flickr等平臺(tái),為奧巴馬的成功競選起到關(guān)鍵作用,在此之后的2010年“茉莉花事件”、2011年的倫敦
騷亂以及2011年和2013年埃及的2次政變等事件,都能看到社交網(wǎng)站在背后推波助瀾的痕跡。研究發(fā)現(xiàn),熱門微博傳播中人為操縱的虛假信息轉(zhuǎn)發(fā)量極大,1%的垃圾消息發(fā)送者創(chuàng)造了49%的轉(zhuǎn)發(fā)量[1]。出現(xiàn)在互聯(lián)網(wǎng)上的“網(wǎng)絡(luò)水軍”、“網(wǎng)絡(luò)推手”等利用社會(huì)媒體散布謠言和虛假信息,開展不正當(dāng)商業(yè)競爭,買賣粉絲,操控網(wǎng)絡(luò)輿論,這些網(wǎng)絡(luò)公關(guān)行為,嚴(yán)重干擾了正常網(wǎng)絡(luò)輿論秩序[2]。
社交網(wǎng)站上的熱門微博按轉(zhuǎn)發(fā)、評論、點(diǎn)贊數(shù)量以及在一定時(shí)間內(nèi)被轉(zhuǎn)發(fā)和評論的頻率等一系列參數(shù)綜合計(jì)算排出。這樣就使得一些個(gè)體或商家甚至不法分子為了達(dá)到某種宣傳作用,不惜借助微博營銷公司,雇傭草根大號(hào)、名人微博,乃至于雇傭控制大量僵尸粉絲的黑客對自身的博文進(jìn)行廣泛傳播,在短時(shí)間內(nèi)造成熱門微博的假象,以此擠進(jìn)社交網(wǎng)站的熱門微博榜單,然后信息就像被吹開的蒲公英,向不同方向進(jìn)行擴(kuò)散,屬于典型的蒲公英式傳播模型,也稱之為裂變式傳播或爆炸式傳播。簡單來說,蒲公英效應(yīng)就是以一個(gè)動(dòng)作為出發(fā)點(diǎn),最終達(dá)到多重效果。事實(shí)上,在微博營銷中存在大量蒲公英效應(yīng)。
本文對炒作微博的轉(zhuǎn)發(fā)、評論行為進(jìn)行有效預(yù)測和識(shí)別,并挖掘出起到重要傳播作用的關(guān)鍵節(jié)點(diǎn),提出基于支持向量機(jī)(Support Vector Machine, SVM)的炒作微博識(shí)別方法。在微博傳播網(wǎng)絡(luò)中使用模塊度峰值、平均最短路徑和網(wǎng)絡(luò)直徑作為傳播網(wǎng)絡(luò)結(jié)構(gòu)度量的主要參數(shù),基于SVM綜合多種參數(shù)進(jìn)行分析,進(jìn)而識(shí)別炒作微博。
隨著Web2.0的發(fā)展,社交類網(wǎng)站的影響能力和輻射人群日益壯大,消息的真?zhèn)我约笆欠翊嬖谌藶榈牟倏匮哉摰淖呦?逐漸成為網(wǎng)絡(luò)輿情研究的新熱點(diǎn)。文獻(xiàn)[3]運(yùn)用基于關(guān)鍵詞的信息監(jiān)視器,收集數(shù)據(jù)自動(dòng)評估信息的新聞價(jià)值的方法,對Twitter的信息可信度進(jìn)行評估。文獻(xiàn)[4]提出基于事件圖表優(yōu)化的可信度分析方法。文獻(xiàn)[5]提出社會(huì)性網(wǎng)絡(luò)信息傳播模式下的網(wǎng)絡(luò)議題升級模型,從受眾升級、媒體升級、輿情升級3個(gè)方面剖析議題的發(fā)展趨勢。在傳播時(shí)間上,文獻(xiàn)[6]將網(wǎng)絡(luò)媒體按信息來源進(jìn)行區(qū)分,發(fā)現(xiàn)網(wǎng)絡(luò)論壇信息傳播隨時(shí)間變化的相似性與論壇作者在發(fā)表量上的不平等特征。一些學(xué)者利用傳染病傳播模型對輿情傳播進(jìn)行研究。文獻(xiàn)[7]把傳染病模型應(yīng)用在媒體環(huán)境下,利用免疫的輿情傳播模型對信息的傳播進(jìn)行控制。網(wǎng)絡(luò)結(jié)構(gòu)對社會(huì)網(wǎng)絡(luò)信息的傳播有很大影響,利用復(fù)雜網(wǎng)絡(luò)方法對網(wǎng)絡(luò)傳播動(dòng)力機(jī)制進(jìn)行分析開辟了輿情信息傳播的新領(lǐng)域。文獻(xiàn)[8]通過研究發(fā)現(xiàn)規(guī)則網(wǎng)絡(luò)比小世界網(wǎng)絡(luò)中信息傳播的范圍更大,速度也更快。文獻(xiàn)[9]認(rèn)為網(wǎng)絡(luò)信息傳播不僅依賴于小世界網(wǎng)絡(luò)中的最短路徑,還與網(wǎng)絡(luò)行為的多次社會(huì)性強(qiáng)化有關(guān)。意見領(lǐng)袖在信息傳播中充當(dāng)了重要的角色,影響力和感召力大的名人,可以影響人們的購買行為和政治觀點(diǎn)。文獻(xiàn)[10-11]使用粉絲數(shù)量和微博轉(zhuǎn)發(fā)數(shù)量對用戶影響力進(jìn)行衡量,結(jié)果表明粉絲數(shù)量多的用戶微博不一定會(huì)得到很多的轉(zhuǎn)發(fā)或者評論。文獻(xiàn)[12]借鑒PageRank算法的思想,設(shè)計(jì)了TwitterRank算法來衡量一個(gè)用戶在某一主題內(nèi)的影響力,主要思想是給定一個(gè)主題,用戶的影響力定義為他的所有粉絲的影響力之和。
上述學(xué)者對于微博的可信度和用戶的影響力的研究,基本上解決了有關(guān)鍵用戶且由其引起的信息傳播的微博輿情分析。實(shí)際上網(wǎng)絡(luò)炒作中還有一種情況是其傳播的主體為數(shù)量龐大的水軍;這些水軍由網(wǎng)絡(luò)公關(guān)公司雇傭的大批社會(huì)閑散人員組成,并由公關(guān)公司挑選出來的組長負(fù)責(zé)管理,統(tǒng)一行動(dòng)[13]。有的組長是網(wǎng)絡(luò)紅人或微博草根大號(hào),炒作的行為是有組織、有計(jì)劃、有目的的群體策劃。本文將針對此類炒作微博,在真實(shí)的社交網(wǎng)絡(luò)環(huán)境中,分析其傳播模式,研究其特殊的成員組成結(jié)構(gòu),梳理出其炒作目標(biāo),尋找出其隱含的炒作痕跡。然后運(yùn)用社團(tuán)模塊度、平均最短路徑、網(wǎng)絡(luò)直徑和基于支持向量機(jī)挖掘炒作團(tuán)體的潛在屬性,識(shí)別出炒作微博。
3.1 炒作微博的群體策劃現(xiàn)象
炒作社團(tuán)組成結(jié)構(gòu)緊密且封閉,從炒作微博單位時(shí)間內(nèi)的轉(zhuǎn)發(fā)量(某化妝品炒作廣告轉(zhuǎn)發(fā)量見圖1)上看也異于熱門微博的單位時(shí)間內(nèi)的轉(zhuǎn)發(fā)量(2013年4月20日四川雅安地震一條微博轉(zhuǎn)發(fā)量見圖2)??梢钥闯?一條熱門微博的產(chǎn)生到其傳播量的爆發(fā)經(jīng)歷了一定的潛伏期,并逐漸成指數(shù)型增長,在增長到一定數(shù)量級后,呈現(xiàn)平衡狀態(tài),隨著時(shí)間的增加,逐步衰減消亡。
圖1 某炒作微博單位時(shí)間內(nèi)的轉(zhuǎn)發(fā)量
炒作微博單位時(shí)間內(nèi)的轉(zhuǎn)發(fā)量生成圖并沒有出現(xiàn)潛伏期和成長期,而是直接在經(jīng)過幾個(gè)數(shù)據(jù)量低的時(shí)間片后,傳播量飆升到爆發(fā)狀態(tài),緊接著便迅速衰落至初始狀態(tài),在隨后的時(shí)間片內(nèi)呈現(xiàn)出極低的傳播量,直至死亡,或者再出現(xiàn)幾次這種規(guī)律性的爆發(fā),這是由于博主在付費(fèi)給水軍客服后,水軍客服安排炒作團(tuán)體為指定的微博進(jìn)行轉(zhuǎn)發(fā)和評論;然后博主對效果進(jìn)行評估,選擇是否繼續(xù)雇傭水軍為其博文進(jìn)行后續(xù)炒作,所以炒作微博的轉(zhuǎn)發(fā)圖會(huì)呈現(xiàn)出特殊的傳播走勢。
圖3(a)展示了一個(gè)典型蒲公英式的熱門微博傳播圖,體現(xiàn)出核爆式一二三級沖擊波和大小V(指在微博上十分活躍、又有著大群粉絲的公眾人物。通常把粉絲在5×105以上的稱為網(wǎng)絡(luò)大V)轉(zhuǎn)發(fā)的典型傳播方式。圖3(b)是一條典型的炒作微博信息傳播,其傳播過程中充斥著大量的炒作團(tuán)體,少有離散節(jié)點(diǎn)的信息傳播,主要是依附于大V下的粉絲在擴(kuò)撒信息。
圖3 典型熱門微博和炒作微博的信息傳播結(jié)構(gòu)
3.2 微博傳播網(wǎng)絡(luò)
與人人網(wǎng)、QQ好友等傳統(tǒng)的社交網(wǎng)絡(luò)不同,微博的用戶與用戶之間以一種“弱關(guān)系”的形式存在的,用戶關(guān)注某人成為其粉絲也只需要單方面的認(rèn)可,人與人之間并不存在太多的感情聯(lián)系[14]。圖4(a)是從人人網(wǎng)中提取的一個(gè)基于強(qiáng)關(guān)系的社交網(wǎng)絡(luò)結(jié)構(gòu),網(wǎng)絡(luò)中的節(jié)點(diǎn)呈現(xiàn)出同構(gòu)的特性。圖4(b)為新浪微博的一個(gè)弱關(guān)系社交網(wǎng)絡(luò)結(jié)構(gòu),其中,黑點(diǎn)是用戶節(jié)點(diǎn);白點(diǎn)是粉絲節(jié)點(diǎn);實(shí)線為關(guān)注關(guān)系;虛線是信息的傳播關(guān)系。正是這種微博用戶彼此間“弱關(guān)系”的存在,促使信息不斷地向外擴(kuò)散,以及不同影響力的節(jié)點(diǎn)對信息傳播的強(qiáng)弱起到了關(guān)鍵性作用,組成了微博特殊的傳播方式。由于微博用戶的社會(huì)地位與公眾認(rèn)知度的不同,使得其在信息傳播的影響力度方面也有天壤之別。因此,若能找出個(gè)人或者團(tuán)體在微博信息傳播中的影響范圍或者說在微博傳播節(jié)點(diǎn)存在社團(tuán)(群體策劃行為)的可能性,是預(yù)防與識(shí)別網(wǎng)絡(luò)惡意炒作、煽動(dòng)的關(guān)鍵[15]。
圖4 典型強(qiáng)弱關(guān)系社交網(wǎng)絡(luò)結(jié)構(gòu)
微博用戶間存在關(guān)注關(guān)系和傳播關(guān)系的雙重特征,以圖4(b)所示微博關(guān)注網(wǎng)絡(luò)為例,用戶A關(guān)注了用戶D,A與D之間存在關(guān)注關(guān)系A(chǔ)→D;當(dāng)用戶D發(fā)表一條微博M時(shí),A會(huì)收到微博M(D的所有粉絲A,B和C都會(huì)收到該微博),A與D之間又存在傳播關(guān)系D→A;這樣用戶A與D之間同時(shí)存在A→D表示的關(guān)注關(guān)系以及D→A表示的傳播關(guān)系。若用A?D統(tǒng)一表示用戶間的這種復(fù)合關(guān)系,可以定義微博傳播網(wǎng)絡(luò)G=(V,E),其中,V為微博用戶集合;?v∈V表示微博中的一個(gè)用戶;E={eij|?vi,vj∈V,vi關(guān)注vj或vj關(guān)注vi}為微博中用戶間的傳播路徑集合,?eij∈E為無向邊,表示用戶間的關(guān)注關(guān)系和傳播關(guān)系。
3.3 傳播節(jié)點(diǎn)的重要性
在微博的傳播中,關(guān)鍵節(jié)點(diǎn)(網(wǎng)絡(luò)大V、名人、不同領(lǐng)域的意見領(lǐng)袖)的轉(zhuǎn)發(fā)起到了重要作用[16]。關(guān)鍵節(jié)點(diǎn)是指在信息傳遞和人際互動(dòng)過程中具有影響
力和活動(dòng)力的少數(shù)人[17],這些關(guān)鍵節(jié)點(diǎn)在某種程度上引導(dǎo)人們的消費(fèi)、言論和政治觀點(diǎn)。使用粉絲數(shù)和轉(zhuǎn)發(fā)數(shù)對用戶影響力進(jìn)行研究,發(fā)現(xiàn)粉絲數(shù)多的用戶微博不一定會(huì)有很多的轉(zhuǎn)發(fā)及評論數(shù)[11]。由于炒作微博是為了進(jìn)入運(yùn)營商的熱門微博榜單,進(jìn)而被更廣泛的傳播。
4.1 微博傳播網(wǎng)絡(luò)的參數(shù)度量與選擇
微博前期的炒作行為伴隨著大量的刻意轉(zhuǎn)發(fā)和評論,這都需要巨大的人力資源投入。為了達(dá)到數(shù)量上的要求,炒作用戶一般會(huì)聚集為一個(gè)個(gè)團(tuán)體,聽從某些關(guān)鍵人物的領(lǐng)導(dǎo),對指定微博進(jìn)行轉(zhuǎn)發(fā)和評論。微博傳播過程中,傳播節(jié)點(diǎn)的聚集程度是本文研究和識(shí)別炒作微博的關(guān)鍵問題。
4.1.1 社團(tuán)模塊度
微博的傳播網(wǎng)絡(luò)符合社團(tuán)網(wǎng)絡(luò)的無向圖結(jié)構(gòu),為了判斷傳播節(jié)點(diǎn)的聚集程度,引入社團(tuán)模塊度的概念,用一個(gè)模塊函數(shù)[18]來模擬、判定社團(tuán)的緊密程度,定量地描述網(wǎng)絡(luò)中社團(tuán)存在的可能性,并衡量網(wǎng)絡(luò)社團(tuán)結(jié)構(gòu)的劃分。模塊度是指網(wǎng)絡(luò)中連接社團(tuán)結(jié)構(gòu)內(nèi)部頂點(diǎn)的邊所占的比例與另外一個(gè)隨機(jī)網(wǎng)絡(luò)中連接社團(tuán)結(jié)構(gòu)內(nèi)部頂點(diǎn)的邊所占比例的期望值相減得到的差值。這個(gè)隨機(jī)網(wǎng)絡(luò)的構(gòu)造方法為:保持每個(gè)頂點(diǎn)的社團(tuán)屬性不變,頂點(diǎn)間的邊根據(jù)頂點(diǎn)的度隨機(jī)連接。利用函數(shù)Q定量描述社團(tuán)劃分的模塊化水平:
其中,ki和kj是節(jié)點(diǎn)的度值;Ci是節(jié)點(diǎn)i所屬社團(tuán);m是網(wǎng)絡(luò)總邊數(shù)。當(dāng)Ci=Cj時(shí),δ(Ci,Cj)=1,否則為0;Q值在0~1之間,一般以Q=0.3作為網(wǎng)絡(luò)具有明顯社團(tuán)結(jié)構(gòu)的下限。如果社團(tuán)內(nèi)部頂點(diǎn)間的邊沒有隨機(jī)連接得到的邊多,則Q函數(shù)的值為負(fù)數(shù)。相反地,當(dāng)Q函數(shù)的值接近1時(shí),表明相應(yīng)的社團(tuán)結(jié)構(gòu)其內(nèi)部聯(lián)系高度緊密。在實(shí)際網(wǎng)絡(luò)中,Q存在峰值,模塊度越接近峰值,社團(tuán)結(jié)構(gòu)越明顯,峰值常位于0.3~0.7之間。
4.1.2 平均最短路徑
最短路徑是指在一個(gè)賦權(quán)圖的2個(gè)節(jié)點(diǎn)間找出一條最小權(quán)的路徑,平均最短路徑是指一個(gè)網(wǎng)絡(luò)中兩點(diǎn)之間最短路徑的平均值。而社交網(wǎng)絡(luò)拓?fù)涮卣鲃t體現(xiàn)了現(xiàn)實(shí)網(wǎng)絡(luò)中最短路徑的一些內(nèi)在規(guī)律。不同于隨機(jī)網(wǎng)絡(luò),社交網(wǎng)絡(luò)中的大部分節(jié)點(diǎn)多在小范圍內(nèi)相互連接,呈現(xiàn)出一定的高聚集系數(shù)特性,也不同于規(guī)則網(wǎng)絡(luò),社交網(wǎng)絡(luò)結(jié)構(gòu)中任意兩點(diǎn)間的距離都較短,其原因在于一些連接不同簇的“長邊”。文獻(xiàn)[19]提出弱連接,認(rèn)為弱連接比強(qiáng)連接更能穿越不同的群體,因此能觸及更多的人,穿過更大的社會(huì)距離。從這個(gè)角度出發(fā),解釋了小團(tuán)體內(nèi)部的互動(dòng)如何匯聚成了大規(guī)模的結(jié)構(gòu)形態(tài)。因此,弱聯(lián)結(jié)理論將微觀的和宏觀的社會(huì)網(wǎng)模型聯(lián)系在一起。在此利用最短路徑來識(shí)別微博的擴(kuò)散范圍。如果2條微博的傳播數(shù)目相同,而傳播節(jié)點(diǎn)間的平均最短路徑差距較大,便認(rèn)為平均最短路徑值大的微博,其傳播層數(shù)多,影響力大,而平均最短路徑小的微博,傳播多集中在某個(gè)或幾個(gè)轉(zhuǎn)發(fā)者的粉絲間傳遞,以致于傳播層數(shù)少,影響力弱。通過計(jì)算微博傳播中節(jié)點(diǎn)平均最短路徑,判斷節(jié)點(diǎn)間的緊密程度,以此識(shí)別出炒作微博。本文先使用Floyd[20]算法求解出微博傳播圖中所有節(jié)點(diǎn)之間的最短距離,再求距離的平均值得出平均最短路徑長度。主要思想是從任意2個(gè)頂點(diǎn)vi到vj距離的帶權(quán)鄰接矩陣開始,依次插入一個(gè)頂點(diǎn)vk,然后將vi到vj間的已知最短路徑與插入頂點(diǎn)vk后可能產(chǎn)生的vi到vj的距離比較,取兩者之間的較小值,得到新的距離矩陣。通過循環(huán)迭代,得到的最后帶權(quán)鄰接矩陣Dn就反映了所有頂點(diǎn)對之間的最短距離信息。算法具體描述如下:
(1)定義初始的距離矩陣D0:
(2)根據(jù)以下公式構(gòu)造迭代矩陣Dk:
(3)當(dāng)Dk=Dk+1,終止算法;否則,重復(fù)步驟(2)。
4.1.3 網(wǎng)絡(luò)直徑
網(wǎng)絡(luò)直徑是指網(wǎng)絡(luò)中任意節(jié)點(diǎn)間距離的最大值,一般用鏈路數(shù)來度量。網(wǎng)絡(luò)直徑能在一定方面反映社交網(wǎng)絡(luò)中信息的傳播廣度,對于傳播節(jié)點(diǎn)相同的微博信息傳播網(wǎng)絡(luò)來說,網(wǎng)絡(luò)直徑越長,傳播的廣度越大。本文用網(wǎng)絡(luò)直徑來表示微博信息傳播的廣度。由于炒作微博大多是由水軍團(tuán)體傳播的,其傳播范圍也僅限于幾個(gè)水軍群體之間。而熱門微博符合蒲公英的傳播方式,擴(kuò)散范圍廣、受眾人群多、網(wǎng)絡(luò)直徑大。本文使用網(wǎng)絡(luò)直徑來判斷微博傳播的范圍。
4.2 基于SVM的炒作微博識(shí)別方法描述
支持向量機(jī)的主要思想是:對給定有限數(shù)量的訓(xùn)練樣本的機(jī)器學(xué)習(xí),通過在原空間或投影后的高維空間中構(gòu)造最佳超平面,將2種類別的訓(xùn)練樣本
線性可分,再使用線性可分的原理判斷分類邊界。在高維空間中,它是一種線性劃分,而在原有數(shù)據(jù)空間中,它是一種非線性劃分。
首先考慮炒作微博和正常微博的分類問題,設(shè)置模式樣本點(diǎn)(xi,yi)服從樣本空間X×Y上的某個(gè)未知概率分布P(x,y),其中,X代表二維向量(x1表示平均最短路徑,x2表示微博傳播網(wǎng)絡(luò)直徑);Y為模塊度(x1∈(1,+∞),x2∈(1,+∞),y∈(0,1))。目的是尋找一個(gè)超平面將數(shù)據(jù)劃分開。本文使用最大間隔法,分類邊界是值從分類面分別向2個(gè)類的點(diǎn)平移,直到遇到第1個(gè)數(shù)據(jù)點(diǎn),2個(gè)類的分類邊界的距離就是分類間隔。
分類平面表示為(w·x)+b=0,其中,x是多維向量。分類間隔的倒數(shù)為:。所以,該最優(yōu)化問題表示為:
s.t.yi((w·xi)+b)+1)≥1,i=1,2,…,l(4)其中,約束要求各數(shù)據(jù)點(diǎn)(xi,yi)到分類面的距離大于等于1,yi為數(shù)據(jù)分類。
4.3 基于SVM的炒作微博識(shí)別框架
基于SVM的炒作微博識(shí)別框架主要由數(shù)據(jù)預(yù)處理器、SVM分類器、SVM訓(xùn)練和決策響應(yīng)等主要部分組成,如圖5所示。
圖5 基于SVM的炒作微博識(shí)別框架
其中,數(shù)據(jù)預(yù)處理是對大量微博數(shù)據(jù)流進(jìn)行獲取、分類和提取,包括數(shù)據(jù)采集、特征提取、節(jié)點(diǎn)數(shù)向量化處理、參數(shù)值計(jì)算功能。數(shù)據(jù)采集是通過API對微博社交網(wǎng)站運(yùn)營商服務(wù)器上的數(shù)據(jù)進(jìn)行采集。特征提取是對傳播微博的用戶ID及傳播路徑進(jìn)行提取。節(jié)點(diǎn)數(shù)據(jù)量化處理是對這些TXT文本數(shù)據(jù)按照微博信息傳遞的路徑和向量的指向性質(zhì),對其擴(kuò)散指向進(jìn)行量化,映射出整條微博的傳遞方向。參數(shù)值計(jì)算是計(jì)算社團(tuán)模塊度和最短路徑。SVM分類器是對這些參數(shù)進(jìn)行分類后把結(jié)果輸入相應(yīng)單元進(jìn)行最后決策。
整個(gè)過程由2個(gè)階段完成,即訓(xùn)練階段和測試階段。首先把訓(xùn)練數(shù)據(jù)(例如,某冷飲廠商在一時(shí)間段的全部微博數(shù)據(jù),包括炒作微博和正常微博)通過數(shù)據(jù)轉(zhuǎn)換轉(zhuǎn)化為SVM分類器可識(shí)別的數(shù)據(jù)。在訓(xùn)練階段,利用訓(xùn)練數(shù)據(jù)訓(xùn)練SVM對炒作微博進(jìn)行分類,分析訓(xùn)練結(jié)果。在測試階段,將未知的測試數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理,得到判斷參數(shù),進(jìn)行炒作微博的識(shí)別。最后對檢測結(jié)果進(jìn)行人工識(shí)別,給出識(shí)別準(zhǔn)確率,并對識(shí)別誤差進(jìn)行分析。
5.1 訓(xùn)練數(shù)據(jù)集的選取與采集
本文的訓(xùn)練數(shù)據(jù)集采自于2013年5月-10月人工識(shí)別某冷飲廠家雇傭水軍炒作傳播數(shù)在10 000以上的數(shù)據(jù)以及微博風(fēng)云榜上的熱門微博。提取單條微博的傳播路徑和節(jié)點(diǎn)信息,對傳播節(jié)點(diǎn)進(jìn)行分析,獲取其粉絲和關(guān)注者的數(shù)據(jù),用于計(jì)算單條微博傳播節(jié)點(diǎn)間的緊密程度以及判斷是否有社團(tuán)存在的可能性。
在對炒作微博的傳播路徑節(jié)點(diǎn)信息進(jìn)行分析后,發(fā)現(xiàn)炒作微博的社團(tuán)模塊度峰值Q都超過了0.8,模塊度峰值最高的是某冷飲廠商雇傭水軍詆毀競爭對手的微博,2天傳播30 883條,模塊度峰值Q=0.903,并且出現(xiàn)微博評論數(shù)接近轉(zhuǎn)發(fā)數(shù)的狀況。對其官方微博進(jìn)行分析,其擁有百萬粉絲量,日均微博數(shù)4.79條,發(fā)布微博分為4類:(1)產(chǎn)品宣傳; (2)別人對其的炒作,官方進(jìn)行轉(zhuǎn)發(fā);(3)貶低競爭對手;(4)原創(chuàng)或轉(zhuǎn)發(fā)的一般微博。經(jīng)對其半年官方微博進(jìn)行跟蹤發(fā)現(xiàn),對自己產(chǎn)品進(jìn)行宣傳促銷和詆毀直接競爭對手這2類微博,轉(zhuǎn)發(fā)數(shù)和評論數(shù)超過其發(fā)布的原創(chuàng)微博和轉(zhuǎn)發(fā)微博幾十個(gè)數(shù)量級。在對其歷史微博數(shù)據(jù)和粉絲數(shù)目演化進(jìn)行還原,存在明顯買粉絲情況,在個(gè)別時(shí)期達(dá)到50%(25.6×104)的增長量(圖6),而平時(shí)僅百余人的粉絲增長數(shù)目。對粉絲質(zhì)量進(jìn)行分析可見,在大規(guī)模粉絲增長的情況下,粉絲明顯呈現(xiàn)出僵尸粉絲和水軍的特性(注冊時(shí)間集中、評論及轉(zhuǎn)發(fā)內(nèi)容多是廣告和詆毀性質(zhì)的博文)。在與對手競爭最激烈的2013年5月-6月,其雇傭的大量水軍對其博文進(jìn)行轉(zhuǎn)發(fā)與評論(圖7),造成了極大的社會(huì)影響力。
圖6 某冷飲微博粉絲增長趨勢
圖7 某冷飲微博每千人粉絲的評論與轉(zhuǎn)發(fā)量
5.2 結(jié)果分析
在對某冷飲廠家傳播量超10 000的微博數(shù)據(jù)進(jìn)行分析后,再與之前獲取的熱門微博數(shù)據(jù)進(jìn)行對比分析,通過SVM分類器對2種類型的微博數(shù)據(jù)進(jìn)行分類(圖8),可以看出兩者存在明顯區(qū)別,炒作微博的模塊度峰值遠(yuǎn)超出正常社團(tuán)的0.3~0.7的區(qū)域,并且平均最短路徑為3.395,也明顯背離六度分隔理論,最長網(wǎng)絡(luò)直徑在7以內(nèi),與傳播數(shù)相同的熱門微博最長網(wǎng)絡(luò)直徑23相比,存在明顯差距。對已識(shí)別出疑似的炒作微博進(jìn)行傳播節(jié)點(diǎn)的出度分析(一個(gè)節(jié)點(diǎn)被直接轉(zhuǎn)發(fā)一次,稱其出度值為1)。按節(jié)點(diǎn)出度大小進(jìn)行排列后,可知出度大的節(jié)點(diǎn)與出度小的節(jié)點(diǎn)存在指數(shù)倍差距(圖9)。
圖8 炒作微博與熱門微博的SVM分類
圖9 炒作微博中的大V參與程度
某些出度較大的節(jié)點(diǎn)在此冷飲廠商的多條炒作微博中重復(fù)出現(xiàn),而該廠家正常的微博轉(zhuǎn)發(fā)節(jié)點(diǎn)并沒有這些大V參與。
對這些疑似炒作微博中的大V進(jìn)行分析,提取大V的用戶名,在國內(nèi)某水軍炒作網(wǎng)站上進(jìn)行查詢,如圖10的博主列表,在某冷飲廠商的炒作及抨擊競爭對手的博文中,參與轉(zhuǎn)發(fā)的大V,有93%的炒作大號(hào)存在于此網(wǎng)站的列表中。
圖10 參與炒作的大V及其報(bào)價(jià)表
不同的粉絲量、轉(zhuǎn)評值(一條微博中進(jìn)行轉(zhuǎn)發(fā)和評論數(shù)目的比值)決定了其不同的定價(jià),并且每個(gè)炒作大V都表明了硬廣轉(zhuǎn)發(fā)報(bào)價(jià)、軟廣轉(zhuǎn)發(fā)報(bào)價(jià)、硬廣直發(fā)報(bào)價(jià)、軟文直發(fā)報(bào)價(jià)和炒作平臺(tái)等信息,甲方可根據(jù)自己的需求和傳播量進(jìn)行選擇。本文所選取的炒作微博廠家為了得到更好的傳播效果和影響力,每次發(fā)布產(chǎn)品宣傳和詆毀競爭對手的博文,都會(huì)雇傭多個(gè)炒作大號(hào)對其博文進(jìn)行傳播。如果把其雇傭炒作團(tuán)體進(jìn)行轉(zhuǎn)發(fā)與評論的微博從炒作賬號(hào)的出度刪除后,炒作微博的平均轉(zhuǎn)發(fā)數(shù)目為116.45條,與其正常微博平均轉(zhuǎn)發(fā)數(shù)的61.48條相比,炒作微博的影響力并沒有得到有效提升。
圖11反映了圖10中炒作微博(1)的傳播路徑圖。圖10中顯示了此條炒作微博包含了10個(gè)出度在2 000以上的大V賬號(hào)ID、出度為347和247的2個(gè)較小賬號(hào)ID以及其余的出度在10以內(nèi)的賬號(hào)ID。展現(xiàn)了10個(gè)大V和2個(gè)較小賬號(hào)的微博傳播消息結(jié)構(gòu)。
圖11 對應(yīng)圖10炒作微博(1)的微博信息傳播結(jié)構(gòu)
5.3 測試數(shù)據(jù)集的選取與采集
本文選取國內(nèi)新浪微博2013年7月2日前轉(zhuǎn)發(fā)量超過10 000的433條微博數(shù)據(jù)進(jìn)行測試實(shí)驗(yàn)。通過新浪微博開放API得到相關(guān)數(shù)據(jù)(2013年7月2日API升級后,非授權(quán)用戶的數(shù)據(jù)只能通過business API獲取)。數(shù)據(jù)及數(shù)據(jù)間的關(guān)系為:
(1)微博屬性:發(fā)布時(shí)間,轉(zhuǎn)發(fā)數(shù),評論數(shù),轉(zhuǎn)發(fā)者ID,評論者ID;
(2)用戶關(guān)系:用戶ID,關(guān)注用戶ID,粉絲ID。
5.4 測試結(jié)果誤差分析
通過對這433條轉(zhuǎn)發(fā)量超過10 000的微博數(shù)據(jù)進(jìn)行實(shí)驗(yàn),使用基于SVM的炒作微博識(shí)別方法發(fā)現(xiàn)疑似炒作微博57條,然后對測試數(shù)據(jù)進(jìn)行人工識(shí)別,確定為炒作微博的有43條,如表1所示。
表1 基于模塊度與最短路徑的炒作微博識(shí)別
對誤判為炒作微博的數(shù)據(jù)進(jìn)行分析,發(fā)現(xiàn)其主要由三部分組成:(1)大V或名人粉絲之間的口水戰(zhàn);(2)大V或名人重復(fù)轉(zhuǎn)發(fā)自己的微博;(3)低俗博主的微博。它們的相同特征是在微博的傳播過程中,參與的人群相對單一。如圖12所示,它的社團(tuán)模塊度峰值Q=0.776,L=3.739,微博是由一網(wǎng)絡(luò)名人L某評論另一網(wǎng)絡(luò)名人Z某后,對方回應(yīng),而引起的雙方粉絲在此條微博的評論中互相攻擊。參與傳播的人群為雙方的粉絲,這是造成了此條微博的模塊度增高,最短路徑降低的原因。
圖12 網(wǎng)絡(luò)名人間口水戰(zhàn)的微博信息傳播結(jié)構(gòu)
圖13 社團(tuán)模塊度峰值Q=0.799,L=3.662,被誤判為炒作微博的原因是此大V為了突出這條微博的重要性,不斷的重復(fù)轉(zhuǎn)發(fā)自己的微博,由于在傳播過程中,主要是其粉絲團(tuán)對本條微博進(jìn)行轉(zhuǎn)發(fā)或多次轉(zhuǎn)發(fā),在微博傳播過程中呈現(xiàn)出的社團(tuán)結(jié)構(gòu)單一,而被誤判為疑似炒作微博。
圖13 大V多次轉(zhuǎn)發(fā)迅速擴(kuò)散的微博信息傳播結(jié)構(gòu)
圖14 社團(tuán)模塊度峰值Q=0.817,L=3.657被誤判為炒作微博是其大V博主的特性決定的,此類博主的粉絲多是占廣大網(wǎng)民中基數(shù)較大的普通網(wǎng)民,其帶有娛樂感的搞笑微博引發(fā)粉絲互動(dòng)帶動(dòng)網(wǎng)民跟風(fēng),評論數(shù)超過了轉(zhuǎn)發(fā)數(shù)的2倍以上。微博大V們顧及自己的社會(huì)影響力與自身形象往往不會(huì)關(guān)注與轉(zhuǎn)發(fā)此類博主的微博,從而造成此類微博雖然擁有眾多轉(zhuǎn)發(fā)數(shù),但沒有轉(zhuǎn)發(fā)深度,只是粉絲們的直接轉(zhuǎn)發(fā),并不能引起深層次的轉(zhuǎn)發(fā)效果。
圖14 某女星的微博信息傳播結(jié)構(gòu)
檢測時(shí)間為在API獲取單條微博全部傳播節(jié)點(diǎn)后,對數(shù)據(jù)進(jìn)行分析的時(shí)間。由于新浪微博對不同權(quán)限的開發(fā)者提供了不同的API調(diào)用權(quán)限(以Business API為例,作為開發(fā)者的最高權(quán)限,數(shù)據(jù)的獲取速度僅和帶寬有關(guān)),因此檢測時(shí)間并不包括數(shù)據(jù)獲取的時(shí)間消耗。實(shí)驗(yàn)在CPU為2核、主頻2.53 GHz,內(nèi)存為4 GB的一臺(tái)筆記本上運(yùn)行,其結(jié)果如表2所示。
表2 算法檢測時(shí)間
從表2可以看出,本文算法復(fù)雜度是隨著微博傳播數(shù)的增多及傳播節(jié)點(diǎn)間聯(lián)系的復(fù)雜程度成線性增長。測試數(shù)據(jù)中最大的傳播數(shù)為124 768,算法平均消耗時(shí)間在3 min以內(nèi),其中最快檢測時(shí)間達(dá)到13.07 s,傳播數(shù)為97 654條的炒作微博進(jìn)入了當(dāng)日的熱門微博榜單。
在發(fā)生有組織的炒作事件后,定位信息發(fā)生源和其轉(zhuǎn)發(fā)關(guān)鍵用戶,對信息進(jìn)行實(shí)時(shí)監(jiān)控預(yù)警是防止惡意網(wǎng)絡(luò)造謠事件發(fā)生的關(guān)鍵。本文基于社團(tuán)模塊度與六度分隔理論,設(shè)計(jì)基于群體策劃現(xiàn)象的炒作微博識(shí)別方法。實(shí)驗(yàn)結(jié)果表明,基于模塊度與最短路徑的炒作微博識(shí)別方法,可以有效識(shí)別炒作微博,并且具有較高的準(zhǔn)確性。通過實(shí)驗(yàn)證明了該方法具有一定的合理性和優(yōu)勢,但在今后工作中還將對以下問題展開研究:(1)區(qū)分炒作微博的類型以鑒別微博營銷的目的,加入情感分析,對于炒作微博的博文情感值和評論的情感值進(jìn)行分析和判斷,建立炒作微博字典,以便能準(zhǔn)確地區(qū)分炒作微博是自我營銷行為還是惡意的詆毀和攻擊;(2)對名人或官方微博的影響因子進(jìn)行細(xì)度優(yōu)化,克服微博名人效應(yīng)對識(shí)別準(zhǔn)確率的干擾。
[1]Yu L L,Asur S,Huberman B A.Artificial Inflation:The True Story of Trends in Sina Weibo[C]//Proceedings of 2012 International Conference on Social Computing.Amsterdam,Holland:IEEE Press,2012:514-519.
[2]任一其,王雅雷,王國華,等.微博謠言的演化機(jī)理研究[J].情報(bào)雜志,2012,31(5):50-54.
[3]Castillo C,MendozaM,PobleteB.Information Credibility on Twitter[C]//Proceedings of WWW’11.New York,USA:ACM Press:[s.n.],2011:675-684.
[4]Gupta M,Zhao Peixiang,Han Jiawei.Evaluating Event Credibility on Twitter[C]//Proceedings of SDM’12.Anaheim,USA:IEEE Press,2012:153-164.
[5]顧明毅,周忍偉.輿情及社會(huì)性網(wǎng)絡(luò)信息傳播模式[J].新聞與傳播研究,2009,16(5):67-72.
[6]劉 穎,李欲曉.網(wǎng)絡(luò)輿情傳播特征分析[J].北京郵電大學(xué)學(xué)報(bào):社會(huì)科學(xué)版,2011,13(4):1-6.
[7]陳 波,于 泠,劉君亭,等.泛在媒體環(huán)境下的網(wǎng)絡(luò)輿情傳播控制模型[J].系統(tǒng)工程理論與實(shí)踐,2011, 31(11):2140-2150.
[8]Centola D.The Spread of Behavior in an Online Social Network Experiment[J].Science,2010,329(5995): 1194-1197.
[9]Lu Linyuan,Chen Duanbing,Zhou Tao.The Small World Yields the Most Effective Information Spreading[J].New Journal of Physics,2011,13(12):1230-1235.
[10]Kwak H,Lee C,Park H,et al.What is Twitter,A Social Network or a News Media?[C]//Proceedings of the 19th International Conference on World Wide Web.New York,USA:ACM Press,2010:591-600.
[11]Meeyoung C C.Measuring User Influence in Twitter: The Million Follower Fallacy[C]//Proceedings of the 4th International AAAI Conference on Weblogs and Social Media.Palo Alto,USA:AAAI Press,2010: 174-179.
[12]Weng J.TwitterRank:Finding Topic-sensitive Influential Twitterers[C]//Proceedingsofthe3rdACM International ConferenceonWebSearchandData Mining.New York,USA:ACM Press,2010:261-270.
[13]丁乙乙,周元英.誰在操控網(wǎng)絡(luò)輿論?[J].IT時(shí)代周刊,2010,(1):5.
[14]Facebook Research Report:TheImportanceofSocial Network of Weak Ties[EB/OL].(2012-05-11).http:// www.sina.com.cn/i/2012-01-18/13286651169.shtml.
[15]Han Yanni,Li Deyi,Wang Teng.Identifying Different Community Members in Complex Networks Based on Topology Potential[J].Frontiers of Computer Science in China,2011,5(1):87-99.
[16]Wang Chenying,Yuan Xiaojie,Wang Xin.An Efficient Numbering Scheme for Dynamic XML Trees[C]// Proceedings of InternationalConference on Computer Science and Software Engineering.Washington D.C.,USA: IEEE Press,2008:704-707.
[17]Lazarsfield P.The People’s Choice[M].New York, USA:Columbia University Press,1948.
[18]Newman M E J,GirvanM.FindingandEvaluating Community Structure in Networks[J].Physical Review E,2004,69(2).
[19]Granovetter M S.The Strength ofWeak Ties[J].American Journal of Sociology,1973,78(6):1360-1380.
[20]Lin S.Computer Solutions of the Traveling Salesman Problem[J].Bell System Technical Journal,1995, 44(10):2245-2269.
編輯 陸燕菲
Hype Microblog Recognition Method Based on Support Vector Machine
DONG Yuchen,LIU Yan,LUO Junyong,ZHANG Jin
(State Key Laboratory of Mathematical Engineering and Advanced Computing,Zhengzhou 450001,China)
Microblog is not only a center or channel of mass media,but also involved in the formation,development and guidance of public opinions.The propagation of speculation microblog which is released from We-media,opinion leaders or some other users,causes microblog rumors,false hype,social mobilization and other problems.This paper analyzes the phenomenon of covert planning,mines the difference of the structure in communication networks and the incremental statistics of forwardings between the ordinary and the speculation.A novel algorithm for hype microblog recognition is proposed in this paper based on Support Vector Machine(SVM)which uses the modularity peak spread and the average diameter of the shortest path in propagation network.The proposed method has advantages of less dependence on user profile information and is sensitive to the structure of propagation networks,and it has higher recognition accuracy.
social network;hype group;hype microblog;community module degree;network diameter;average shortest path;Support Vector Machine(SVM)
董雨辰,劉 琰,羅軍勇,等.基于支持向量機(jī)的炒作微博識(shí)別方法[J].計(jì)算機(jī)工程,2015,41(3):7-14.
英文引用格式:Dong Yuchen,Liu Yan,Luo Junyong,et al.Hype Microblog Recognition Method Based on Support Vector Machine[J].Computer Engineering,2015,41(3):7-14.
1000-3428(2015)03-0007-08
:A
:TP393
10.3969/j.issn.1000-3428.2015.03.002
國家自然科學(xué)基金資助項(xiàng)目(61309007);國家“863”計(jì)劃基金資助項(xiàng)目(2012AA012902);國家科技支撐計(jì)劃基金資助項(xiàng)目(2012BAH47B01)。
董雨辰(1988-),男,碩士研究生,主研方向:網(wǎng)絡(luò)信息安全,網(wǎng)絡(luò)態(tài)勢感知;劉 琰(通訊作者),副教授、博士;羅軍勇,教授;張 進(jìn),碩士研究生。
2014-04-11
:2014-05-19E-mail:ms_dyc39@aliyun.com