姜靚
摘 要:隨著計算機技術(shù)的飛速發(fā)展以及微博的興起,在線社交網(wǎng)絡(luò)上出現(xiàn)了一種影響力很大的用戶,即輿論領(lǐng)袖,其在輿論的形成、發(fā)展和傳播過程中都發(fā)揮著巨大作用。目前,在線社交網(wǎng)絡(luò)上的輿論領(lǐng)袖識別是研究的熱點,多種相關(guān)理論和方法已被提出,這些方法有一個共同點,就是均使用節(jié)點的度數(shù)、緊密度和介數(shù)等社會網(wǎng)絡(luò)分析中的常用方法。這些方法雖簡單,但是由于缺乏對節(jié)點內(nèi)部屬性的利用分析,導(dǎo)致識別的準(zhǔn)確率不高。提出了一種改進的影響力計算模型方法,該方法能夠考慮到節(jié)點的內(nèi)部屬性,比如節(jié)點的內(nèi)容和內(nèi)在聯(lián)系,解決了準(zhǔn)確率低的問題。最后通過實驗仿真,驗證了該算法的準(zhǔn)確性和識別率。
關(guān)鍵詞關(guān)鍵詞:網(wǎng)絡(luò)社區(qū);影響力發(fā)現(xiàn);輿論領(lǐng)袖
DOIDOI:10.11907/rjdk.162057
中圖分類號:TP301
文獻標(biāo)識碼:A 文章編號文章編號:16727800(2016)011002802
0 引言
隨著科技的飛速發(fā)展,互聯(lián)網(wǎng)已經(jīng)通過各種途徑影響到了人們的生活方式,儼然成為公共輿論傳播的主要載體[1]。隨著各種社交軟件的興起,人們在網(wǎng)絡(luò)中的參與性、互動性大大增加,人們可以通過各種社交平臺與朋友互動,比如論壇、貼吧、博客、微博、朋友圈等。這些社交平臺每天產(chǎn)生數(shù)以萬計的信息,人們通過這種方式了解、參與日常社交活動[2]。在社交平臺上人們可以自由地發(fā)表評論和看法,其自由隨意的特點不可避免地使得社交平臺與各種敏感話題的產(chǎn)生和傳播密不可分,若產(chǎn)生和傳播負面內(nèi)容,則會在人群中產(chǎn)生很大的負面影響,應(yīng)及時對負面輿論加以監(jiān)督、管理和引導(dǎo)[1]。在輿論傳播過程中,任何人都可以加入自己的觀點,隨時隨地參與熱點話題的討論,這其中都會產(chǎn)生輿論領(lǐng)袖(Opinion Leader)[35]。然而目前,在線社交網(wǎng)絡(luò)中輿論領(lǐng)袖的識別研究很多只是對節(jié)點的外部屬性,比如度中心性指標(biāo)進行識別,沒有考慮到節(jié)點的內(nèi)部屬性,比如文本內(nèi)容、鏈接等。鑒于此,本文提出了改進的影響力計算模型。
本研究思路為:首先根據(jù)社交平臺中話題發(fā)布者、回復(fù)者以及他們之間的回復(fù)關(guān)系,建立對應(yīng)的在線推薦網(wǎng)絡(luò),接著采用改進的影響力擴散模型IDMS計算出基于文本內(nèi)容挖掘、發(fā)帖者特性、回帖者特性以及相互回復(fù)關(guān)系的輿論領(lǐng)袖的影響力排名,最后使用科學(xué)有效的方法篩選出社交平臺中的輿論領(lǐng)袖,從而建立識別社交平臺中輿論領(lǐng)袖的模型方法,并通過采樣的新浪微博數(shù)據(jù)對篩選方法進行驗證,采用前N個結(jié)果中的正確率P@N進行評估。本文設(shè)計的輿論領(lǐng)袖識別模型中所涉及的熱點話題的識別以及輿論領(lǐng)袖的識別,對于電子商務(wù)領(lǐng)域各種商品的銷售和推廣,以及輿論的監(jiān)督、分析和管理有著重要的指導(dǎo)意義和實際應(yīng)用價值。
1 輿論領(lǐng)袖識別模型
1.1 社會網(wǎng)絡(luò)分析
社會網(wǎng)絡(luò)分析是采用圖論、矩陣等數(shù)學(xué)工具對社會關(guān)系進行定量研究的一種方法。它以參與者及其相互間的關(guān)系作為研究內(nèi)容,通過建立參與者之間的關(guān)系模型并對其進行描述,分析關(guān)系模型中所蘊含的結(jié)構(gòu)及其對參與者與整個群體的影響。
社會網(wǎng)絡(luò)分析主要是研究社會網(wǎng)絡(luò)的兩種屬性集合:關(guān)系屬性和結(jié)構(gòu)屬性。網(wǎng)絡(luò)中的關(guān)系屬性主要是研究網(wǎng)絡(luò)參與者之間關(guān)系的內(nèi)容和形式,指網(wǎng)絡(luò)中正在被傳播與交換的資源、信息、影響力和社會支持。網(wǎng)絡(luò)中的結(jié)構(gòu)屬性通常通過3個層次的分析體現(xiàn)出來:個體節(jié)點層次(關(guān)注的是一個目標(biāo)節(jié)點)、子網(wǎng)絡(luò)層次(關(guān)注的是一個具有共同特點的節(jié)點集合)和整個網(wǎng)絡(luò)層次。個體參與者方法用來描述個體與網(wǎng)絡(luò)中其他參與者之間聯(lián)系的差異以及被用來定義個體的角色,子網(wǎng)絡(luò)方法作為分析的單元用來表示整個網(wǎng)絡(luò)中一組結(jié)構(gòu)化的特點,整個網(wǎng)絡(luò)方法描述了所有參與者之間的各種聯(lián)系模式。
1.2 問題描述
假設(shè)C={C1,C2,…,Cn}是一個帖子的集合,同時Ci(1≤i≤n)指任意一個帖子。通過認可度計算模型,可以得出熱門帖子,也即影響力大的帖子,然后根據(jù)發(fā)熱門帖子的多少篩選出認可度高的網(wǎng)絡(luò)用戶,為進一步識別輿論領(lǐng)袖打下基礎(chǔ)。為此,需要做如下工作:①虛擬出帖子之間的鏈接結(jié)構(gòu);②根據(jù)帖子內(nèi)容、數(shù)量進行計算;③識別出具有高認可度的帖子和高認可度的發(fā)帖者(網(wǎng)絡(luò)用戶)。
利用網(wǎng)絡(luò)爬蟲進行相關(guān)帖子的爬取,根據(jù)網(wǎng)頁結(jié)構(gòu)可虛擬出帖子之間的外部聯(lián)系。隨后通過分析帖子內(nèi)容,計算出帖子間的相似度,并且發(fā)掘帖子間的內(nèi)部關(guān)系,從而得到每條聯(lián)系邊的權(quán)重,以此建立起對應(yīng)的帖子網(wǎng)絡(luò)。
1.3 模型改進
IDM模型[6]的主要思想是發(fā)掘出網(wǎng)絡(luò)文本內(nèi)容和回復(fù)內(nèi)容的規(guī)律,以此來實現(xiàn)衡量參與者的活躍度,并假設(shè)論壇影響力最高的用戶就是論壇輿論領(lǐng)袖,通過帖子中關(guān)鍵詞語出現(xiàn)的頻率識別出熱門帖子,然后根據(jù)最多熱門帖以及在發(fā)帖、回帖等基于文本內(nèi)容交互的觀點影響力計算出網(wǎng)絡(luò)用戶的影響力。
為了不再受到類似IDM模型缺陷的影響,使得模型具有包容性、擴展性和開放性等屬性,將模型分開進行計算。第一部分根據(jù)發(fā)帖和回帖中出現(xiàn)頻率高的關(guān)鍵詞在論壇上篩選出所有領(lǐng)域的熱門帖子;第二部分在計算用戶影響力時,通過高頻關(guān)鍵詞對熱門帖子進行影響力傳播過程中的影響力分配,根據(jù)帖子中所含高頻關(guān)鍵詞的個數(shù)比給每個帖子賦值一個相應(yīng)的影響力。該過程整合了帖子回復(fù)結(jié)構(gòu)網(wǎng)絡(luò)特性、用戶統(tǒng)計信息、詞語主題內(nèi)容相關(guān)性等可用信息,從而使得改進的模型具有開放性、正確性、擴展性和包容性。
2 實驗結(jié)果與分析
2.1 評估指標(biāo)
前N個結(jié)果中的正確率P@N=前N個結(jié)果中人工判定為真正意見領(lǐng)袖的個數(shù)[]N
實驗中,將根據(jù)用戶發(fā)帖的內(nèi)容、權(quán)威度、認可度以及影響力等幾個方面作為標(biāo)準(zhǔn),以此判斷該用戶是否具備作為一名輿論領(lǐng)袖的資格。
2.2 實驗方法
通過與以下幾種方法進行對比實驗,驗證了本文方法的準(zhǔn)確性:①IDMS,本文提出的輿論領(lǐng)袖影響力計算改進模型;②IDM,基于影響力傳播模型IDM的輿論領(lǐng)袖發(fā)現(xiàn)方法;③Authority,基于權(quán)威度的輿論領(lǐng)袖發(fā)現(xiàn)方法。
為了能夠定性評估不同方法的效果,采用隨N變化的P@N曲線圖加以直觀反映。
由圖1可以得出以下結(jié)論:在數(shù)據(jù)節(jié)點較小時,3種算法的識別率相差無幾,隨著數(shù)據(jù)節(jié)點的增加,3種算法的差異開始體現(xiàn)出來,其中本文提出的改進的影響力模型算法IDMS的識別率最高。這是由于本文算法在輿論領(lǐng)袖識別過程中,充分考慮到了網(wǎng)絡(luò)的內(nèi)部及外部結(jié)構(gòu)。單一地考慮權(quán)威度中的粉絲數(shù)或者被關(guān)注數(shù),或傳統(tǒng)的影響力傳播模型都不能識別出真正的輿論領(lǐng)袖,既考慮網(wǎng)絡(luò)鏈接的外部屬性,又考慮內(nèi)部屬性才能更加準(zhǔn)確地識別出真正的輿論領(lǐng)袖。
3 結(jié)語
本文對輿論領(lǐng)袖的識別問題進行了研究,基于目前比較熱門的影響力計算模型進行了相關(guān)改進。主要分為兩個部分進行研究:第一部分根據(jù)發(fā)帖和回帖中出現(xiàn)頻率高的關(guān)鍵詞在論壇上篩選出所有領(lǐng)域的熱門帖子;第二部分在計算用戶影響力時,通過高頻關(guān)鍵詞對熱門帖子進行影響力傳播過程中的影響力分配,根據(jù)帖子中所含高頻關(guān)鍵詞的個數(shù)比給每個帖子賦值一個相應(yīng)的影響力,該過程整合了帖子回復(fù)結(jié)構(gòu)網(wǎng)絡(luò)特性、用戶統(tǒng)計信息、詞語主題內(nèi)容相關(guān)性等可用信息,從而使得改進的模型具有開放性、正確性、擴展性和包容性。后續(xù)將對影響力傳播最大化問題作進一步研究。
參考文獻:
[1] NING MA,YIJUN LIU.Superedgerank algorithm and its application in identifying opinion leader of online public opinion supernetwork[J].Expert Systems with Applications,2014(41):13571368.
[2] SANGMIN CHOI,YOSUB HAN.Representative reviewers for internet social media[J].Expert Systems with Applications,2013(40):12741282.
[3] FENG LI,TIMON C DU.Who is talking? an ontologybased opinion leader identification framework for wordofmouth marketing in online social blogs[J].Decision Support Systems,2011(51):190197.
[4] LAZARSFELD,P F BERELSON,B R GAUDET H.The people′s choice:how the votermakes up his mind in a presidential campaign[M].New York:Duell, Sloan&Pierce,1944:102107.
[5] YANYAN LI,SHAOQIAN MA,YONGHE ZHANG,et al.An improved mix framework for opinion leader identification in online learning communities[J].KnowledgeBased Systems,2013(43):4351.
[6] MATSUMURA NAOHIRO,OHSAWA YUKIO,ISHIZUKA MITSURU.Influence diffusion model in textbased communication[J].Transactions of the Japanese Society for Artificial Intelligence,2002,17(3):259267.
(責(zé)任編輯:孫 娟)