王嘉麒,杜義華,趙以霞
1.中國(guó)科學(xué)院計(jì)算機(jī)網(wǎng)絡(luò)信息中心,北京 100190
2.中國(guó)科學(xué)院大學(xué),北京 100049
隨著互聯(lián)網(wǎng)的快速發(fā)展,公眾較以往更加積極地使用網(wǎng)絡(luò)社交平臺(tái)參與對(duì)社會(huì)熱點(diǎn)事件的討論。以推特和新浪微博為代表的網(wǎng)絡(luò)社交平臺(tái)逐漸成為了大量公眾獲取信息的重要渠道,在近年來(lái)所有輿情事件的傳播中都產(chǎn)生了重要影響[1]。社交平臺(tái)的龐大規(guī)模使得輿情事件更容易快速傳播和發(fā)酵,如果缺乏合理的輿情分析與引導(dǎo),會(huì)導(dǎo)致輿論迅速惡化,加劇社會(huì)矛盾。研究表明,社交平臺(tái)上的意見(jiàn)領(lǐng)袖能夠?qū)Υ罅坑脩舢a(chǎn)生影響,在很大程度上左右輿論走向[2]?!耙庖?jiàn)領(lǐng)袖”這一概念最初由Lazarsfeld提出,指在信息傳播過(guò)程中通過(guò)發(fā)表觀點(diǎn)和引導(dǎo)輿論,對(duì)其他用戶的態(tài)度造成影響,并受到媒體和知名人士關(guān)注,從而在輿情事件中產(chǎn)生極大影響力的重要人物[3]。對(duì)意見(jiàn)領(lǐng)袖的發(fā)現(xiàn),在輿情分析與引導(dǎo)等方面具有不可忽略的價(jià)值[4]。
目前關(guān)于意見(jiàn)領(lǐng)袖發(fā)現(xiàn)的研究主要基于用戶和帖子的數(shù)據(jù)特征構(gòu)建影響力指標(biāo)以衡量用戶在輿情事件中的影響,并根據(jù)相關(guān)指標(biāo)進(jìn)行排序或聚類以發(fā)現(xiàn)意見(jiàn)領(lǐng)袖,屬于典型的多方面評(píng)分問(wèn)題[5]。傳統(tǒng)方法大多將用戶個(gè)人屬性和帖子互動(dòng)行為視為互相獨(dú)立的特征,較少涉及用戶和帖子的綜合作用與相互影響,因此會(huì)忽略部分信息,導(dǎo)致部分意見(jiàn)領(lǐng)袖被遺漏,不利于相關(guān)的輿情分析與引導(dǎo)[6]。此外,有研究表明意見(jiàn)領(lǐng)袖在輿情事件中會(huì)表現(xiàn)出特定的情感特征,在基于影響力的意見(jiàn)領(lǐng)袖發(fā)現(xiàn)方法的基礎(chǔ)上引入情感分析手段,有助于更有效地發(fā)現(xiàn)意見(jiàn)領(lǐng)袖[7]。
本文融合用戶個(gè)人屬性和帖子行為特征,提出基于綜合影響力和情感特征的意見(jiàn)領(lǐng)袖發(fā)現(xiàn)方法(opinion leader discovery based on comprehensive influence and sentiment characteristics,簡(jiǎn)稱CI-SC)。CI-SC 方法綜合考慮用戶個(gè)人屬性和帖子互動(dòng)行為兩方面的影響力特征,并在此基礎(chǔ)上引入用戶的情感特征,通過(guò)聚類分析實(shí)現(xiàn)意見(jiàn)領(lǐng)袖發(fā)現(xiàn)。
現(xiàn)有的意見(jiàn)領(lǐng)袖發(fā)現(xiàn)方法主要通過(guò)用戶的部分?jǐn)?shù)據(jù)特征,如粉絲數(shù)和轉(zhuǎn)發(fā)數(shù)等,構(gòu)建影響力指標(biāo)以衡量不同用戶的影響力大小,從而發(fā)現(xiàn)具有較大影響力的意見(jiàn)領(lǐng)袖。根據(jù)采用的數(shù)據(jù)特征的區(qū)別,影響力指標(biāo)主要分為用戶影響力和帖子影響力兩大類。
用戶影響力指某一用戶發(fā)表的言論被推送給其他用戶并影響其他用戶的能力。相關(guān)方法主要基于用戶個(gè)人屬性特征計(jì)算用戶影響力,包括關(guān)注數(shù)、發(fā)帖數(shù)和粉絲數(shù)等[8]。部分研究在此基礎(chǔ)上參考google 的PageRank 算法[9],康奈爾大學(xué)的HITS 算法[10]及相應(yīng)變種[11-14],將社交網(wǎng)絡(luò)結(jié)構(gòu)納入用戶影響力的計(jì)算。王君澤等提出了基于粉絲數(shù)、關(guān)注數(shù)和發(fā)博數(shù)的微博意見(jiàn)領(lǐng)袖識(shí)別模型[15]。Kwak 等依據(jù)粉絲數(shù)和PageRank 算法對(duì)Twitter 用戶進(jìn)行影響力排名,發(fā)現(xiàn)意見(jiàn)領(lǐng)袖的影響力排名并不完全受限于其個(gè)人屬性[16]。Weng 等提出TwitterRank 算法,將用戶的影響力定義為其所有粉絲的影響力之和[17]。石磊等則在粉絲數(shù)基礎(chǔ)上,進(jìn)一步引入了活躍指數(shù)來(lái)計(jì)算用戶影響力[18]。
帖子影響力指的是某帖子成為熱門內(nèi)容并影響大量用戶的能力。相關(guān)研究主要基于帖子的互動(dòng)行為特征構(gòu)建帖子影響力,包括評(píng)論數(shù)、轉(zhuǎn)發(fā)數(shù)和點(diǎn)贊數(shù)等。童薇等提出一種基于微博互動(dòng)行為特征的檢測(cè)算法,該算法可檢測(cè)出影響較大的熱門微博[19];李華等提出了計(jì)算熱度值的IEED 算法,該算法同時(shí)考慮了帖子的互動(dòng)行為數(shù)據(jù)和發(fā)布用戶粉絲數(shù)[20];郭跇秀等則將用戶影響力和文本特征結(jié)合作為微博影響力[21]。
目前已有的基于影響力的意見(jiàn)領(lǐng)袖發(fā)現(xiàn)方法在構(gòu)造影響力指標(biāo)時(shí),往往只考慮一部分?jǐn)?shù)據(jù)信息,這使得關(guān)于用戶影響力的研究主要局限于用戶本身的個(gè)人屬性數(shù)據(jù),而沒(méi)有考慮該用戶發(fā)表的帖子在傳播過(guò)程中產(chǎn)生的影響,如轉(zhuǎn)發(fā)等互動(dòng)行為所蘊(yùn)含的影響力都未被考慮。一些研究表明,僅考慮用戶個(gè)人屬性得出的意見(jiàn)領(lǐng)袖,在其他評(píng)價(jià)指標(biāo)下并不一定具有較強(qiáng)的影響力[22]。另一方面,基于PageRank 和HITS 算法的發(fā)現(xiàn)方法為了構(gòu)建社交網(wǎng)絡(luò)結(jié)構(gòu),需要額外獲得所有用戶之間的關(guān)注關(guān)系,這極大提高了數(shù)據(jù)采集的復(fù)雜度,限制了此類方法在用戶數(shù)量較多的場(chǎng)景中的應(yīng)用。關(guān)于帖子影響力的研究也主要局限于帖子的互動(dòng)行為特征本身,如評(píng)論數(shù)等,此類數(shù)據(jù)只能反映與帖子的互動(dòng)行為產(chǎn)生的影響力,而很多用戶被推送帖子后,不一定會(huì)發(fā)生評(píng)論、轉(zhuǎn)發(fā)等互動(dòng)行為,因此僅憑互動(dòng)行為特征也不能全面客觀地反映出帖子產(chǎn)生的實(shí)際影響[18]。即傳統(tǒng)的基于影響力的意見(jiàn)領(lǐng)袖發(fā)現(xiàn)方法局限于部分?jǐn)?shù)據(jù)特征,并不能全面客觀地反映出用戶在具體話題中實(shí)際表現(xiàn)出的影響力。
基于情感分析的意見(jiàn)領(lǐng)袖發(fā)現(xiàn)方法通過(guò)分析用戶發(fā)表的文本內(nèi)容的情感傾向,以獲得用戶的情感特征,并基于情感特征構(gòu)建相關(guān)分類指標(biāo)。目前相關(guān)的意見(jiàn)領(lǐng)袖發(fā)現(xiàn)方法主要采用情感詞典或機(jī)器學(xué)習(xí)方法進(jìn)行情感分析[23]。肖宇等提出了基于情感詞典的LeaderRank 算法,該算法提高了意見(jiàn)領(lǐng)袖發(fā)現(xiàn)的準(zhǔn)確度[6]。曹玖新等結(jié)合情感詞典和決策樹模型,從情感維度度量意見(jiàn)領(lǐng)袖的影響[24]。陳濤等通過(guò)BERT 實(shí)現(xiàn)了短文本的情感特征提取與融合[25]。
情感詞典法將帶有情感傾向的情感詞集合映射到一個(gè)情感詞典,每一個(gè)情感詞在詞典中都對(duì)應(yīng)一個(gè)標(biāo)簽。對(duì)于給定文本,可以在情感詞典中查找到每個(gè)情感詞的對(duì)應(yīng)極性值,從而把情感分類轉(zhuǎn)化為一個(gè)數(shù)值計(jì)算問(wèn)題。英語(yǔ)語(yǔ)料主要采用Gerneral Inquirer[26]或SentiWordNet[27]作為詞典,中文語(yǔ)料則主要采用知網(wǎng)情感詞典HowNet[28]、清華大學(xué)中文褒貶義詞典和大連理工大學(xué)中文情感詞匯庫(kù)[29]等。機(jī)器學(xué)習(xí)方法則將情感傾向分析視為分類問(wèn)題,使用較多的模型有樸素貝葉斯(Na?ve Bayes)、最大熵(Maximmum Entropy)、支持向量機(jī)(SVM)等[30]。情感詞典無(wú)需額外訓(xùn)練,使用成本較低,但效果和詞典質(zhì)量高度相關(guān);機(jī)器學(xué)習(xí)方法則需進(jìn)行預(yù)訓(xùn)練,實(shí)際應(yīng)用中的成本較高。
針對(duì)傳統(tǒng)意見(jiàn)領(lǐng)袖發(fā)現(xiàn)方法因局限于部分?jǐn)?shù)據(jù)特征導(dǎo)致無(wú)法全面反映用戶實(shí)際具有的影響力,使得部分意見(jiàn)領(lǐng)袖被忽略的問(wèn)題,本文提出一種基于綜合影響力特征和情感特征的意見(jiàn)領(lǐng)袖發(fā)現(xiàn)方法(CI-SC),同時(shí)考慮用戶影響力和帖子影響力作為綜合影響力,并引入用戶的情感特征作為篩查依據(jù)。CI-SC 以綜合影響力特征和情感特征對(duì)社交平臺(tái)用戶進(jìn)行聚類,篩查發(fā)現(xiàn)在話題下具有較大影響力和明顯情感特征的意見(jiàn)領(lǐng)袖。主要步驟如圖1所示。
圖1 基于綜合影響力和情感特征的意見(jiàn)領(lǐng)袖發(fā)現(xiàn)方法(CI-SC)流程圖Fig.1 Flowchart of opinion leader discovery based on comprehensive influence and sentiment characteristics(CI-SC)
CI-SC 的算法流程如圖2所示。
圖2 偽代碼形式的CI-SC 算法流程Fig.2 Algorithm of CI-SC in pseudo-code form
基于用戶的個(gè)人屬性特征,計(jì)算每個(gè)用戶的基本影響力InfUseru,表示用戶對(duì)其粉絲在理論上具有的影響力,定義InfUseru的計(jì)算公式如下:
其中,WBu為用戶u的微博數(shù),WBmax為數(shù)據(jù)集中微博數(shù)最大值,WBmin為微博數(shù)最小值,F(xiàn)ANu為用戶u的粉絲數(shù),F(xiàn)ANmax為數(shù)據(jù)集中粉絲數(shù)最大值,F(xiàn)ANmin為粉絲數(shù)最小值,F(xiàn)Ou為用戶u的關(guān)注數(shù),F(xiàn)Omax為數(shù)據(jù)集中關(guān)注數(shù)最大值,F(xiàn)ANmin為關(guān)注數(shù)最小值。由于相關(guān)指標(biāo)的數(shù)據(jù)跨度較大,不利于后續(xù)計(jì)算,對(duì)原始數(shù)據(jù)進(jìn)行對(duì)數(shù)歸一化處理。Wwb,Wfan和Wfo分別為微博數(shù)、粉絲數(shù)和關(guān)注數(shù)的權(quán)重。采用層次分析方法AHP 構(gòu)建判斷矩陣計(jì)算出各因素權(quán)重,根據(jù)該矩陣能否通過(guò)一致性檢驗(yàn)判別是否接受該組權(quán)重。通過(guò)AHP 法得出的權(quán)重值為Wwb=0.2583,Wfan=0.637,Wfo=0.1047,一致性檢驗(yàn)結(jié)果為0.0331(小于閾值0.1),表明應(yīng)接受該組權(quán)重。
基于帖子的互動(dòng)行為特征,計(jì)算每個(gè)帖子的互動(dòng)指標(biāo)RCLScorei,表示轉(zhuǎn)發(fā)、評(píng)論和點(diǎn)贊等行為具有的互動(dòng)影響力,計(jì)算公式如下:
其中,Ri、Ci、Li表示帖子i的轉(zhuǎn)發(fā)、評(píng)論和點(diǎn)贊數(shù),Wr、Wc、Wl為轉(zhuǎn)發(fā)、評(píng)論和點(diǎn)贊數(shù)的權(quán)重,分別為0.4、0.4、0.2[31]。threshold為數(shù)據(jù)集中上訴指標(biāo)加權(quán)和的最大值。
基于發(fā)帖用戶的基本影響力InfUseru和帖子i的互動(dòng)指標(biāo)RCLscorei,計(jì)算帖子i的綜合影響力InfScorei,該影響力表示帖子在傳播過(guò)程中發(fā)生的互動(dòng)行為與單向推送產(chǎn)生的全部實(shí)際影響力。計(jì)算公式如下:
其中α∈[0,1],表示用戶基本影響力和帖子互動(dòng)影響力的相對(duì)權(quán)重,本方法設(shè)置α=0.5。
將屬于同一用戶u的所有帖子的綜合影響力相加,得到用戶u的總影響力TotalInfu和平均影響力AvgInfu,總影響力表示用戶的實(shí)際影響,平均影響力表示用戶造成影響的效率。計(jì)算公式如下:
其中D={D1,D2,…,Dn}為用戶u在此話題下發(fā)表的所有帖子的集合,n為集合D的帖子數(shù)量。
CI-SC 基于中文情感分析,需構(gòu)建針對(duì)中文文本的情感詞典。目前在中文語(yǔ)料上最為常見(jiàn)的情感詞典有知網(wǎng)Hownet、清華大學(xué)褒貶義詞典和大連理工大學(xué)中文情感詞匯本體庫(kù)3 種。其中,清華大學(xué)褒貶義詞典只標(biāo)注了每個(gè)詞語(yǔ)的褒貶義傾向,沒(méi)有標(biāo)注極性強(qiáng)度值,且無(wú)除褒貶義詞外的其他詞語(yǔ),如程度副詞與否定詞等,因此無(wú)法用于需要進(jìn)行數(shù)值計(jì)算的CI-SC 方法中。相比而言,大連理工大學(xué)中文情感詞匯本體庫(kù)包含更多數(shù)值特征,如詞語(yǔ)的詞性、情感類別、情感強(qiáng)度和極性等多方面的信息,因而更適合作為CI-SC 的基礎(chǔ)情感詞典。其一般格式如表1所示。
表1 情感詞匯本體庫(kù)格式樣例Table 1 Sample of the affective lexicon ontology
在情感詞匯本體庫(kù)中,詞語(yǔ)的情感被分為了7個(gè)大類下的21 個(gè)小類;情感強(qiáng)度被分為1 至9 檔,其中1 強(qiáng)度最弱;極性則根據(jù)正負(fù)面分為4 類,0 代表中性,1 代表正面,2 代表負(fù)面,3 代表同時(shí)具有正負(fù)兩面。該詞匯庫(kù)的情感強(qiáng)度值和極性值將用于CI-SC 方法的數(shù)值化計(jì)算過(guò)程,因此使用該詞匯庫(kù)作為CI-SC 詞典中的情感詞典。
除情感詞外,CI-SC 的計(jì)算過(guò)程還需要程度副詞詞典,目前中文詞典中,程度副詞質(zhì)量較高的是知網(wǎng)Hownet。其將常見(jiàn)的近400 個(gè)中英文程度副詞分為6 個(gè)等級(jí),分別為“最”、“很”、“較”、“稍微”、“略微”、“超過(guò)”。其程度副詞詞典較情感詞匯庫(kù)的副詞更為直觀簡(jiǎn)潔,更適合用于CI-SC 方法的后續(xù)計(jì)算。
CI-SC 綜合使用知網(wǎng)Hownet 和大連理工大學(xué)情感詞匯庫(kù)作為情感詞典,對(duì)帖子文本的情感極性進(jìn)行計(jì)算。其中情感詞匯本體庫(kù)作為基礎(chǔ)情感詞典,Hownet 作為程度副詞詞典。
通過(guò)詞典查找每條帖子中出現(xiàn)的所有情感詞的極性強(qiáng)度值,如存在程度副詞和否定詞,則對(duì)相應(yīng)情感詞的極性強(qiáng)度乘以對(duì)應(yīng)權(quán)重,將所有情感詞的極性強(qiáng)度值加權(quán)求和作為帖子的極性值Sentid。計(jì)算公式如下:
其中L是帖子d包含的所有情感詞的集合,Wi是情感詞i在程度副詞和否定詞影響下的權(quán)重,Sentii是情感詞i在詞典中的極性強(qiáng)度值。
由于不同用戶在同一話題下發(fā)表的帖子數(shù)量不同,為減少發(fā)帖量對(duì)后續(xù)情感分析的影響,對(duì)每個(gè)用戶的所有帖子的情感極性取均值,作為用戶的情感極性特征AvgSentiu,計(jì)算公式如下:
其中D={D1,D2,…,Dn}為用戶u在話題下發(fā)表的所有帖子的集合,n為集合D的帖子數(shù)量。
通過(guò)對(duì)帖子所持立場(chǎng)進(jìn)行標(biāo)注,得出每個(gè)用戶的立場(chǎng)傾向值A(chǔ)ttitudeu,代表用戶對(duì)于話題主體的態(tài)度,數(shù)值越大表示用戶越傾向于支持話題主體,反之則越傾向于反對(duì)話題主體,計(jì)算公式如下:
其中D={D1,D2,…,Dn}為用戶u在話題下發(fā)表的所有帖子的集合,Wd表示帖子d的立場(chǎng)權(quán)重,由帖子d的立場(chǎng)標(biāo)記tag決定。由于帖子的情感傾向和立場(chǎng)傾向相互獨(dú)立,一個(gè)立場(chǎng)上支持話題主體的帖子的情感可能是正面的也可能是負(fù)面的,因此在計(jì)算立場(chǎng)值時(shí)只需考慮情感極性值的絕對(duì)值。
基于用戶綜合影響力特征和情感特征對(duì)所有用戶進(jìn)行聚類分析,根據(jù)聚類分析結(jié)果發(fā)現(xiàn)具有較大影響力和明顯情感特征的意見(jiàn)領(lǐng)袖。
使用爬蟲工具weibo-search 和weibo-crawler,爬取微博 “方方日記”話題下所有熱門帖子的互動(dòng)行為數(shù)據(jù)和發(fā)帖用戶的個(gè)人屬性數(shù)據(jù)作為實(shí)驗(yàn)數(shù)據(jù)集。采集時(shí)間為2020年9月,采集范圍為2020年2月1日0 時(shí)至2020年6月30日23 時(shí),共采集到2000條帖子的互動(dòng)行為數(shù)據(jù)和920 名用戶的個(gè)人屬性數(shù)據(jù)。該數(shù)據(jù)集包含的具體特征如表2所示。
表2 數(shù)據(jù)特征一覽表Table 2 List of data features
實(shí)驗(yàn)的硬件配置是Intel(R)Core(TM)i7-9750H 2.60GHzCPU,內(nèi)存16GB,操作系統(tǒng)Windows10。
計(jì)算用戶綜合影響力特征。按照2.1 綜合影響力計(jì)算公式,計(jì)算所有用戶的總影響力TotalInfu和平均影響力AvgInfu作為用戶的綜合影響力特征。
計(jì)算用戶情感特征。按照2.2情感特征計(jì)算公式,計(jì)算所有用戶的情感極性值A(chǔ)vgSentiu和在此話題下的立場(chǎng)值A(chǔ)ttitudeu作為用戶的情感特征。
依據(jù)綜合影響力特征和情感特征,對(duì)采集到的所有用戶進(jìn)行聚類,發(fā)現(xiàn)具有較大影響力和明顯情感特征的意見(jiàn)領(lǐng)袖。
使用綜合影響力特征和情感特征對(duì)所有用戶進(jìn)行K-均值聚類,如圖3所示。
圖3 CI-SC 方法的K-均值聚類結(jié)果Fig.3 K-means clustering results of CI-SC
用戶被分為4 類。第3 類占94.67%,其影響力較低,代表主流人群;第2 類占0.87%,其影響力和主流人群沒(méi)有出現(xiàn)明顯區(qū)別,但情感特征值出現(xiàn)了明顯極化,代表主流人群中的少數(shù)極端派;第1 類和第4 類分別占3.91%和0.54%,其影響力指標(biāo)顯著高于主流人群,情感特征也表現(xiàn)出了明顯不同于主流人群的模式,其中第4 類的影響力指標(biāo)最為突出,故第4 類代表最為關(guān)鍵的核心意見(jiàn)領(lǐng)袖,第1 類代表普通意見(jiàn)領(lǐng)袖。4 類人群的綜合影響力特征和情感特征統(tǒng)計(jì)見(jiàn)表3。意見(jiàn)領(lǐng)袖的各類綜合影響力特征和情感特征都表現(xiàn)出了與主流人群的顯著差異,尤其以核心意見(jiàn)領(lǐng)袖最為突出。
表3 聚類結(jié)果的綜合影響力特征和情感特征對(duì)比Table 3 Comparison of comprehensive influence and sentiment characteristics among clustering results
核心意見(jiàn)領(lǐng)袖與普通意見(jiàn)領(lǐng)袖的平均影響力差別較小,平均值較主流人群高約0.12 到0.14,標(biāo)準(zhǔn)差較主流人群低20%,說(shuō)明意見(jiàn)領(lǐng)袖在輿情事件中造成影響的效率明顯高于主流人群,且意見(jiàn)領(lǐng)袖之間的效率差別小于主流人群內(nèi)部的效率差別,即意見(jiàn)領(lǐng)袖能夠更高效且穩(wěn)定地對(duì)輿論造成影響。在總影響力方面,核心意見(jiàn)領(lǐng)袖和普通意見(jiàn)領(lǐng)袖區(qū)別較大,但均與主流人群表現(xiàn)出顯著差距,其中普通意見(jiàn)領(lǐng)袖約較主流人群高1 個(gè)數(shù)量級(jí),核心意見(jiàn)領(lǐng)袖約高2 個(gè)數(shù)量級(jí),說(shuō)明意見(jiàn)領(lǐng)袖在輿情事件中造成的總影響遠(yuǎn)大于普通人,尤其是少數(shù)的核心意見(jiàn)領(lǐng)袖,其影響極為突出。
相比于主流人群,意見(jiàn)領(lǐng)袖同時(shí)表現(xiàn)出差異性和相似性。核心意見(jiàn)領(lǐng)袖的情感極性均值為-26.67,與主流人群均值-26.51 幾乎一致,但標(biāo)準(zhǔn)差僅為19.04,遠(yuǎn)小于主流人群的101.19,表明核心意見(jiàn)領(lǐng)袖在輿情事件中表現(xiàn)出的情感與主流人群非常相似,但變化更小,說(shuō)明核心意見(jiàn)領(lǐng)袖能夠得到主流人群廣泛共情與認(rèn)同。普通意見(jiàn)領(lǐng)袖的情感極性均值為-77.07,與主流人群區(qū)別較大,但標(biāo)準(zhǔn)差較為接近,為86.12,表明普通意見(jiàn)領(lǐng)袖在輿情事件中表現(xiàn)出的情感只與主流人群中的部分人相似,且變化更大,說(shuō)明普通意見(jiàn)領(lǐng)袖只能得到部分人群的共情與認(rèn)同。
在立場(chǎng)值方面,意見(jiàn)領(lǐng)袖相比主流人群,表現(xiàn)出了極為明顯的負(fù)面立場(chǎng)。其中核心意見(jiàn)領(lǐng)袖的立場(chǎng)最為堅(jiān)定,均值達(dá)到-1788.8,普通意見(jiàn)領(lǐng)袖次之,達(dá)到-734.4,而主流人群的立場(chǎng)均值僅為-2.3。說(shuō)明意見(jiàn)領(lǐng)袖不同于主流人群,在輿情事件中會(huì)表現(xiàn)出非常明確的立場(chǎng)偏向。
聚類結(jié)果的顯著性檢驗(yàn)結(jié)果表明,在所有特征上得到的P 值都小于0.001,說(shuō)明CI-SC 方法發(fā)現(xiàn)的意見(jiàn)領(lǐng)袖在綜合影響力特征和情感特征上都與主流人群表現(xiàn)出了極其顯著的統(tǒng)計(jì)學(xué)差異。
為進(jìn)一步驗(yàn)證CI-SC 方法發(fā)現(xiàn)結(jié)果的正確性,對(duì)發(fā)現(xiàn)的意見(jiàn)領(lǐng)袖進(jìn)行其他特征的分析。由于目前并不存在一個(gè)公認(rèn)精確的意見(jiàn)領(lǐng)袖評(píng)價(jià)標(biāo)準(zhǔn),因此采用Rogers 等提出的觀察法[32],通過(guò)用戶的其他身份信息和社交網(wǎng)絡(luò)關(guān)系判定發(fā)現(xiàn)結(jié)果是否符合意見(jiàn)領(lǐng)袖的定義。
CI-SC 方法發(fā)現(xiàn)的核心意見(jiàn)領(lǐng)袖的各項(xiàng)數(shù)據(jù)指標(biāo)均遠(yuǎn)超主流人群平均水平,且在身份類型、活躍領(lǐng)域上表現(xiàn)出相似性(表4)。在個(gè)人屬性特征方面,核心意見(jiàn)領(lǐng)袖的粉絲數(shù)超過(guò)主流人群中的大部分人,粉絲最多的“地瓜熊老六”高于主流人群中98%的用戶,粉絲最少的“騎掃帚的老道士”高于主流人群中69%的用戶。在互動(dòng)行為方面,主流人群的人均被轉(zhuǎn)發(fā)數(shù)、人均被評(píng)論數(shù)、人均被點(diǎn)贊數(shù)分別為294、342、3358,而核心意見(jiàn)領(lǐng)袖的對(duì)應(yīng)數(shù)據(jù)分別為2428 到50232、3062 到46881、21792 到631000,高出主流人群1 到2 個(gè)數(shù)量級(jí)。在身份類型方面,4名核心意見(jiàn)領(lǐng)袖具有自媒體身份,另外1 名則是知名互聯(lián)網(wǎng)社區(qū)的官方代表,這兩類身份的用戶在輿情事件的討論中都較為活躍。在活躍領(lǐng)域方面,“帝吧官微”、“上帝之鷹_5zn”、“地瓜熊老六”均為時(shí)政類話題下的知名大V;另外2 名的活躍領(lǐng)域雖不明確集中于時(shí)政類,但其發(fā)帖大量涉及新聞內(nèi)容,與輿情事件聯(lián)系較大。
表4 CI-SC 的核心意見(jiàn)領(lǐng)袖發(fā)現(xiàn)結(jié)果Table 4 Core opinion leaders identified by CI-SC
圖4 展示了核心意見(jiàn)領(lǐng)袖的部分社交網(wǎng)絡(luò)關(guān)系。研究發(fā)現(xiàn)核心意見(jiàn)領(lǐng)袖內(nèi)部普遍存在關(guān)注關(guān)系,“帝吧官微”、“上帝之鷹_5zn”、“地瓜熊老六”三人互相關(guān)注,“作者海菱”和“帝吧官微”互相關(guān)注,“騎掃帚的老道士”則關(guān)注了所有人。核心意見(jiàn)領(lǐng)袖還普遍得到公認(rèn)具有較大影響的其他用戶的關(guān)注,如國(guó)家級(jí)媒體和知名公眾人士等?!暗郯晒傥ⅰ北弧肮睬鄨F(tuán)中央”、“中國(guó)日?qǐng)?bào)”等官方媒體關(guān)注,“上帝之鷹_5zn”被“政委燦榮”等智庫(kù)專家關(guān)注,“地瓜熊老六”被“觀察者網(wǎng)”等半官方媒體關(guān)注。說(shuō)明CI-SC 方法發(fā)現(xiàn)的意見(jiàn)領(lǐng)袖受到了媒體、公眾人物和其他意見(jiàn)領(lǐng)袖的普遍關(guān)注,符合意見(jiàn)領(lǐng)袖的定義。
圖4 核心意見(jiàn)領(lǐng)袖的部分關(guān)注關(guān)系Fig.4 Part of the core opinion leaders’ following relationships
CI-SC 發(fā)現(xiàn)的意見(jiàn)領(lǐng)袖在信用度和認(rèn)證狀態(tài)等方面都表現(xiàn)出了和主流人群的明顯區(qū)別(圖5、圖6),其信用更好、認(rèn)證比例更高,說(shuō)明CI-SC 發(fā)現(xiàn)的意見(jiàn)領(lǐng)袖的個(gè)人信息更為真實(shí),信用更好,因而容易得到更多人認(rèn)同。
圖5 意見(jiàn)領(lǐng)袖和主流人群的信用等級(jí)對(duì)比圖Fig.5 Comparison of credit ratings between opinion leaders and mainstream people
圖6 意見(jiàn)領(lǐng)袖和主流人群的身份認(rèn)證狀態(tài)對(duì)比圖Fig.6 Comparison of the authentication status between opinion leaders and mainstream people
綜上,CI-SC 方法能夠發(fā)現(xiàn)在話題下具有較大影響力和明顯情感特征的意見(jiàn)領(lǐng)袖。通過(guò)對(duì)發(fā)現(xiàn)結(jié)果的檢查,可以驗(yàn)證CI-SC 方法發(fā)現(xiàn)結(jié)果的正確性。
為驗(yàn)證CI-SC 相對(duì)于傳統(tǒng)意見(jiàn)領(lǐng)袖發(fā)現(xiàn)方法的創(chuàng)新性,在實(shí)驗(yàn)數(shù)據(jù)集上進(jìn)行CI-SC 方法和傳統(tǒng)的基于影響力的意見(jiàn)領(lǐng)袖方法的對(duì)比實(shí)驗(yàn)。選用的對(duì)比算法為基于用戶粉絲數(shù)的UserRank 算法[17],基于交互數(shù)據(jù)的意見(jiàn)領(lǐng)袖識(shí)別算法,基于用戶重要性得分的微博客意見(jiàn)領(lǐng)袖識(shí)別算法 和引入活躍指數(shù)的微博用戶排名算法 。以不同算法發(fā)現(xiàn)的意見(jiàn)領(lǐng)袖集合的重合率作為評(píng)價(jià)指標(biāo),計(jì)算公式如下:
其中K為發(fā)現(xiàn)的意見(jiàn)領(lǐng)袖數(shù)量,a和b代表進(jìn)行對(duì)比的算法,TopResult表示基于對(duì)應(yīng)算法發(fā)現(xiàn)的Top-K意見(jiàn)領(lǐng)袖集合。實(shí)驗(yàn)結(jié)果如圖7所示。
圖7 CI-SC 與各對(duì)比算法的結(jié)果重合率Fig.7 Overlap of results between CI-SC and each comparison algorithm
實(shí)驗(yàn)結(jié)果顯示,在選取的意見(jiàn)領(lǐng)袖數(shù)量Top-K較少時(shí),本方法和選用的所有對(duì)比算法的結(jié)果重合率都較低,隨著選取的意見(jiàn)領(lǐng)袖數(shù)量上升,重合率也逐漸上升并趨于平穩(wěn)。在選定的意見(jiàn)領(lǐng)袖數(shù)量不高于CI-SC 發(fā)現(xiàn)的意見(jiàn)領(lǐng)袖數(shù)(41 人)時(shí),四種對(duì)比算法的重合率分別不高于0.136、0.601、0.166和0.155。其中,CI-SC 與基于交互數(shù)據(jù)的識(shí)別算法的結(jié)果重合率相對(duì)較高,但波動(dòng)較大,與其他三種算法的重合率則相對(duì)較低。由3.3 中的分析可知,CI-SC 方法的發(fā)現(xiàn)結(jié)果符合意見(jiàn)領(lǐng)袖的定義,且表現(xiàn)出了統(tǒng)計(jì)學(xué)顯著性,說(shuō)明CI-SC的發(fā)現(xiàn)結(jié)果正確有效。故對(duì)比實(shí)驗(yàn)中重合率較低的部分表明,CI-SC 方法發(fā)現(xiàn)了被傳統(tǒng)算法忽視的部分用戶,這些用戶在傳統(tǒng)意義上影響力有限,但實(shí)際上其發(fā)表的內(nèi)容在話題下能夠得到其他用戶的廣泛傳播和互動(dòng),屬于應(yīng)當(dāng)被發(fā)現(xiàn)的意見(jiàn)領(lǐng)袖。除基于交互數(shù)據(jù)的識(shí)別算法外,其他三種算法的重合率曲線非常相似,說(shuō)明這三種算法較為類似,都遺漏了相同一部分意見(jiàn)領(lǐng)袖,而CI-SC 方法能夠作為此類傳統(tǒng)方法的有效補(bǔ)充,用于發(fā)現(xiàn)這部分被遺漏的意見(jiàn)領(lǐng)袖。
上述實(shí)驗(yàn)基于新浪微博平臺(tái)“方方日記”話題下的相關(guān)數(shù)據(jù),對(duì)CI-SC 方法的有效性和正確性進(jìn)行了驗(yàn)證。事實(shí)上,除微博平臺(tái)的此話題外,CI-SC也可以有效用于其他網(wǎng)絡(luò)平臺(tái)和事件中的意見(jiàn)領(lǐng)袖發(fā)現(xiàn)。
CI-SC 的核心數(shù)據(jù)是基于用戶個(gè)人資料數(shù)據(jù)構(gòu)建的用戶基本影響力、基于用戶在選定話題下發(fā)言的統(tǒng)計(jì)數(shù)據(jù)的RCL 指標(biāo)和基于用戶發(fā)言內(nèi)容的情感特征。這三大類數(shù)據(jù)指標(biāo)的獲取實(shí)際上是平臺(tái)無(wú)關(guān)的,即在任何網(wǎng)絡(luò)平臺(tái)上都可以獲得用戶的這三類數(shù)據(jù),并以此進(jìn)行后續(xù)的相關(guān)計(jì)算與意見(jiàn)領(lǐng)袖發(fā)現(xiàn),不同平臺(tái)的區(qū)別僅僅在于最原始數(shù)據(jù)特征的名稱與對(duì)應(yīng)權(quán)重的取值。
以知乎平臺(tái)為例,其用戶的公開個(gè)人資料中包括“創(chuàng)作數(shù)”、“我關(guān)注的(人數(shù))”和“關(guān)注我的(人數(shù))”三項(xiàng)基本數(shù)據(jù),分別對(duì)應(yīng)微博平臺(tái)的“微博數(shù)”、“關(guān)注數(shù)”和“粉絲數(shù)”,即公式(1)中的WB、FO和FAN,因此僅需要將上述數(shù)據(jù)帶入(1)中的對(duì)應(yīng)項(xiàng),并修改對(duì)應(yīng)權(quán)重,即可使用CI-SC 獲得知乎用戶的基本影響力。另一方面,知乎帖子的數(shù)據(jù)指標(biāo)與微博僅有微小不同,沒(méi)有“轉(zhuǎn)發(fā)數(shù)”,但同樣具有“點(diǎn)贊數(shù)”和“評(píng)論數(shù)”指標(biāo),且另增了“喜歡數(shù)”和“收藏?cái)?shù)”兩個(gè)指標(biāo),因此僅需對(duì)(2)中的分子部分略作修改,將“點(diǎn)贊數(shù)、評(píng)論數(shù)、轉(zhuǎn)發(fā)數(shù)的加權(quán)和”修改為“點(diǎn)贊數(shù)、評(píng)論數(shù)、喜歡數(shù)、收藏?cái)?shù)的加權(quán)和”即可得到知乎帖子的RCL 指標(biāo)。此外,針對(duì)帖子文本內(nèi)容的情感極性計(jì)算和立場(chǎng)計(jì)算僅僅與文本所用的語(yǔ)言種類有關(guān),而不與平臺(tái)直接相關(guān),在知乎等中文平臺(tái)上,CI-SC 中情感分析部分的流程是完全一致的,都是對(duì)用戶在話題下發(fā)表的中文文本進(jìn)行分詞后,調(diào)用中文情感詞典進(jìn)行計(jì)算。而在得到用戶基本影響力、帖子RCL指標(biāo)、情感特征后,CI-SC流程中剩余的數(shù)據(jù)都可被同樣的計(jì)算公式得出。即在所有的中文平臺(tái)上,CI-SC 方法都可被應(yīng)用,需要調(diào)整的部分僅包括計(jì)算用戶基本影響力或帖子RCL指標(biāo)時(shí)所采用的具體原始數(shù)據(jù)的個(gè)數(shù)與權(quán)重。
除中文平臺(tái)外,CI-SC 也可用于其他語(yǔ)言平臺(tái)。以推特為例,其使用的原始數(shù)據(jù)與微博完全一致,用戶具有“發(fā)推數(shù)”、“關(guān)注數(shù)”、“粉絲數(shù)”等數(shù)據(jù),帖子具有“點(diǎn)贊數(shù)”、“轉(zhuǎn)發(fā)數(shù)”、“評(píng)論數(shù)”等數(shù)據(jù),其用戶基本影響力和帖子RCL 指標(biāo)的計(jì)算與微博平臺(tái)幾乎完全相同;唯一的區(qū)別在于情感分析部分,對(duì)于推特上的其他語(yǔ)言用戶,需要使用其他語(yǔ)言的情感詞典。替換為對(duì)應(yīng)語(yǔ)言詞典后,CI-SC 即可用于外語(yǔ)網(wǎng)絡(luò)平臺(tái)上的意見(jiàn)領(lǐng)袖發(fā)現(xiàn)。
CI-SC 所使用的“發(fā)帖數(shù)”、“粉絲數(shù)”、“點(diǎn)贊數(shù)”等數(shù)據(jù)是應(yīng)用最為廣泛的數(shù)據(jù)特征,幾乎所有主流平臺(tái)都擁有上述數(shù)據(jù),因此CI-SC 可以在主流平臺(tái)得到廣泛應(yīng)用。
除與平臺(tái)無(wú)關(guān)外,CI-SC 同樣與具體的輿情事件無(wú)關(guān)。輿情事件的不同只意味著被收集到的原始數(shù)據(jù)不同,但每個(gè)事件能夠收集到的原始數(shù)據(jù)最終都是確定的。而CI-SC 是定量方法,在原始輸入數(shù)據(jù)確定后,其輸出結(jié)果就將確定。因此,不存在CI-SC 只適用于某些輿情事件而不適用于另一些的可能性。只要確定了輿情事件對(duì)應(yīng)的原始數(shù)據(jù),CI-SC就可從中發(fā)現(xiàn)較為重要的意見(jiàn)領(lǐng)袖。
綜上,CI-SC 是平臺(tái)無(wú)關(guān)與事件無(wú)關(guān)的,并不僅僅適用于微博平臺(tái)的“方方日記”事件。在其他網(wǎng)絡(luò)平臺(tái)和其他輿情事件中,CI-SC 同樣可以對(duì)相關(guān)數(shù)據(jù)進(jìn)行分析,并從中發(fā)現(xiàn)對(duì)應(yīng)的意見(jiàn)領(lǐng)袖。CI-SC能夠適用于大多數(shù)主流平臺(tái),對(duì)當(dāng)前多平臺(tái)輿情事件的意見(jiàn)領(lǐng)袖發(fā)現(xiàn)具有一定的實(shí)際價(jià)值。
本文針對(duì)傳統(tǒng)的基于影響力的意見(jiàn)領(lǐng)袖發(fā)現(xiàn)方法局限于部分?jǐn)?shù)據(jù)特征,使得一些在話題下產(chǎn)生了較大實(shí)際影響的意見(jiàn)領(lǐng)袖被忽略的問(wèn)題,提出一種基于綜合影響力和情感特征的意見(jiàn)領(lǐng)袖發(fā)現(xiàn)方法CI-SC。
CI-SC 綜合考慮用戶的個(gè)人屬性特征和帖子的互動(dòng)行為特征,并在此基礎(chǔ)上引入用戶的情感特征,通過(guò)聚類實(shí)現(xiàn)意見(jiàn)領(lǐng)袖發(fā)現(xiàn)。相比于pageRank 和HITS 類發(fā)現(xiàn)算法,CI-SC 不需要獲取用戶之間的評(píng)論等互動(dòng)關(guān)系,只需要獲得用戶自身的數(shù)據(jù),因而數(shù)據(jù)采集的難度較低;此外,pageRank 和HITS 本質(zhì)上是基于數(shù)種指標(biāo)的排序算法,將對(duì)應(yīng)指標(biāo)排名靠前的用戶視為意見(jiàn)領(lǐng)袖,而CI-SC 的發(fā)現(xiàn)過(guò)程基于綜合考慮影響力和情感特征的聚類算法,在得到類別后再使用影響力指標(biāo)進(jìn)行類內(nèi)排序。實(shí)驗(yàn)表明,CI-SC 方法的發(fā)現(xiàn)結(jié)果符合意見(jiàn)領(lǐng)袖的定義,表現(xiàn)出了統(tǒng)計(jì)學(xué)顯著性,且與傳統(tǒng)意見(jiàn)領(lǐng)袖發(fā)現(xiàn)方法的結(jié)果的重合率較低。說(shuō)明CI-SC 方法可以發(fā)現(xiàn)傳統(tǒng)算法容易忽略的,在輿情事件中具有較大實(shí)際影響和明顯情感特征意見(jiàn)領(lǐng)袖,在輿情分析與引導(dǎo)中具有一定的實(shí)際意義與應(yīng)用價(jià)值。
目前對(duì)CI-SC 方法的研究集中在有限規(guī)模的數(shù)據(jù)集,可在更大規(guī)模的數(shù)據(jù)集上進(jìn)行進(jìn)一步實(shí)驗(yàn),并引入更多方面的特征,從而實(shí)現(xiàn)更有效的意見(jiàn)領(lǐng)袖發(fā)現(xiàn)。
利益沖突聲明
所有作者聲明不存在利益沖突關(guān)系。